You can make anything
by writing

C.S.Lewis

by SPECAL Jan 28. 2025

딥시크 쇼크는 카지노 게임 추천 업계에 어떤 영향을 미칠까?

딥시크 활용과 온디바이스 ai

이전글에서 딥시크의 논문에 대해서 분석했습니다. 사실 이러한 기술이 그래서 어디에 적용되는가에 대한 설명을 안 드려서 이번에 이야기해보려 합니다.


먼저 결론부터 이야기하고 들어가면"딥시크의 핵심은 온디바이스 ai의 방식을 대중에게 가장 잘 보여준 모델이다." 이렇게 정리할 수 있을 것 같습니다.

카지노 게임 추천


잠시 2024 ces기조연설로 돌아가봅시다. 당시 인텔 ceo는 온디바이스 ai의 시대가 올 거라는 말을 했지만 학자들의 반응은 반도체의 퀀텀점프가 있어야 한다. 현행 반도체로는 아직 부족하다는 평가가 주를 이뤘습니다.


하지만 이러한 문제에 딥시크는 대중에게 답변을 준 상태입니다.


해외에서는 unsloth이라는 팀이 벌써부터 로컬로 구현을 했고


카지노 게임 추천


레딧에서는 수만 개의 토론이 일어나며 꽤나 이슈가 되고 있죠

카지노 게임 추천


저도 1차로 글을올리고현업에서 석사 하는 친구에게 전화했서 이야기했더니, 너도 그 거물어보냐는 반응이었습니다. 카지노 게임 추천업계에서는실제로 엔비디아나 open ai에 비해 차별점을 가지려면 저전력 저비용으로 치고 들어올 수밖에 없고,저기 말고는 수가 없다.라는 이야기를 많이 하고 있었답니다.


실제로 관련 자료들을 찾아보니, 2022년 바이든 행정부의 제제로 인해,중국은 저비용 저전력 ai중심으로 연구 중이라는 기사들이 과거에 꽤 있던 것을 확인했습니다.



지인은 오픈 카지노 게임 추천나 엔비디아에서 파고들 부분이 유일하기에 그쪽을 공격해 마케팅을 잘한 거라는 반응이었죠, "딱히 새로운 개념도 아니고 당기존의 개념들을 짬뽕한 거라 방향성이 다른 거다. 너도 써봐 생각보다 부족할걸? 다른 곳도 많이 만들 수 있는 수준인데 공개 안 한 거야"라는 말을 하더군요


지금 보시고 계신 내용은 오픈 카지노 게임 추천 세미나를 캡처한 것으로 번역해 보면

이런 내용으로 정리됩니다.

우리는 이러한 기술들을 모델에 직접적으로 가르치지 않습니다. 대신, 모델을 약하게 동기부여하고, 능력이 자연스럽게 나타나도록 합니다.
자연스럽게 나타나는 능력들은 보통 더 일반적인 기술 세트입니다. 이러한 능력이 나타나기 위해서는 직접적으로 가르치는 대신, 동기부여되어야 합니다.
모델을 약하게 동기부여하는 것은 훨씬 더 많은 컴퓨팅 자원을 요구합니다. 즉, 이것은 더 확장 가능한 교육 전략입니다.

결국 OPEN 카지노 게임 추천도 잘 알고 있는 내용이었고 딱히 새로운 아이디어는 아니었다는 거죠 심지어 알파고 0의 논문을 일부 줬는데

전(前) 버전의 알파고에선 15만 건의 기보(棋譜, 한판의 바둑을 두어 나간 기록)로부터 3,000만 개의 수를 입력받아 지도학습(supervised leaning) 방식으로 정책망을 학습해 나갔다. 이렇게 다음 수를 예측하는 정확도를 57%까지 끌어올린 이후, 알파고는 강화학습(reinforcement learning)을 통해서 정책망과 가치망을 다듬어 나갔다. 이 단계에선 스스로 새로운 전략을 발견하고, 바둑에서 이기는 법을 학습했다.

이런 배경지식이 있으니 연구자들은딥시크 쇼크라고 표현하는 건웃기는 표현이고 그냥 주식쟁이들이 붙인 이름에 흔들릴 필요는 없다 고 일축하더군요.


좋습니다. 그렇게 새로운 건 아니라고 쳐도 그럼 이게 어떤 영향을 끼치는 가 대하여 답변을 해보죠


카지노 게임 추천의 종류

제가 처음"딥시크의 핵심은 온디바이스 ai의 방식을 대중에게 가장 잘 보여준 모델이다."라고 말씀드렸죠?


우선 이에 대해 논하기 위해서는 서버 카지노 게임 추천 에지 카지노 게임 추천 온디바이스 카지노 게임 추천에 대한 기본적인 이해가 필요합니다 먼저 이걸 이야기해 보죠


서버 카지노 게임 추천(Server 카지노 게임 추천)


서버 카지노 게임 추천는 중앙 집중형 데이터센터 또는 클라우드에서 카지노 게임 추천 모델의 학습 및 추론을 수행하는 방식을 말합니다.


대표적인 예시가 우리가 사용하는 GPT 같은 녀석으로대규모 데이터 처리와 고성능 연산에 최적화된 방식으로, 분산 컴퓨팅 환경과 강력한 하드웨어 자원을 활용하여 카지노 게임 추천 모델의 훈련(training)과 추론(inference)을 강화시킨 모델이죠


서버 카지노 게임 추천는 클라이언트와 네트워크로 연결된 구조를 가지고 있어, 클라이언트는 데이터를 서버로 전송하여 연산 결과를 전달기에,현대의 대형 언어 모델(Large Language Model, LLM), 이미지 생성 모델, 음성 인식 모델 등에서 주로 활용됩니다.


문제는요? 통신을 해야 하기에 무선으로 연결된 시스템에서는 그만큼 느려지는 경향성이 있고 오류발생 가능성이 있다는 거죠 거이게


Disk Size가 테라 단위부터 시작하기에 우리는 이걸 핸드폰에서 자체로 사용하거나 차량에서 사용하는데 제한이 컸습니다.


에지 카지노 게임 추천(Edge 카지노 게임 추천)


에지 카지노 게임 추천는 데이터를 생성하는 장치 가까운 에지(Edge)에서 카지노 게임 추천 모델의 학습 또는 추론을 수행하는 방식을 의미합니다."에지"는 모서리라는 뜻으로,주로 IoT 기기, 네트워크 게이트웨이, 에지 서버 등 데이터 소스와 가까운 분산형 컴퓨팅 장치를 지칭하는 것이죠.

에지 카지노 게임 추천는 데이터센터와 클라이언트 사이의 중간 단계에서 연산을 수행하여 실시간 처리, 지연 시간 단축, 프라이버시 강화를 목표로 만들어진 카지노 게임 추천로 데이터를 중앙 서버로 전송하기 전에 로컬 연산을 통해 처리함으로써 네트워크 부하를 줄이고, 민감한 데이터를 로컬에서 관리하여 보안성을 높이는 것이 특징입니다.


위에서 말하는 클라우드 카지노 게임 추천 원본 데이터가 클라우드 서버로 전송된 후, 모델이 학습(training) 또는 추론(inference)을 수행하는 모델입니다.


사실 둘 다 가공을 하는 건 비슷한데 엣지는 모델 경량화하여 1차 가공 후 연산하는 것이고 클라우드는 클라우드에서 가공하는 것이 특징이죠, 여기까지는 어느 정도 중앙 통제가 필요하지만 이제부터이야기할 온디바이스 카지노 게임 추천 에서는 이야기가 달라집니다.


온디바이스 카지노 게임 추천(On-device 카지노 게임 추천)


온디바이스 카지노 게임 추천는 사용자 디바이스 자체에서 카지노 게임 추천 모델의 추론(inference) 또는 일부 학습(training)을 수행하는 방식입니다. 스마트폰, 웨어러블 기기, IoT 센서, 가전제품 등 소형 디바이스 내에서 카지노 게임 추천 연산이 실행되며, 이를 통해 네트워크 연결 없이 독립적인 카지노 게임 추천 기능 수행하는 것이죠.


이번 삼성전자 갤럭시 25에 사용된 카지노 게임 추천기능을 떠올리시면 어렵지 않게 이해가 되실 겁니다.


온디바이스 카지노 게임 추천는 에지 카지노 게임 추천의 한 유형으로 볼 수 있으나, 에지 서버 없이 기기 자체에서 모든 처리를 수행한다는 점이 다르다 정도가 중요한 파트 입니다.


여기서 중요한 지점은 이러한 온디바이스 카지노 게임 추천를 활용하는데 있어 모델을 경량화 하는것이 핵심 이었고,

실제 경량화하는 과정에서 이번 딥시크의 방식이 좋은 성능을 보였다는 게화제가된 이유 입니다.


"딥시크의 핵심은 온디바이스 ai의 방식을 대중에게 가장 잘 보여준 모델이다."라는 말이 이제 좀 이해가 되시나요? 그렇다면 얼마나 줄어들었길래 그런 걸까요? 한번 이야기해 봐보시죠


딥시크를 구현하면 어느 정도의 성능일까?

실제로 unsloth 팀에서 이야기한 정보에 따르면


개인 컴퓨터로 수행하는데 필요한 용량을 720GB에서 80% 감소된 140GB까지 줄여 구현하였다 이야기합니다.


We managed to selectively quantize cert카지노 게임 추천n layers to higher bits (like 4bit), and leave most MoE layers (like those used in GPT-4) to 1.5bit

물론 전부를 쳐낸 게 아니라 글의 이름처럼 Dynamic 1.58-bit 즉 동적으로 1.58bit로 구현할 수 있다는 것인데 좀 더 설명하자면 특정파트는 가중치를 두고 특정 파는 줄여서 만들었다는 거죠


어우 이게 뭔 소리야 싶으시죠? 여기서 핵심적인 개념 Quantization이 등장합니다.


Quantization


Quantization을 직관적으로 설명하면 디지털 신호를 아날로그화 했을 때 몇 개로 쪼갤 거냐입니다.

8비트 정수 4비트 정수 2비트 정수까지 쉽게 말하면 해상도를 제어하는 기법을 할 수 있는 거죠


그럼 비트가 높을수록 정확한 파형이 나오는 거잖아요? 네 맞습니다 비트가 클수록 근사화된 자료 받을 수 있고 정확도가 높아지겠으나 중요한 지점은 그만큼 용량이 높아진다는 겁니다.


대신 이걸 낮춘다면 그만큼 용량이 낮아지는 것이죠 그러니까 이번 딥시크의 경우 이런 경량화를 통해 용량을 줄일 수 있었다는 거고 이를 통해 통신이 불가하거나 잘 안되더라도 그냥 기기 혼자 작동하는 온디바이스 카지노 게임 추천(On-device 카지노 게임 추천)에 적용할 수 있는 기술적인 해법이다.라고 설명드릴 수 있는 겁니다.


이해가 가시나요? 자그럼 실제로 어느 정도 효율이 나오는지 이야기해 봐야겠죠?


우선 세부적으로 들어가 전에 떠오르는 질문이"그럼 무조건 낮은 게 좋은 거 아니에요?" 일텐데요 자료를 보시면 무조건그렇진 않습니다.


구현화한 블로그에 따르면 전부 다 낮은 양자화를 진행하면 모델 붕괴현상이 일어난다, 즉 중요한부분은 4bit로 특정 부분은 1.5bit로 구현을 하는 Dynamic Quantization이 핵심이다 이렇게 이해하시면 됩니다.

실제 결과치를 보게 되면 good 기준으로 700GB짜리 모델을 158GB까지 줄였다! 이게 매우 중요한 지점입니다.


현행 모델들이 테라단위에서 놀고 있는데이번 공개된 딥시크에서 보여준 RL학습을 활용한다면 이 정도까지 줄일 수 있다는 발표인 겁니다.


물론 비슷하게 구현화 한 사례들이 있다곤 하지만, 일반인들은 접근이 불가능 하였고 이렇게 구조까지 다 까버린건 처음이니까요


실제로 1.58bit 모델 로도 아래와 같은 게임을 잘 구현화한 것을 볼 수 있습니다.


그래서요? 용량이 이렇게 줄면 뭐가 좋냐고요?


온디바이스 카지노 게임 추천가 확산되지 못했던 가장 큰 이유였던 반도체 나장비의 물리적인 가격 문제를 어느 정도 극복한 방식이다. 이렇게 이해하시면 됩니다.


700GB에서 200GB로 줄어든다고? 단순 용량이 60% 감소하면 그만큼 하드웨어가 줄어드니 비슷한 성능만 나와준다면 말 그대로 스마트 워치에서 자체연산을 하는 카지노 게임 추천를 달고 다니면서 MOE기반으로내가 원하는 전문 모델들을 만들어낸다면? 더더욱 용량이 줄어들 가능성도 있는 것이죠


정리하지면

기존 카지노 게임 추천방식이 아닌 강화학습(Reinforcement Learning ) 기반의 모델에서는 동적양자화(Dyna-mic Quantization) 기반으로 용량을 낮춰 온디바이스 카지노 게임 추천를 더 빠르게 상용화할 수 있어 대단한 거다

이렇게 이해하시면 되겠습니다.


딥시크의 구조


지금 보고 게신건 공개된 딥시크의 구조로 보고서에서흥미로운 부분은 아래 문장입니다.

we noted that the first 3 layers of DeepSeek are fully dense, and not MoE. As a refresher, MoE (mixture of experts) layers allow us to increase the number of parameters in a model

이걸 해석해 보자면


DeepSeek의 첫 3개 레이어는 "Dense"한데, 여기서Dense Layeyer는 것은 모델의 첫 3개 레이어가 모든 뉴런을 활성화하는 완전 연결층으로 설계되어 있다는 뜻으로, 일반적인MoE 구조와 다르게, 모든 입력 뉴런이 모든 출력 뉴런과 연결되어 있기에, 일반적인Dense Layer와 달리, 모델의 전체 뉴런 중 일부만 선택적으로 활성화하여 연산을 수행할 수 있다.


즉 MoE를 사용하면 Dense Layer에 비해 더 많은 파라미터를 포함할 수 있지만, 동시에 모든 파라미터를 매번 사용하지 않으므로 연산 효율성이 높아질 수 있다.


조금 더 직관적으로 말하면 더 효율적인 방식으로 연산할 수 있음을 의미합니다.


결론적으로 이 팀에서 이야기하는 핵심은

This leaves ~88% of the weights as the MoE weights! By quantizing them to 1.58bit, we can massively shrink the model!

기존 모델 대비 88% 감량할 수 있다!라는 주장입니다.


물론 이 모델이 신뢰가능한가 와 관련된 검증이필요하겠지만 말이에요


구현하기 위한 기술


아 그래 좋은 기술이네 까지는 이해 하셨을 겁니다 하지만 몇몇 문제들이 있습니다. 결국 이러한 모델들의 cold-start data의 중요성을 언급하며 DeepSeek-V3와 같은 기존의 프런티어 모델을 사용해 고품질 데이터를 생성한다 언급합니다.


결국 핵심은 콜드스타트 데이터를 만들기 위해 DeepSeek-V3-Base를 미세 조정하기 위해 수천 개의 콜드 스타트 데이터를 만들었고,이러한 기반 데이터를 만드는 데 있어 강화 학습(Reinforcement Learning), Chain-of-Thought(CoT)이 적용된 Open카지노 게임 추천의 GPT-4, Google의 Gemini, Anthropic의 Claude 등의 프런티어 카지노 게임 추천들이필요한 겁니다.


돌고 돌아 결국 많은 데이터 해서 잘 가공된 데이터들이 필요한 상황으로 회귀하게 되는 것이죠


결국 딥시크의 논문에서 조차 이 모델에 들어갈 데이터들을 잘 가 공해 주는 초기모델의 중요성을 강조하고 있으니 open ai는 이제 중국에 먹힐 거다 같은 걱정은 안 하셔도 될 것 같습니다.


결론적으로 이러한 모델의 결과로 온디바이스 ai는 더더욱가속화될 것이고 기존 한계를 가졌던 자율주행 레벨 4~5 분야 개발의 속도증가, 그 이외에 에이전트 및 개인화된 모델의 확산증가가 가속화될 거다 이렇게 설명드리며 이번글을 마치겠습니다.



[1] D. Guo, D. Yang, H. Zhang, et al., "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, " DeepSeek-카지노 게임 추천, Jan. 2025.

[2] Shumailov, I., Yao, J., & Ioannou, I. (2024). 카지노 게임 추천 models collapse when trained on recursively generated data.Nature, 636, 123-131.

[3] Jones, N. (2024). The 카지노 게임 추천 revolution is running out of data: What can researchers do?

Nature, 636, 290-292.

[4] Clemmensen, L. H., & Kjærsgaard, R. D. (2023). Data Representativity for Machine Learning and 카지노 게임 추천 Systems. Retrieved from

[5] J. Wiesinger, P. Marlow, and V. Vuskovic, Agents. September 2024. [Online].

[6]Run DeepSeek R1-Dynamic 1.58-bit

[7]China’s 카지노 게임 추천 future in a quest for geopolitical, computing and electric power

브런치는 최신 브라우저에 최적화 되어있습니다.