딥시크 온라인 카지노 게임 논문 분석과, 딥시크 실사용 후기
어제 엔비디아는 꽤나 큰 하락을 맞았습니다. 실제로 꽤나 충격적인 이야기였는데요 엔케리 트레이드의 영향이다. 딥시크의 영향이다 많은 주장들이 있지만 어제 앱스토어기준딥시크가 GPT의 순위를 추월한 것이원인 중 한 가지로 분석됩니다.
그리고 오늘 엔비디아 하락과 맞물려 이슈가 되며 GPT보다 딥시크가 뛰어나다 엔비디아 망할 거다.
이런 이야기가 나오며, 이슈가 커지고 있습니다.
그럼 의문이 듭니다. 딥시크가 더 뛰어난 걸까요? 아니 그 정도로 퀀텀점프일까요? 실제로 성능이 얼마나 될까요? 이런 의문을 해결하기 위해 저는 딥시크 보고서를 찾아보니 발표 보고서가 있더군요.
위 그래프는딥시크에서 발표한"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning"에서리포트를 자료중 일부로R1모델의성능을 보여주는 자료 입니다.
뭐 이런저런 테스트를 했고 O1을 따라잡은 지표도 있네요?성능이 상당히 뛰어나 보입니다.
이 그래프를 보며 중국 기술이 상당히 올라왔구나, 그래서 실제로 어떤 기술이 적용했지? 라는 의문이 들었고
한편으로는 이거진짜야? 거짓말이야? 중국자료인데 믿을수있나 라는 생각도 동시에 들었습니다.
그래서 오늘은 이 딥시크의 보고서 분석을 해보려 합니다.
결론부터 말씀드리면 이번에 딥시크가 엔지니어들에게 충격을 준 이유는 "사전학습 없이 강화학습만으로 성능을 끌어올릴 수 있다" 이 주장입니다.
이거에 논제를 논하려면 먼저 사전학습과 강화학습의 기본적인 원리에 대해 간단한 이해가 있어야 하니,
먼저 기존의 방식 이해하셔야 합니다.
지도학습은 기본적으로 정답(레이블)이 주어진 문제를 풀기 위해 컴퓨터가 학습하는 방식입니다.
이런 식으로 뒤에 오는 말이 뭔가요?라는 질문을 던지며 최적의 답을 준다던가
머신러닝에서 유명한 문제인 “고양이 사진”과 “개 사진”이 각각 라벨(정답)로 붙어 있는 이미지들을 컴퓨터에게 잔뜩 보여주면서, “이 사진은 고양이, 저 사진은 개”라고 가르쳐주는 문제가 유명하죠
여기서 핵심은 컴퓨터는 “고양이”가 보통 어떤 특징(귀 모양, 얼굴 구조, 털 패턴 등)을 가지는지, “개”가 어떤 특징을 가지는지를 스스로 통계적으로 배우며 어느 정도 정답이 있는 문제를 풀어 왔다는 겁니다.
가장 중요한 건 "정답"이 있기에 답을 찾아왔다는 것이죠
이제 저걸 엄청나게 확장해 봅시다. 단순한 확장 같아 보이지만 테라단위에서 페타를 거쳐엑사까지 가보는 거예요데이터의 양(量)이 방대하고, 컴퓨팅 자원도 매우 많이 사용한다는 것뿐 아니냐?이렇게 생각하실 수 있지만 소총과 미사일도 화약에 불을 붙여 빠르게 쏴서 적을 섬멸한다는 메커니즘은 동일하거든요비유하자면 그렇다는겁니다.
아무튼 돌아와서, 예전에는 수천 장이나 수만 장의 사진으로도 “충분히 크다”라고 했지만, 요즘에는 수억 장, 수십 억 장의 이미지나 텍스트를 모아서 학습에 사용합니다.특히 텍스트(예: 인터넷 웹문서, 책, 논문, SNS 글 등)를 천억 개 이상의 단어(토큰) 규모로 모아서 학습시키는 경우가 있는 것이죠.
여기서의 핵심, 위에 지도 학습과 같이 텍스트 안에 이미 “정답”이 있다는 것으로 인식하는 겁니다.
위처럼 예시를 들어보면
“김승현이 가장 좋아하는 X는X 다”
위와 같은 같은 문장에서, 빈칸 X에 어떤 단어가 올지 자기 스스로 데이터를 보고 예측하는 것이죠.
“김승현은 가장 좋아하는 음식은 고기다”
이런 식으로 인터넷에 있는 자료들을 기반으로 X에올 가장 확률 높은 단어를 찾는 것 자체를‘자기 지도학습(self-supervised learning)’이라 위에서 설명드렸죠? 이걸 여러 변수를 넣어엄청나게 키우는 겁니다.
아래와같은 방식을 활용해서요
물론 이것만으로는 성능이 아쉬워, 여기서 이제 GPT의 성능을 급격하게 끌어올려준 RLHF가 등장합니다.
핵심을 말하면 보상을 주는 방식을 주는 방식으로더 나은 답변을 하게 만드는 거죠
RLHF의 핵심은 인간의 피드백을 기반으로 별도의 온라인 카지노 게임보상 모델을 훈련한 후 이 모델을 보상 함수로 사용하여 RL을 통해 정책을 최적화하는 것입니다.
실제로 온라인 카지노 게임 프롬프트 엔지니어링 기법 중에 팁을 줄게 벌을 줄 거야로 더 나은 결과물을 받았다는 논문이 한때 유명했었죠? 그 방식을 확장한 겁니다.
조금 더 설명해 보면 이미 잘 학습된 모델(예: GPT)이 있다고 할 때,*강화학습(RL)”이라는 온라인 카지노 게임 분야 기법을 사용해 "에이전트(agent)가 행동을 했을 때, 그 행동에 대한 보상(reward)을 받아 더 좋은 행동을 하도록 학습하는 방법”이라 설명할 수 있겠네요
당시 오픈 온라인 카지노 게임가 ChatGPT를 개발할 때, 대규모 데이터로 GPT를 먼저 학습한 뒤, RLHF 과정을 거쳐 사용자 경험을 개선했다는 이야기는 워낙 유명하니까요
딥시크에 대해 논하기전 COT를 먼저 아시고 가셔야합니다.
COT는이전 글 에이전트의 시대에서 소개드렸던 기법인데요
Ch온라인 카지노 게임n-of-Thought (CoT) 실제로제가 가장 자주 애정하는 방식으로,중간 단계를 통해 추론 능력을 강화하는 프레임워크입니다.사용자의 질의에 대한 문제 해결 과정을 여러 단계로 나누어 순차적으로 논리적 사고를 수행하니 제한 조건에는 최적화되어 있고.단순히 최종 답변만 생성하는 것이 아니라, 각 단계에서 중간 사고 과정을 명시하기에 중간단계를 수정해 나가며 세부적 연결고리를 만들어나가는 방식정도로 이해하시면 됩니다.
사실 딥시크에서 주장하는 RL(강화학습)은 흥미로운 기법이지만 완전히 새로운 기법은 아닙니다 강화학습 기반을 제와한상과 벌을 주는 기법은 구글이나 OPEN 온라인 카지노 게임 프롬프트 엔지니어링에서 널리 쓰인 기법이었죠
다만 딥시크는 이걸 초기부터 적용한 게 다른 거죠 관련 프롬프트 이야기는 아래서 확인해 주시고 일단 딥시크로 가봅시다.
“딥시크”는 순수 강화학습 기반+제미나이에서 사용한 MoE (Mixture of Experts)를 사용했다 주장하고 있는데요이 부분이 많은 사람들이 충격을 먹은 부분입니다.
물론 R1은 순수하게 강화학습만을 사용한 모델은 아닙니다만 우선 이 그래프를 먼저 보시죠
실제로 딥시크의 학습데이터로 COT를 잘 생성했다는 이야기인데요 이 개발과정에 흥미로운 부분이 많습니다.
딥시크에서 주장하는 바는 강화학습(RL)에서 보상(reward)을 활용했다 주장합니다.
DeepSeek-R1-Zero를 학습하기 위해, 위에서 설명한 두 가지 유형의 규칙 기반(rule-based) 보상 시스템을 활용했다 하는데요 조금 번역해 보면
정확도 보상(Accuracy rewards): 이 보상 모델은 응답의 정∙오 여부를 평가합니다. 예를 들어, 수학 문제와 같이 결과가 결정론적(deterministic)인 경우에는, 모델에게 특정 형식(예: 상자 안에 답을 작성하는 방식)으로 최종 답안을 제시하도록 요구함으로써, 정답 여부를 규칙 기반으로 안정적으로 검증할 수 있습니다. LeetCode 문제의 경우 역시, 사전에 정의된 테스트 케이스를 기반으로 컴파일러를 활용하여 모델의 답안이 올바른지 피드백을 얻을 수 있습니다.
간단한 게 말해 답변이 정답에 가까우면 높은 점수 틀리면 낮은 점수를 부여하는 방식으로 훈련시켰다는 겁니다. 보상 점수를 명백히 해서 인식시킨 거죠
형식 보상(Format rewards): 정확도 보상 모델 외에도, 모델이 사고 과정을 think와/think태그 사이에 두도록 강제하는 “형식 보상 모델(format reward model)”을 병행하여 활용합니다.
이 녀석은 쉽게 말하면 구조화 지표라고 이해하시면 됩니다 글이 구조화 좋고 잘 쓰여있다면 추가점수를 부여한 겁니다.
그리고 논문에서는 이러한 방식에서 학습시키면"아하! 모멘트"라는 녀석이 나타난 다 주장합니다.
핵심을 번역하자면
“아하 모멘트(aha moment)”가 발생한다는 점입니다. 표 3(Table 3)에 제시된 예시에서 볼 수 있듯이, 이 모멘트는 모델이 중간 버전(intermediate version) 상태일 때 나타납니다.
적절한 보상(인센티브)만 부여하면 모델이 스스로 고급 문제 해결 전략(advanced problem-solving strategies)을 개발해 낸다는 사실을 입증하기 때문입니다.
이두문장으로 요약할 수 있겠네요 이방식으로 학습을 시키면 아하! 하는 순간이 온다는 겁니다. R1모델이 다른 LLM 모델과 가지는 차이라고 설명드릴 수 있겠네요
논문에서는 이방식으로 학습시킨 DeepSeek-R1-Zero의 한계가 있다고 하더군요,낮은 가독성(readab-ility)이나 언어가 섞여 나오는 문제(language mixing) 등과 같은 초기 문제가 있었다는 겁니다.
이전에 말씀 드렸지만더 DeepSeek-R1-Zero는 이런저런 문제가 있었다 설명 드렸습니다. 딥시크는 이러한 문제를 해결하기 위해콜드 스타트 데이터를 활용한 강화학습(RL) 기법을 활용해 DeepSeek-R1을 만든다고 주장했는데요 내용은 아래와 같습니다.
DeepSeek-R1-Zero와 달리, DeepSeek-R1에서는 베이스 모델(base model) 단계에서 시작되는 강화학습(RL) 초기의 불안정한 콜드 스타트(cold start)용 데이터를 통해초기 구간을 방지했다더군요
여기서 Cold Start는 말 그대로 '차가운 상태에서의 시작'으로. 온라인 카지노 게임 워크로드 콘텍스트에서 이는 작업 환경이 완전히 준비되지 않은 상태에서 새로운 작업을 시작해야 할 때 발생하는 지연 정도로이해하시면 됩니다.
조금 더 직관적으로 말하면 처음에 이상한 말이나 논리구조가 알아먹기 힘든 부분을 미리 디렉션해 줬다는 거죠
먼저 소량의 ‘ CoT(long Chain-of-Thought)’ 데이터를 수집하여 모델을 파인튜닝 한 뒤, 이를 초기 강화학습 액터(actor)로 활용했다. 정도로 정리할수 있겠습니다.
세부적인 방식은 아래와 같은데요
Few-shot Prompting: 롱 CoT 예시를 제공하는 몇몇 샘플(few-shot) 기반의 프롬프트 구성
Reflection & Verification: 모델이직접 답변(반성검증 과정 포함)을 생성하는유도프롬프트 작성
DeepSeek-R1-Zero 결과 활용: DeepSeek-R1-Zero가 생성한 출력을 가독성 있게 정리하여 수집
인간 후처리(Human Post-processing): 인간 어노테이터가 결과물을 검수, 추가보완하는 방식
이 네 가지를 활용해수천 건의 콜드 스타트 데이터를 확보했다 군요, 이를 DeepSeek-V3-Base 모델에 파인튜닝하여 RL을 시작하는 방식을 활용한 겁니다.
이러한 시스템을 바탕으로 결국 아래와 같은 결과를 도출한 것이죠
일단 딥시크는 open ai에 비해 투자금액이 적다는 주장이 주를 이룹니다 550만 달러를 투자받아서 싸게 만들었다가 첫 번째 주장이죠, 사실 세부적인 금액이 공개된 것도 아니고, 정확한 보고서도 없기에 이정보는 신뢰성이 없습니다.실제로 스타트업에서 많이 쓰는 기법이기도 하고요.
하지만 일단 대중들의 시선은 중국이 연산용그래픽카드를 제한받는 상황에서 이만한 결과를 내놨다는 점에서중국의 기술이 대단하다 이런 주장입니다.
물론 딥시크는대단한 게 맞습니다.다만 이게 정말 퀀텀점프를 할만한 기술이냐는 따져봐야 합니다.
일견의 주장에 따르면, 10~20배 비용절감되고 GPU수요가 줄어들게 만들 거다 이런 주장들도
실제로 저렇게 감소했는가는 따져봐야 할 문제입니다. 어떤 방식으로 얼마만큼의 리소스를 투자했는지 확인할 방법이 없으니까요
그래서이 이야기는 모두 뇌피셜에 가깝기에 논의할 가치가 없는 문제다 정도로 넘어가겠습니다.
사실 엔지니어들은 RL모델을 공개하면서 오픈소스로 풀어버렸다는 지점에서 충격받고 있습니다.
이만한 걸 오픈소스로 풀어버렸어? 라는 생각이죠
여기서 MIT License로 풀었다 게 가장 충격적인 부분인데MIT License는 미국 MIT에서 해당 대학의 소프트웨어 공학도들을 돕기 위해 개발한 license로 누구나 무료로 사용이 가능하다는 지점이 가장 놀라운 지점 입니다.
저 소스를 활용한다면,개인 컴퓨터 성능만 높다는 가정하에, 얼마든지 구현이 가능 하니 집에서 만들 수 있구나 까지 생각이 도달하는 것이죠.(물론 R1전에도 구현은 가능했습니다)
물론 이 오픈소스에나와있는 순수 강화학습 엄청난 거 맞고 아하 모먼트 새로운 방식이 대단 것이고
COT방식으로 온라인 카지노 게임를 생성하는 데 있어,지도학습과 다른 방식의 도전은 기술적으로 온라인 카지노 게임판도예 강력한 사건임을 부정할 순 없습니다.
다만 온라인 카지노 게임기술 90%는 쉽게 따라오지만 나머지 10%의 디테일 채우기가 어렵다는 게 중론인데
DEEPSEEK R1이 보여준 건 그 90 퍼를 쉽게 만들어주는 것을 오픈소스로 풀었으니 더욱더 가속화되고 있다 정도로 저는해석하고 있습니다.
문제는 여기서 엔비디아 무용론을 외치는 분들이 있습니다.
저이게 정말 개소리에 가깝다고 생각하는 게,엔비디아는 더인기가 올라갈 거라 생각합니다.
어 새로운 기법이 발견됐네? 그렇다면? 중국도 했는데 미국에서 저 방식을 못쓸까?
오히려 더 좋은 GPU를 가지고 더 상위모델을 만들 수 있는 기회의 땅이 열린 것으로 해석할 수 있는 겁니다.
이 사건이 주는 시사점은 사전학습 과정을 저감 할 수 있고, 더 싸게더 좋은 모델을 만들 수 있다는 거죠.
실제로 현행기준 R1 따라잡았다지만,GPT만 해도 근시일 내에 O3 출시를 준비하고 있고, 최적화된 모델기반 더 많은 활용을 할 수 있는 시대가 오고 있기에,엔비디아의 수요가 오히려 늘어날 거라는 예측 입니다.
엔비디아의 하드웨어 기반에서 만들어진 온라인 카지노 게임 세상을 논하면서 엔비디아 무용론이라니 저는 공포로 인한 하락이라 판단하고 있습니다.
(PS.저는 100만 원 추매 했습니다.)
이전글에서 언급한 적 있지만 온라인 카지노 게임에이전트가 대세화 되면서 개인맞춤형 모델들이 인기를 끌 거라 이야기했습니다.
실제로 GPT만 해도 미니 모델을 출시하면서 가볍게 사용하는 것이 가능한 것들을 출시하고 있고 다른 회사들도 특정분야에 특화된 가벼운 모델들을 출시하는 게 트렌드라는 거죠.
결국 딥시크 사태의 시사점은 이러한 미니모델들의 학습이나 활용이 가속화되어 더더욱 빨라질 것이다 정도로 추가적인 해석도 가능하겠네요.
사실 재밌는 부분은 "미국의 제재가 이러한 결과를 만들었다"라는 점입니다.
중국은 부족한 그래픽카드와 연산량에 직면했고 미국은 다량의 연산 자원이 있어 연산 부분에서는 게임이 안되었으니 중국 쪽의 아이디어는 야 우리 알고리즘 적으로 접근해 보자 라는 방식인 거죠
하드웨어적인 캡이 존재하기에 오히려 소프트웨어적으로 해결법을 찾아낸 사례입니다기술적 발전에서 흥미로운 이야기죠.
"오케이 괜찮은 방식이라는 건 알겠어 그렇다면 왜 이걸 오픈소스로 푸는데? "
공교롭게도 최근에 쓴 글에 슬슬 데이터 학습량의 한계에 도달했으니 새로운 데이터를 위해 사용자를 추가로 모집해야 하고 결국 플랫폼이 중요하다는 이야기를 드렸죠?
자신들의 모델을 무료로 풀면서 온라인 카지노 게임 플랫폼을 먹기 위한 중국의한 수라는 겁니다.OPEN 온라인 카지노 게임에 비에 시장점유율 가져올 방법이 적으니무료라는 강수를 던진 것이죠
굳이 설명하자면 마케팅적 성공에 비유할수도 있겠습니다.
비슷한 소프트웨어 전장 중, 게임 마케팅에서 오버워치의 점유율 경쟁을 하기 위해 에이펙스 레전드라는 게임이 무료로 시장에 푸는 것과 비슷한 방식으로 치킨게임을 걸었다. 이렇게 해석하고 있습니다.
결국 오픈생태계와 Closed ai의 싸움에서 중국은 삼성 안드로이드처럼 오픈생태계를 선택한 것이고 open ai는 애플과 같은 길을 가고 있다는 것이고, 온라인 카지노 게임 전장에서도 비슷한 역사가 반복되고 있다 이해하시면 됩니다.
그래서 궁금하잖아요 제가 작업을 자주 하는 프롬프트를 동일하게 던져줘 봤습니다
아래 답변이 딥시크 답변으로 거의 4O 수준까지는 나오는 느낌입니다.
아래는 O1에서 작성하게 했고세부적인 디테일이 O1을 못 따라가는 감이 있습니다. 무료버전 치고는 아직 훌륭한 수준이죠
딥시크를 두 시간 정도 사용 해본 결과로는 사진 인식 혹은 생성이 불가하고 세부적인 제어성이 상당히 떨어지는 느낌입니다. 음 마치GPT 4 무료버전을 사용하는 느낌에 가까운 느낌을 받았죠 물론 그거보다는 뛰어나지만 말이에요.
솔직히 무료서비스라는 가정하에 그것만 해도 아주 훌륭하고 충분히 매력 있는 모델입니다.다만 세부적인 제어나 생성단계로 들어가면 할루시네이션 같은 아이들이 튀어나옵니다.저는 그대로제미나이 GPT 투트랙으로 작업을 유지할 것 같지만 확실히 무료로 밀어버린다면 상위기능을 사용하지 않는다는 기준으로 쉽게 사용자들이 이탈할 것 같다. 정도로 이야기를 마칩니다.
오늘은 제 생일이기에 조금 더 힘을 내서 써봤습니다
그렇다면 이런 딥시크 쇼크는 온라인 카지노 게임 업계에 어떤 영향을 미칠까요? 아래글에서 바로 확인해 보시죠
31일 수정-결국 쇼크는 끝나버렸 습니다. 대충 의심가는 자료들이 대충 정리 되었네요
-김승현 배상-
참고문헌
[1]D. Guo, D. Yang, H. Zhang, et al., "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, " DeepSeek-온라인 카지노 게임, Jan. 2025.
[2] Shumailov, I., Yao, J., & Ioannou, I. (2024). 온라인 카지노 게임 models collapse when trained on recursively generated data.Nature, 636, 123-131.
[3] Jones, N. (2024). The 온라인 카지노 게임 revolution is running out of data: What can researchers do?
Nature, 636, 290-292.
[4] Clemmensen, L. H., & Kjærsgaard, R. D. (2023). Data Representativity for Machine Learning and 온라인 카지노 게임 Systems. Retrieved from
[5] J. Wiesinger, P. Marlow, and V. Vuskovic, Agents. September 2024. [Online].