You can make anything
by writing

C.S.Lewis

by 플래티어 PLATEER Feb 28. 2025

온라인 카지노 게임 R1 vs 챗GPT

차이점, 강점 그리고 새로운 물결

본 콘텐츠는 2월 7일자 플래티어 홈페이지에 게재된 글입니다. [원문 바로읽기]클릭!


온라인 카지노 게임


중국의 스타트업 딥시크(DeepSeek)가 올해 1월 내놓은 생성형 온라인 카지노 게임 모델 'R1'으로 세계적인 온라인 카지노 게임 컴퓨팅 리딩 기업인 엔비디아(NVIDIA)의 주가가 곤두박질치는 등 온라인 카지노 게임 생태계에 지각변동이 일고 있습니다. 온라인 카지노 게임 산업 수혜주인 브로드컴과 오라클, 티에스엠시(TSMC) 등도 덩달아 주가 폭락을 면지 못했는데요. 딥시크의 R1은 어떻게 기존 온라인 카지노 게임 선두 기업들의 시장경쟁력에 의문을 띄울 수 있었을까요? 생성형 온라인 카지노 게임 시대의 문을 연 챗GPT와 비교해 보며, 딥시크 R1의 차이점과 강점, 영향력을 짚어보겠습니다.




결핍이 만든 '혁신'일까?

놀랍게도 딥시크는 설립 만 2년도 되지 않은 신생 기업입니다. 퀀트(Quant) 투자1) 전문 기업인 '하이플라이어(High-Flyer)'가 2023년 5월에 만든 자회사로 온라인 카지노 게임를 전문적으로 연구하는 스타트업인데요. 연혁이 그리 길지 않은데다, 직원 수도 200명 미만의 작은 기업이 오픈온라인 카지노 게임의 최신 모델인 오픈온라인 카지노 게임-o1-1217과 거의 대등한 성능을 보인 모델을 출시해 세계를 놀라게 하고 있습니다.


생성형 온라인 카지노 게임는 많은 인력과 조 단위의 고비용을 들여 고사양의 GPU(그래픽 처리 장치)으로 학습해야만 만들 수 있다는 게 통념이었습니다. 스탠퍼드 2024년 온라인 카지노 게임 인덱스 리포트에 따르면 구글의 제미나이 울트라(Gemini Ultra)가 한화 약 2조 7천억 원, 오픈온라인 카지노 게임의 챗GPT-4는 약 1조 1천억 원을 들였는데요. 그러나 딥시크는 한화 약 80억 원의 비용을 썼다고 주장하고 있습니다. (이것이 사실이라면, 오픈온라인 카지노 게임의 챗GPT-4 대비 18분의 1 수준밖에 사용하지 않은 것이죠.) 개발 비용이 적게 든 것은 딥시크가 저사양의 GPU를 주로 사용했기 때문입니다. 딥시크는 미국의 수출 제한 조치로 엔비디아의 고성능 GPU인 H100, H200을 자유롭게 활용할 수 없어, 보급형인 저사양의 H800을 사용할 수밖에 없었습니다. 미국의 주요 온라인 카지노 게임 모델이 약 1만 6천 개의 고사양 GPU를 사용하는 것으로 알려졌는데요. 딥시티는 저사양 GPU 수천 개로 R1 모델을 훈련했다고 합니다.


딥시크 R1이 저사양 GPU로 높은 성능을 내는 것에 대해, 전문가들은 MoE(Mixture-of-Experts) 아키텍처가 중요한 역할을 했을 것으로 추정합니다. MoE는 특정 작업에 특화된 LLM(거대 언어 모델)을 한데 모은 후, 작업별로 필요한 LLM만 활성화하는 기술입니다. 딥시크 R1의 파라미터(매개변수)는 6,710억 개이지만 작업 시 활성화되는 것은 340억 개로 설계됐습니다. 모든 파라미터를 한 번에 쓰지 않기에 메모리 사용량은 낮고 작업 속도는 빠른 것입니다. 한마디로 작업마다 특화된 소규모의 전용 LLM만 활성화하여 온라인 카지노 게임 학습 비용을 절감하는 것이죠!


온라인 카지노 게임여러 측정 항목에서 오픈온라인 카지노 게임의 o1 모델과 대등한 성능을 보인 R1(출처 : 딥시크 깃허브)


여기서, R1과 동시 공개된 DeepSeek-R1-Zero 모델의 개발 과정을 잠시 살펴보려 합니다. 생성형 온라인 카지노 게임는 사용자가 원하는 수준의 답변을 할 수 있도록 지도 미세 조정 과정(Supervised Fine-Tuning, SFT)을 거치게 됩니다. 사람이 직접 만든 질문과 답변으로 구성된 소규모 데이터 모음을 이용해 학습하는 과정인데요. 고품질의 데이터를 만들려면 인력과 비용 리소스가 많이 투자되어야 합니다. 그런데 R1-Zero 모델은 SFT 단계를 최소화하고 스스로 성능을 향상시키는 강화 학습(GRPO)2)으로 개발했습니다. 인간이 만든 예시 데이터에 의존하지 않고 순수 RL(Reinforcement Learning)3)로만 훈련한 것인데요. 온라인 카지노 게임가 추론을 통해 정답을 찾았을 때 가점을 부여하는 ‘정확도 보상(Accuracy Rewards)’을 적용해 성능을 높인 것으로 알려졌습니다. 비용이 많이 드는 SFT 단계 대신 강화 학습에 의존해 개발한 DeepSeek-R1-Zero 모델은 아쉽게도 자연어 친화적인 답변을 잘 도출하지 못하는 한계가 있었는데요. R1-Zero 모델에 양질의 소규모 데이터로 초기 학습하여 사람이 잘 이해할 수 있는 답변을 생성하는 버전이 바로 R1입니다. 적은 돈과 짧은 기간 내 고효율의 온라인 카지노 게임 모델을 만든 딥시크는 출시 1주일만에 미국에서 가장 많이 다운로드된 무료 앱 1위에 등극했습니다.



챗GPT와 닮은 듯 다른 온라인 카지노 게임 R1

이어지는 내용은 [플래티어 홈페이지 블로그 콘텐츠]원문에서 지금 바로 확인하세요!





1) 수학, 통계, 프로그래밍을 이용해 자산 운용 및 투자 전략을 세우는 방식

2) Group Relative Policy Optimization

3) 시행착오를 통해 스스로 학습하는 방식, 보상에 따라 행동을 개선



브런치는 최신 브라우저에 최적화 되어있습니다.