You can make anything
by writing

C.S.Lewis

by SPECAL Jan 31. 2025

카지노 가입 쿠폰 쇼크의 끝, 마이크로소프트의 날카로운 비수

카지노 가입 쿠폰

어그로성 제목이냐고요? 아니요 진짜입니다. 마이크로 소프트에서 1월 28일에 논문이 나왔거든요

Optimizing Large Language Model Training Using FP4 Quantization

제 생일에 나온 따끈따끈한 논문인데


카지노 가입 쿠폰

이 논문 하나로 딥시크에 거대제국이 무너지고 있습니다. 무슨 말일 까요? 한번 가보시죠


1. 카지노 가입 쿠폰가 주목받은 이유

먼저 이에 대해 이해하시려면 카지노 가입 쿠폰가 주목받은 이유에 대해서 이해하셔야 합니다.

카지노 가입 쿠폰

지금 보고계시는 그래프는 카지노 가입 쿠폰 R1의 성능그래프로 이걸 무척이나 싸게 만들고 증류모델로 매우 적은 GPU양으로도 소프트웨어를 통해서 사용량을 줄일 수 있다. 이게 카지노 가입 쿠폰 모델이 주목받았던 이유였습니다.


지금 보고계시는 이미지가 딥시크 논문에서 가져온 이미지로

FP8과 FP16이 보이실 텐데데요 핵심은 이 양자화(Quantization) 기법을 잘 사용해 모델증류를 한 것을 통해 가격을 낮출 수 있다는 것이었죠


자세한 관련 이론은 아래서 확인 부탁드립니다.

어쨌든, 이전글에서 보여드렸던 대로 저만한 성능과 가격으로 찍어 누르고, 무료로 푸는 이 딥시크가ㅡ 지금 AI를 뛰어넘은 퀀텀점프 기술이 아니냐 이런 이유에서 주목받은 것이죠



다만 제 이전 글들에서도 기술적으로 뛰어난 건 맞지만 이게 과연 진짜인가? 이 부분에 대한 검증이 필요하다고 여러 번 말씀드렸습니다. 드디어 답이 나와 한번 정리해 드리려 합니다.


2. 카지노 가입 쿠폰는 싸지 않아요?

위그래프에 오른쪽 위를 보시게 되면 제미나이가 상위권에 위치해 있는 걸 볼 수 있습니다. 실제로 카지노 가입 쿠폰는 모델과 연산량이 싸서 주목받은 거 일 텐데요? 그럼 API 즉 활용할 때 가격이 얼마나 될까요?

일반적으로 API가격을 매긴 그래프입니다. 카지노 가입 쿠폰가 추가되어 있는데 저런다고요? 음 사실 AWS가 있고 제미나이가 있는데 굳이 카지노 가입 쿠폰를? 이런 생각이 듭니다.


그래 카지노 가입 쿠폰가 좀 비싸게 받을 수도 있지! O1 하고 성능이 비슷하다 잔 아! 26.3대 3이면 엄청 싼 거 아니야? 이렇게 말씀하실 수도 있죠

그래서 인풋성능량대비 아우풋 성능량도 가져왔습니다. 카지노 가입 쿠폰는 확실히 좋은 모델이라 하기에는 애매해요


그래도 만드는 게 싸잖아!! 이렇게 말씀하신다면 진짜일까요?


현제 인터넷에 돌아다니는 카지노 가입 쿠폰가 싸다고 말하는 근거는 V3 price보고서를 기반으로 홍보합니다.

550만 달러 이거 하나예요 이 550만 달러라는 지표는 실제 카지노 가입 쿠폰 개발비용이 아닙니다.

R1의 개발비가 아니라 DeepSeek-V3의 공식적인 학습 과정에 한정된 것이며, 아키텍처, 알고리즘, 데이터에 대한 사전 연구 및 소거 실험(ablation experiments)과 관련된 비용은 포함되지 않는다.라는 말인데요


실제로 마지막으로 한번 돌리면 이 가격이라고 정해진 거예요 다른 빅테크들은 10배 100배 가격으로 개발하는데 우린 550만 달러면 된다라는 게 말이 안 되는 거죠, 비교를 할 거면 전체비용을 다 확인해야 하는데 이 부분만 발표한 후 우린 싸요는 말이 안 된다는 겁니다. 물론 카지노 가입 쿠폰는 제대로 공개했고 잘못 물어다 쓴 기자들이 문제인 파트임은 사실입니다만, 이걸 어느 정도 노린 중국식 분식회계죠 뭐 연구분야에선 워낙 많이 쓴 치사한 방법입니다.


물론 H100으로만 한건 대단한 거지만 이런 식의 잘못된 비교는 하지 말아야죠 결국 개발비가 싼 건 절대 아닙니다.


2. 양자화(Quantization)는 카지노 가입 쿠폰 만의 방법이 아니다.

카지노 가입 쿠폰의 에서 사용한양자화(Quantization)는 게임최적화나 신호최적화에서 많이 사용된 기법입니다.


아래쪽을 보시면 딥시크에서도 FP8을 이용한 논문을 발표했고 이걸로 우리 모델 효율적이에요라고 홍보한 것이죠


실제로 중국에서 많이 사용한다는 H100의 스펙시트를 확인해 보셔도 FP8을 파트를 보시면 압도적으로 연산량이 올라가는 것을 확인하실 수 있습니다.

이게 실제로 가능하냐고요?


이전 브런치글에서 실증을 해놓은 글이 있는데 일정파트는 FP8 FP16으로 두면 효율 잘 나오네요 가능하네요를 여러 사람이 굴리며 인터넷에 올라와있습니다. 관련해서 실제로 보고서는 아래글에 포함시켜 뒀으니 궁금하신 분들은 아래서 확인하시길 바랍니다.



그런데 3일 전 새로운 논문이 나오며 이 딥시크가 필요 없어져 버리는 논문을 마이크로 소프트에서 내놨습니다.


마이크로 소프트에서 발표한 이 논문은 이전에는 FP8아래는 안된다 이게 최대였지만 FP4로도 할 수 있는 방법 있는데요?라는 발표였습니다.


이론적인 방법은 논문 링크를 나중에 걸어둘 테니 직접 확인해 주시길 바라며


뭐 이런저런 방식을 적용하면 실제로 아래와 같은 근사와 결과치가 나와서


성능이 비슷하니 FP4로도 충분히 할 수 있다. 이런 주제였습니다.

FP8과 16을 쓴 딥시크 자체의 의미를 퇴색시켜 버리는 논문이죠 결국 딥시크를 사용할 의미가 또 사라졌습니다.


굳이 FP4로 하는 방식이 나왔는데 FP8 FP16을 사용할 필요가 없다는 것이죠 여기까지만 해도 목이 떨어질 판인데 이제 마지막으로 논란이 또 생겼습니다.


3. 카지노 가입 쿠폰는 GPT의 데이터를 가져다 썼다?

이 상황을 매우 잘 보여주는 레딧의 이미지라 가져왔습니다, 이를 이해하시기 위해 먼저 아셔야 하는 건 이번에 말이 많았던 r1 zero는 증류모델입니다.

기존모델에서 가볍게 만들되 트레이닝 데이터를 통해 비슷한 성능을 내고 특화된 파트에서 운용을 잘하게 해주는 모델이다 정도로 설명할 수 있는데요


몇 번이나 설명드렸지만 r1은 증류모델로 가장 의미 있는 부분은 에지 ai에서의 활용 가능성이었죠 문제는 여기서 프런티어모델 즉 증류를 시키기 위한 최상위 모델이 필요하고 이 상위모델의 필요성을 강조한 겁니다.


Anannay의 주장이긴 합니다만 카지노 가입 쿠폰가 gpt open api를 통해 데이터를 가져왔을 것이다라는 주장이죠


실제로 외신에서도 물어서 이를 조사해야 한다는 주장이죠 이걸 어떤 방식으로 가져왔냐고요?


많은 분들이 아시듯 GPT자체는 중국에서 사용금지입니다.


하지만 API서비스인마이크로소프트의 azure에서는 중국에 지원을 했고 이를 활용한 데이터 뺴오기를 했다는 주장인데요


일단 검색만 해도 데이터가 이렇게 뜨고

실제로 사용했던 기록들이 남아있습니다. 진짜 혁명적인 모델이라면 굳이 이럴 필요가 없었겠죠


물론 "gpt도 무단으로 정보 수집해서 만든 거잖아"라고 하신다면 AI의 데이터학습이 현제 법적 사각지대에 있는 것도 맞고 이 부분에 GPT도 당당하지 못한 것이 사실입니다.


다만 데이터를 1차 가공하는 것 자체로도 엄청난 돈이 들어가는 부분에서, 가공된 데이터를 빼가서 우리가 만든 거어요라고 홍보하며 우린 엄청 싸게 만든 모델이요!! 이렇게 홍보하는 건 잘못된 거라는 겁니다.


결국 이러한 정황들이 싸게 만들었다는 걸 정면으로 부정하는 것이죠


그래서?


실제로 과거에2년 전에도 시도됐지만(버클리) 당시 1세대 LLAMA 모델이 시도하다 포기한 걸 완성한 것은 카지노 가입 쿠폰의 업적이 맞습니다. 증류방식과 가벼운 모델에 대하여 나름대로 뛰어난 해법을 제시한 것도 맞고요


다만 가격이 550만 달러로 만들었다? 전기세 0원 이전 연구비용 0원 데이터는 GPT 거 를 사용하면서요?

카지노 가입 쿠폰가 매력적이었던 싼 가격에 GPT와 비슷한 성능에요 자체의 논리는 완전히 부서진 것이죠


심지어 마이크로소프트에서 딥시크보다 더상위방법인 FP4를 제시해 버렸으니 그 학습방법 자체도 의미가 없어져 버렸습니다.


물론 이러한 시도가 무의미한 건 아닙니다. 이러한 변화를 위해 모든 데이터를 오픈소스로 풀어버렸다 이거 하나는 AI시장에 돌풍을 불러올 강력한 변화가 맞습니다



실제로 수많은 사람들이 카지노 가입 쿠폰의 모델을 가져다 개인화하는 시도를 하며 공개적으로 넷상에 올리고 있어요 이 오픈소스 자료로 오는 이점을 무시할 순 없을 겁니다.


그럼 왜 이렇게 홍보하고 뿌리는 걸까요?


누누이 말하지만 사용자와 데이터를 수집하기 위한 선점 전략입니다.


실제로 게임업계에서 널리 사용되는 전략으로 자본력과 무료로 시장파이를 먹은 다음에,서비스가 자리를 잡아버리면소송 전에서 지든이기든 아무 의미 없죠 그냥 돈 주면 끝 혹은 먹을 거 다 먹었어 응 내릴게 신규 내 놀 거야이래버리니까요, 굉장히 흔한게임식 전략을 AI계에서도 보다니 기분이 이상하네요


그럼 엔비디아는?

위 스펙시트에서 보여 드렸지만 엔비디아는 22년도 출시한 H100부터 이러한 변화를 준비해 왔고 FP4지원도 오래 걸리지 않을 문제입니다.


결국 엔비디아 제국은 더 탄탄해지겠죠 도저히 엔비디아가 줄어들 이유로 는 안보입니다.


이 성능을 안 쓰고 다른 걸 쓰겠다고요? 웃기는 소리죠


실제로 중국이 800을 뒤로 사갔다는 주장이 굉장히 많고 몇만대로 굴렸다는 주장이 많습니다만,이건 일단 근거가 없으니 뺴도록 하자고요


카지노 가입 쿠폰 이야기는 여기서 마무리하려고 합니다. 이슈 따라오느라 고생 많으셨습니다. 다음 시간부터는 이제 이러한 증류모델기반들로 전 세계는 시장에서 어떤 준비를 하고 이러한 것들이 전기자동차에 어떤 방식으로 적용되는가에 대해서 분석해 보도록 하죠



참고문헌 (References)

[1] Wang,R., Gong, Y., Liu, X., Zhao, G., Yang, Z., Guo, B., Zha, Z., & Cheng, P. (2025). Optimizing large language model training using FP4 quantization. arXiv preprint arXiv:2501.17116.


[2] DeepSeek-AI. (2024). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. DeepSeek-AI Research. Retrieved fromhttps://github.com/deepseek-ai


[3] DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. DeepSeek-AI Research. Retrieved fromhttps://github.com/deepseek-ai


브런치는 최신 브라우저에 최적화 되어있습니다.