You can make anything
by writing

C.S.Lewis

by SPECAL Jan 26. 2025

카지노 게임의 발전 속도는 한계에 도달했다?

본 브런치 북은 전기차 관련 ai에 대한 이야기와 ai관련 이야기를 풀려고 만든 브런치북입니다.


오늘부터 카지노 게임와 전기차의 신산업 트렌드를 한번 풀어보죠

카지노 게임


작년 말 네이처 지에 논문이 올라왔습니다.


"THE 카지노 게임 REVOLUTIONIS RUNNING OUT OFDATA. WHAT CANRESEARCHERS DO?"


이 논문에서 주장하는 건 인공지능(AI)은 지난 10여 년 동안 폭발적인 성장을 기록하였고 최근 AI 연구자들 사이에서는 이러한 발전 속도가 점차 둔화될 가능성에 대해서 제시하였는데요 과연 이 주장이 맞는 말일까요?


우선 경항성과 산업의 발전을 을 분석하는 데 있어 가장 쉬운 건 과거를 한번 답습해 보는 것입니다.특히 카지노 게임 발전의 둔화는 과거 반도체 산업의 발전에서 관찰된 무어의 법칙과 비슷할 꺼라 설명하는 분들이 많은데요.무어의 법칙은 반도체 집적 회로의 트랜지스터 수가 18개월마다 두 배로 증가할 것이라는 예측이었지만, 기술적 한계와 물리적 제약으로 인해 결국 속도가 둔화되었습니다. 실제로 아래의 경향 데이터를 한번 보시면 발전 속도가 점점 느려지고 있는 것이 보이시죠?

카지노 게임


실제로 물리적 한계 즉 나노영역에 도달하면서 홀효과나 미소전류 문제들로 인하여 발생하는 문제입니다. 뭐 이건 따로 나중에 자세히 풀어보기로 하고


저 논문에서 주장하는 것은 AI 역시 데이터와 계산 자원의 포화로 인해 한계에 접근하고 있다는 관점입니다. Nicola Jones는 Nature 논문에서, 인터넷에 존재하는 정제된 학습 가능한 텍스트 데이터의 양은 제한적이며, AI 모델의 데이터 소비 속도가 이를 초과하는 시점에 점점 가까워지고 있다는 주장이죠


카지노 게임

그렇다면 원인이 대체 뭘까요? 그리고 카지노 게임는 어떤 방향으로 발전하게 될까요? 오늘은 이 이야기를 풀어보죠


데이터 고갈 문제: 카지노 게임 발전의 핵심 한계

우선 인공지능(AI)의 발전은 대규모 데이터와 강력한 연산 자원을 기반으로 이루어졌습니다.

그래서 라벨링이나 데이터가 중요하다고 이전에 설명드린 적도 있었고요, 하지만 최근 몇 년간 학계와 산업계에서는 학습에 필요한 데이터의 고갈이 AI 기술 발전을 저해할 가능성을 우려하는 목소리가 높아지고 있습니다.


1. 인터넷 텍스트 데이터의 고갈

위에서 소개한 논문의 주장을 인용하자면 인터넷상의 데이터 증가 속도와 AI 모델의 데이터 소비 속도의 격차가 발생하고 있다고 하더군요.


조금 더 세세하게 풀어보면 현행 대규모 언어 모델(LLM, Large Language Model)은 인터넷에 존재하는 방대한 양의 텍스트 데이터를 크롤링하여 학습에 활용하고 있는데 인터넷의 데이터는 유한하기에 학습할 수 있는 데이터에 한계가 온다는 주장입니다.


실제로 AI의 연상능력이 올라오며 데이터 소비 속도의 급증하고 있고 LLM의 학습에 사용되는 데이터 토큰의 수는 2020년대 초반부터 매년 두 배 이상 증가해 온 역사가 있죠


OpenAI의 GPT-3는 약 300조 토큰을 학습시켰는데 꽤 오래된 모델이죠? 인터넷에 있는 총 토큰량이3,100조 토큰으로 추정하고 있기에 곧 더 공부할 데이터가 없을 것이다 이렇게 주장하는 겁니다.


뿐만 아니라 이제 데이터 접근성의 감소하고 있죠, 많은 데이터 소유자가 웹 크롤링과 데이터 수집에 대한 규제를 강화하고 있으며, 주요 신문사와 출판사는 AI 훈련용 데이터로 자신들의 콘텐츠가 사용되는 것을 방지하기 위해 법적 소송을 제기하고 있는 상황이죠 사슬 블로그에 뿌려진 글들에 비해 기사나 논문자체가 압도적인 양질의데이 터니까요


문제는 토큰수를 무한이 키워도 데이터 품질에 브레이크가 걸립니다.

실제로 같은 주제로 검색하면 수십수백 개의 글이 나오는 상황에인터넷상의 데이터는 중복 콘텐츠, 비정확한 정보, 저품질 데이터로 인해 정제 과정에서 상당 부분이 제거되니 소위말하는 쓸만한 데이터가 적다는 겁니다.


심지어RedPajama와 같은 데이터 세트는 원시 데이터에서 중복된 콘텐츠와 부적절한 정보를 제거한 뒤에야 학습에 활용할 수 있는 크린 데이터 세트를 생성해야 하기에 일은 더 늘어나는 문제가 있는 거죠 제한을 안 두면 어떤 일이 일어나냐고요? 아래글에서 소개해둔 사건들이 일어나는 겁니다.



오케이 학습데이터가 제한이 걸린다는 건 알겠어 그럼 직접 생성해서 만들어 쓰면 되는 거잔 아? 자가교배 하면 되는 거 아니야?라는 의문이 들법합니다 이에 대한 주장들도 봐보죠


2. 생성형 카지노 게임와 데이터 재활용의 한계



머리 아픈 그래프가 잔뜩 있죠?


이 그래프는 생성형 데이터의 반복적 학습이 AI 모델에 미치는 영향을 설명한 것으로 결국 반복해서 자가 학습을 하다 보면모델 붕괴(Model Collapse) 현상이 일어난 다는 겁니다 어딘가로 귀결한다는 것이죠 좀 더 이야기해 봅시다.


데이터의 한계가 도달함에 따라 기존 데이터를 학습하여 새로운 데이터를 생성하는 방식으로, 데이터가 부족한 환경에서 학습 데이터의 양을 증가시키는 방식이 주목받았죠.


특히 대규모 언어 모델(LLM)에서 생성형 데이터를 반복적으로 재활용하면 추가 데이터 수집 없이 학습 데이터를 늘릴 수 있다는 점에서 데이터 고갈 문제의 해결책으로 바로 떠든다 위에서 말씀드렸습니다.


문제는 이 녀석이 심각한 하자가 있다는 겁니다.


이를 자세하게 설명하려면 재귀적 학습으로 인한 데이터 왜곡과 Perplexity라는 개념에 대해서 이해하셔야 하는데 굳이 복잡한 설명 없이 사진을 먼저 봐보시죠



굉장히 직관적이죠? AI가 생성한 질 낮은 정보가 다음 세대의 학습 세트를 오염시키는 현상으로, 오염된 데이터로 학습된 모델이 잘못된 결과를 출력하게 되는 문제라는 게 대충은 이해가 가실 겁니다.

이론적으론 뭐 혼란도가 어쩌네근사치의 오류가 어쩌네 라는 이야기가 다양하지만 결국 자가생성 데이터 학습도 위험성이 있다.설명드릴 수 있겠네요


3. 그렇다면 어떻게 될 것인가


자 AI 기술의 발전이 데이터 부족과 품질 문제로 인해 점차 한계에 다다르고 있는 상황이란 말은 어느 정도 이해하셨을 겁니다 그렇다면? 미래에는 어떤 방향성으로 흘러갈까요?


이는 크게 2가지로 구분할 수 있는데요

1. 플랫폼 기업의 강점기

2. 소형 전문모델들의 등장

3. 멀티모델 데이터 활용


실제로 모든 산업구조가 비슷합니다만 선행으로 치고 나가서 시장을 선점해 둔 AI 기업들은 사용자를 모집해,데이터를 지속적으로 확보하고 활용할 수 있는 구조로 선순환이 일어나겠죠, 뿐만 아니라 플랫폼을 가진 기업들이 살아남으며 거기에 뒤쳐진 기업들은 자기만의 독자분야를 파고 시장의 파이를 나눠먹으려 노력하 것이라는 건 명약관화합니다.


흔히 쓰이는 마케팅 전략과 시장의 포화상태에서 새로운 서비스를 출시하는 전략처럼 간다는 것이죠 한번 풀어봅시다.


1. 플랫폼 기업의 강점


데이터를 선점할 수 있는 플랫폼 기업(예: Google, Meta, Microsoft 등)은 대규모 사용자 기반을 통해 방대한 양의 데이터를 지속적으로 수집할 수 있는 구조를 가지고 있고 결국 데이터 싸움이 된 AI전쟁에서 승리할 확률 이 높습니다.


실제로 사용자 데이터를 통한 경쟁력이 압도적이죠, 플랫폼 기업은 실시간으로 생성되는 사용자 데이터(검색 기록, 소셜 미디어 활동, 앱 사용 데이터 등)를 활용하여 데이터 포화 시대에서도 꾸준히 학습 데이터를 확보할 수 있다는 점이 매력입니다. 여기서 구글은유튜브나 각종 언론사의 비공개 데이터 접근성은 구글이 가장 압도적이니까요 실제로 통계자료나 세부적인 돈의 흐름을 확인할 수 있다는 건 압도적인 시장우위를 점하고 있는 것이죠


2. 소형 전문모델들의 등장


이미 많은 기업들이나 스타트업에서 API를 받아다 자체연산을 굴리거나 연산을 GPT에서 하고 자기들의 필터를 넣는 작업을 하고 있습니다.


실제로 국내에서는 뤼튼이라는 서비스가 자기들의 독자적인 영역을 구축하기 위해 애쓰고 있죠 이전에 설명드렸지만 모든 사람이 AI 에이전트를 사용할 순 없으니 결국 최적화된 AI에이전트가 일종의 앱처럼 될 거라는 주장입니다.


3. 멀티모델 데이터 활용


위의 주장에서 데이터 포화 문제는 주로 LLM 즉텍스트 데이터에서 발생하는 반면,영상, 음성, 센서 데이터와 같은 멀티모달 데이터는 여전히 성장 가능성이 높습니다. 그래서소형 전문모델이나 전문적인 영역 차량 음악 그림 영상의 모델로 분화해나가면서아예 전혀 다른 알고리즘들이튀어나올 수 있는 것이죠


데이터를 활용할 수 있는 기업은 텍스트 데이터 의존도를 줄이고 새로운 도메인으로 전장을옮기는 방향성을 주장하시는 분들도 있습니다.


사실 여러 주장들이 있습니다만 자가학습을 효율적으로 만들 수도 있고 어느 정도 선에서 AI의 발전이 멈출 거다라는 다양한 연구결과들이 있습니다. 오늘도 하나의 이론을 들고 온 것이니 이게 정답은 아니 한번 지켜보시죠 어떤 방향으로 흘러갈지 말이에요


참고문헌

[1] Shum카지노 게임lov, I., Yao, J., & Ioannou, I. (2024). 카지노 게임 models collapse when tr카지노 게임ned on recursively generated data.
Nature, 636, 123-131.

[2] Jones, N. (2024).The 카지노 게임 revolution is running out of data: What can researchers do?

Nature, 636, 290-292.

브런치는 최신 브라우저에 최적화 되어있습니다.