최근 재미있는 논문이 나왔습니다. 아래와 같은 논문인데요 오늘은 이 이야기를 좀 해봅시다.
BLOCK DIFFUSION: INTERPOLATING BETWEEN AUTOREGRESSIVE AND DIFFUSION LANGUAGE MODELS
AI를 한 번이라도 써보신 분들은 아마 잘 아는 정보겠습니다만 현행 AI는AR(Autoregression) 즉 순차적으로 생성하는 방식을 사용하고 있었습니다,
기존 방식이 위와 같은 형식이었다면 새롭게 출시한 모델은 아래와 같은 형식으로 생성합니다.
흥미롭죠?
과거 그림이나 영상생성 AI를 소개하며 몇 번이나 설명드린 적 있는 디퓨전 모델은
입력 이미지에 Noise를 여러 번 추가하고,여러 단계에 걸쳐 Noise를 제거하는 방식을 활용하는 녀석입니다. 이를 통해입력 이미지와 유사한 확률 분포를 가진 이미지를 생성하는 모델이죠
이 논문에서는 그림에서 할 수 있으면 글에도 쓸 수 있지 않을까 라는 의문을 기반으로 ‘디퓨전(Diffusion)’ 방식을 LLM에 적용하였고 위에서 보여드린빈칸(노이즈)을 채워가는 방식으로, 여러 단어를 동시에 빠르게 만들어 내는 데 성공했다는 게 오늘 글의 핵심입니다.
음 그렇게 좋은 거면 바로 적용했으면 되는 거 아니에요? GPT는 왜 안 했대요?
사실 기존에 이야기되었던 이방식에는이치명적 단점을 가지고 있기에 사용되지 않았죠 핵심적인 문제는 2가지로
1. 생성 문장 길이가 항상 똑같음
2. 정확도가 기존 방식보다 떨어짐
어느 쪽이든 LLM에는 치명적인 단점입니다. 흥미로운 점은 이번 발표된논문에서는 '블록 디퓨전'을 활용해 이문제를 해결했는데 한번 보시죠
'블록 카지노 게임 사이트'은 기존의 방식과 다른 점은 다음과 같습니다.
1. 문장을 일정한 크기의 덩어리로 나눔 여기서 이 덩어리를 카지노 게임 사이트
2. 카지노 게임 사이트끼리는 차례대로 순차적으로 생성 여기까지는 기존의 방식
3. 블록 내부는 카지노 게임 사이트처럼 여러 단어를 동시에 빠르게 생성
한마디로 기존 방식과 카지노 게임 사이트을 합친 기술적 진보죠, 확실하게 카지노 게임 사이트 방식이 기존의 AR방식보다 우수하고 만들고 보니 속도와 정확성이 더 뛰어났던 겁니다.
물론 연구자료를 보면 꽤나 굴곡진 연구를 한 것으로 확인됩니다.
학습 성능 너무 낮았다는 문제가 있는데 세부적인 해법을 확인해 보면
기존 AI가 디퓨전 방식으로 학습할 때, 정답을 일부러 빈칸으로 가린 후 빈칸을 채우는 방식을 활용했죠,여기서AI가 학습할 때 사용하는 빈칸 비율이 너무 극단적이라는 문제를 확인하였고클리핑 스케줄(Clipped Schedule)을 도입해 이문제를 해결했습니다.
무슨 말인 지 모르겠죠? 사례로 설명해 봅시다.
빈칸이 일정수 이상일 때 '대부분 조각이 사라진 퍼즐을 맞추는 것'처럼 혼란 문제가 발생
빈칸이 일정수 이하일 때'이미 거의 완성된 퍼즐을 보면서 배우는 것'처럼 배울 게 없음
연구진은클리핑 스케줄(Clipped Schedule)이란 방식을 통해학습 단계에서 빈칸의 비율을 적절한 범위(예: 30%~80%)로 제한하여 학습 효율을 증대시키는 방식을 찾아낸 겁니다.
실제 구글의(LM1B) 데이터셋을 통한 실험결과 블록 카지노 게임 사이트 방식은 기존 카지노 게임 사이트 모델보다 정확도가 약 13% 더 증대된 것으로 확인하였고속도는 기존 AR 방식 대비 약 20~25% 증대되었습니다. 상당히대단한 결과치죠
이 논문이 이슈화된 이유는 단지 새로운 방법을 만들었다는 게 아닙니다. 핵심은 지금 한계라고 평가받던 비추론 방식의 LLM에서 새로운 돌파구가 될지도 모른다. 와 새로운 가능성을 열어준 겁니다.
과연 이기술이 AI를 한 단계 더 올려줄 수 있을까요?
[참고문헌]
M. Arriola, A. K. Gokaslan, J. T. Chiu, Z. Yang, Z. Qi, J. Han, S. S. Sahoo, and V. Kuleshov, “Block diffusion: Interpolating between autoregressive and diffusion language models,” in Proc. Int. Conf. Learn. Representations (ICLR), 2025. Available:https://mariannearr.github.io/bd3 lms/