rStar-Math: Small LLMs Can Master Math
이 논문은 Microsoft Research Asia에서 작성한 논문이다. 읽어보기도 전에 대기업의 이름에 신뢰도가 급격히 상승했다. 이 연구의 대부분의 사람들은 중국 쪽 연구원들이신 것 같다. 중국이랑 미국이랑 서로 인공지능에 대해 경쟁구도에 스면서 사이가 안 좋은 줄 알았는데 중국분들이 미국 기업에 근무하시는 것이 신기했다.
이 논문의 제목은 rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking으로대형언어모델의 수학적 능력의 향상에 관한 논문이다. 허깅 페이스에서 반응이 너무 좋길래 기대하며 읽어보길 시작했다.
댓글에 "holy... shit?"을 남기신 분을 보고 특히나 기대가 되었다.
논문의 요약은 아래와 같다.
ABSTRACT
이 논문에서는 \sysname을 소개하여 소형 언어 모델(SLMs)이 OpenAI o1의 수학적 추론 능력을 능가할 수 있음을 보여줍니다. \sysname은 몬테 카를로 트리 탐색(MCTS)을 통해 "심층 사고"를 활용하고, 세 가지 혁신적인 방법을 통해 SLM의 훈련 문제를 해결합니다. 이 시스템은 747,000개의 수학 문제에 대해 수백만 개의 합성 솔루션을 통해 SLM의 수학적 추론 능력을 최첨단 수준으로 향상했습니다.
---
1 INTRODUCTION
최근 연구에 따르면 대형 언어 모델(LLMs)은 수학 문제를 해결할 수 있지만, 전통적인 접근 방식은 오류가 발생하기 쉬운 빠른 결과를 초래합니다. 이에 따라, 본 논문에서는 \sysname이라는 자기 진화형 시스템 2 스타일의 추론 접근 방식을 제안하며, 이는 작은 언어 모델(SLMs)과 몬테카를로 트리 탐색(MCTS)을 활용하여 고품질 훈련 데이터를 반복적으로 생성하여 수학 추론 성능을 향상합니다. 실험 결과, \sysname은 여러 수학 벤치마크에서 OpenAI o1을 초과하거나 동등한 성능을 보여주었습니다.
---
2 RELATED WORKS
수학 데이터 합성 분야에서 LLM의 카지노 게임 추천 추론 향상은 고품질 CoT 데이터의 큐레이션에 크게 의존하고 있으며, GPT-4와 같은 최첨단 모델을 활용한 접근 방식이 주를 이루고 있다. 그러나 이러한 방법은 교사 LLM의 한계로 인해 어려운 문제를 배제하고, 오류가 발생할 수 있는 중간 단계를 포함할 수 있어 데이터 품질 개선에 한계가 있다. \sysname은 정책 LLM과 보상 모델을 반복적으로 발전시켜 OpenAI o1과 유사한 System 2 카지노 게임 추천 추론 성능을 달성하는 새로운 접근 방식을 제시한다.
---
3 METHODOLOGY
이 연구에서는 몬테카를로 트리 탐색(MCTS)을 활용하여 수학 문제 해결을 위한 정책 모델(SLM)과 과정 보상 모델(PRM)을 통합하는 방법론을 제시합니다. MCTS는 복잡한 문제를 단순한 단계로 나누어 해결하며, 단계별 데이터 생성을 통해 훈련의 질을 향상합니다. 연구는 또한 단계별 Q-값 주석을 통해 고품질의 훈련 데이터를 생성하고, 이를 통해 프로세스 선호 모델(PPM)을 훈련시키는 새로운 접근 방식을 도입합니다.
---
4 EVALUATION
이 논문의 평가 섹션에서는 \sysname이 다양한 수학 벤치마크에서의 성능을 평가하며, 특히 GSM8K, MATH-500, AIME 2024, College Math 및 GaoKao와 같은 도전적인 데이터셋을 포함합니다. \sysname은 다양한 LLM을 기반으로 하여, 자가 진화 및 단계별 검증 경로를 통해 수학 추론 능력을 크게 향상했으며, 특히 작은 모델 크기에서도 뛰어난 성능을 보여주었습니다. 최종적으로, PPM이 다른 보상 모델보다 더 나은 성능을 발휘하며, 복잡한 수학 문제 해결에서 높은 정확도를 달성하는 데 기여했습니다.
---
5 FINDINGS AND DISCUSSIONS
OpenAI o1의 중요한 발전 중 하나는 본질적인 자기반성 능력으로, 모델이 오류를 인식하고 스스로 수정할 수 있는 기능을 갖추고 있다. 실험 결과, MCTS 기반의 심층 사고가 문제 해결 과정에서 자기반성을 나타내며, 정책 모델이 초기 단계의 저품질을 인식하고 새로운 접근 방식을 통해 올바른 답을 도출하는 것을 보여주었다. 또한, PPM(정책-보상 모델)은 시스템 2 심층 사고의 성능 한계를 결정짓는 주요 요소로, 다양한 도메인에서 LLM의 추론 능력을 향상하는 일반적인 방법론을 제공한다.
---
6 CONCLUSION
이 연구에서는 \sysname이라는 자가발전 시스템 2 심층 사고 접근 방식을 제시하며, 이는 소형 LLM의 수학 추론 능력을 크게 향상시켜 OpenAI o1 수준의 성능을 달성합니다. 다양한 크기의 SLM과 도전적인 수학 벤치마크를 통한 실험 결과, \sysname은 기존의 수학 추론 LLM 및 Best-of-N 기준을 초월하는 우수한 성과를 보여주었습니다. 또한, 자가 반성과 PPM의 효과를 통해 중요한 중간 단계를 식별하는 데 기여함을 밝혔으며, 더 도전적인 수학 문제를 수집하여 추가 개선이 가능함을 제안합니다.
---
ACKNOWLEDGEMENT
이 연구 초기 단계에서 GPU 자원 부족과 GPT-4 API 접근 제한으로 인해 많은 어려움이 있었습니다. 이에 대해 수학 문제 수집과 새로운 수학 문제 합성을 위한 GPT-4 자원을 제공해 준 Qiufeng Yin과 Chengmin Chi에게 깊이 감사드립니다. 또한 GPU 쿼터를 generously 공유해 준 동료들에게 특별한 감사를 전합니다.
<리뷰
기존의 방식과 큰 틀에서는 벗어나지 않는 것 같다. Openai가 공식적으로 자세히 밝힌 바는 없지만 O1모델 카드를 통해 많이들 유추하는 것과 같이 이 연구에서 수학 문제를 풀기 위해 MCTS라는 기법을 활용했다.
MCTS는 몬테카를로 트리 탐색 기법이라는 건데 쉽게 말해서 문제를 다단계로 나누고 각자의 단계에서 여러 경우의 수를 탐색해 보고 좋은 풀이 과정을 찾아가는 과정이다. 일반적인 MCTS와 동일하게 이 연구에서도 Q값을 매기고 이를 UDP라는 공식에 따라 좋은 풀이 과정을 찾도록 했다. 위 사진은 논문에 첨부된 사진으로 전체 플로우를 요약하여 보여주고 있다. Q값이라는 숫자에 따라 풀이의 방향을 b처럼 확장해 나가는데 각각의 단계로 스케일업 하면서 C와 같은 검증단계를 거친다. 여기서 a 사진처럼 SLM과 PPM이 있고 slm은 정책에 따라 이 문제의 풀이를 생성해 가는 모델이고 PPM은 과정 중심 모델로 각 과정의 Q값을 생성하는 관찰자(비판자) 역할을 담당한다.
이 연구가 독특했던 점은 기존의 Openai가 강화학습을 통해 문제 풀이를 단계단계 쪼개는 것을 학습하는 방법론을 사용했다면 이는 데이터의 양적, 질적 한계가 있다고 주장하며 code-augmented CoT synthetic method이라는 방법론을 주장했다.
이것은 각 단계를 나누고 이를 자연어로만 검증하면 LLM의 환각에 의해 노이즈 데이터가 생길 수 있으므로 각 단계를 생성할 때 주석을 달도록 하고 이를 검증할 때 각 주석에 해당하는 파이썬 코드를 작성해서 이를 실행해 보고 실패하는 경우 그 단계를 풀이 방법에서 제거하는 작업을 거치는 것이다. 이를 통해 인과성이 좋은 풀이법(단계단계로 잘 나눈 풀이법)만 살려두고 나머지를 제거하여 이 데이터를 다시 학습에 활용했을 때 더 좋은 성과를 만들 수 있는 양질의 데이터를 만드는 방법이라고 한다. 이 연구에서는 이를 통해 더 많은 고품질 수학 풀이 데이터를 얻을 수 있고 이를 작은 모델에 훈련시키면 이 모델들이 더욱 발전할 수 있었다고 한다. 이 연구를 봤을 때 최근에 나오는 가장 크고 똑똑한 모델들이 이런 방식의 학습을 거치면 얼마나 더 발전할지 기대가 되었다.
그리고 또 하나 주목할 점은 인공지능 스스로 학습할 데이터를 만들 능력을 검증했다는 것이다. 원래 어려운 문제를 해결하기 위해서 어려운 문제의 상세한 풀이를 학습했어야 하는데 그 데이터를 구하기 어려웠다. 이 문제를 이제는 해결할 수 있지 않을까? 자신이 훈련받은 것보다 더 어려운 문제를 풀어내는 능력을 갖췄다는 게 놀라운 것 같다.
무엇보다 아래 사진과 같은 결과가 더욱 놀랍다. opensource 모델에 그것도 LLM이 아닌 SLM으로 openai의 O1에 준하거나 더 뛰어난 성능을 보였다는 것이다.