텐센트 훈원, Composition-RL로 모델 추론 능력 강화
huggingface.co
2026년 2월 13일 (금)
- •텐센트 훈원이 문제 자동 구성을 통해 거대언어모델(LLM)의 추론 능력을 향상시키는 Composition-RL을 선보였다.
- •이 방식은 이미 해결된 학습 데이터를 복합적인 단계의 질문으로 재구성하여 강화 학습에 활용한다.
- •실험 결과, 40억 개에서 300억 개의 매개변수를 가진 다양한 모델에서 일관된 성능 향상이 확인됐다.
언어 모델을 위한 강화 학습은 주로 수학이나 프로그래밍처럼 정답 여부를 객관적으로 확인할 수 있는 '검증 가능한 보상'에 의존한다. 하지만 학습 과정에서 모델이 발전할수록 데이터셋 내 쉬운 문제들을 빠르게 마스터하게 되는 병목 현상이 발생한다. 이렇게 이미 해결된 문제들은 모델의 성장에 더 이상 도움을 주지 못하며, 사람이 직접 개입하여 고품질의 새로운 데이터를 생성하는 과정은 여전히 느리고 비용이 많이 드는 작업이다.
이에 따라 텐센트 훈원 연구진은 'Composition-RL'이라는 영리한 해결책을 개발했다. 이 시스템은 완전히 새로운 데이터를 찾는 대신, 기존의 여러 문제를 자동으로 결합하여 더욱 어려운 복합 프롬프트를 생성한다. 모델이 하나의 쿼리 안에서 여러 하위 문제를 동시에 해결하도록 유도함으로써, 기존의 단순한 질문들이 더 이상 학습 효과를 주지 못하는 단계에서도 도전적이고 생산적인 학습 환경을 유지하게 한다.
또한 연구팀은 쉬운 조합부터 시작해 모델이 똑똑해질수록 복잡도를 서서히 높이는 커리큘럼 학습 방식을 도입했다. 이는 마치 디지털 수업 계획안처럼 작동하며 모델의 체계적인 성장을 돕는다. 실험 결과, 이 방법은 다양한 크기의 모델에서 추론 능력을 일관되게 향상시키는 것으로 나타났다. 특히 이번 연구는 단순히 더 많은 데이터를 수집하는 것보다 이미 보유한 정보의 활용 가치를 극대화하는 쪽으로 변화하는 AI 연구의 주요 흐름을 잘 보여준다.