AI의 자기 진화를 돕는 TTCS 프레임워크 공개
- •TTCS 프레임워크는 추론 단계에서 맞춤형 질문 커리큘럼을 합성하여 대규모 언어 모델 (LLM)의 추론 능력을 향상시킨다.
- •합성기가 질문의 변형을 생성하고 해결사가 이에 따른 보상을 산출하며 함께 진화하는 시스템을 구축했다.
- •이 방식은 수학적 벤치마크 성능을 크게 높였을 뿐만 아니라 다양한 모델 아키텍처로의 전이 성능도 입증했다.
'추론 단계 학습(Test-time training)'은 모델 지능에 접근하는 방식의 대전환을 의미한다. 이는 대규모 언어 모델 (LLM)이 실제 추론 과정에서 특정 문제에 유연하게 적응할 수 있도록 돕는 기술이다. 기존 방식은 학습 신호가 약한 고난도 문제 해결에 어려움을 겪는 경우가 많았으나, TTCS 프레임워크는 두 가지 내부 정책 간의 '공동 진화' 관계를 도입해 이를 돌파했다. 특히 특화된 질문 합성기는 모델의 현재 수준에 맞춘 '개인 맞춤형 학습 가이드'와 같이 난이도가 점진적으로 높아지는 구조화된 질문 시퀀스를 생성한다.
두 번째 핵심 요소인 추론 해결사는 합성된 과제를 해결하는 동시에 '자기 일관성 보상'을 생성한다. 이러한 보상은 모델이 한 문제에 대해 여러 번 시도한 결과를 스스로 비교하여 가장 정답일 확률이 높은 경로를 결정하는 일종의 품질 검사 역할을 수행한다. 특히 이 피드백 루프는 양방향으로 작동하는 것이 특징이다. 해결사의 성과에 따라 합성기가 다음에 생성할 질문의 종류를 결정하며, 정교하게 짜인 커리큘럼 덕분에 데이터가 부족한 상황에서도 학습 과정이 불안정해지거나 붕괴되는 현상을 방지한다.
이러한 시도는 AI의 자기 진화 미래에 있어 매우 중요한 시사점을 던진다. 모델이 스스로 학습 경로를 동적으로 구축함으로써, 기존의 사전 학습된 지식과 새롭고 복잡한 추론 작업 사이의 간극을 효과적으로 메울 수 있기 때문이다. 실제 실험 결과에 따르면 이 방식은 수학 분야에서 탁월한 성과를 거두었을 뿐만 아니라, 서로 다른 모델 구조 전반에도 폭넓게 적용 가능한 것으로 나타났다. 결과적으로 인간의 지속적인 개입 없이도 모델 스스로 논리력을 개선할 수 있는 확장 가능한 경로를 제시한 셈이다.