MOOSE-Star, 과학적 발견의 계산 장벽 허물다
- •MOOSE-Star 프레임워크는 과학적 추론의 복잡도를 지수 수준에서 효율적인 로그 수준으로 획기적으로 낮췄다.
- •연구진은 모델 학습을 위해 약 11만 건의 논문을 분석하여 구성한 TOMATO-Star 데이터셋을 공개했다.
- •이 시스템은 복잡한 연구 배경 속에서도 최적의 가설을 생성하기 위한 연속적인 테스트 시간 확장을 지원한다.
인공지능 분야에서 과학적 발견은 오랫동안 '성배'와 같은 과제로 여겨졌으나, 독창적인 가설을 생성하도록 모델을 가르치는 일은 여전히 거대한 기술적 장벽으로 남아 있다. 현재의 AI 시스템은 기존 데이터를 검색하는 데는 능숙하지만, 서로 다른 연구 영감 사이의 무수히 많은 조합을 다루는 과정에서 수학적 한계에 부딪히기 때문이다. 이러한 조합적 복잡성은 지금까지 모델이 연구 배경과 실현 가능한 가설 사이의 직접적인 관계를 효과적으로 학습하는 것을 가로막는 결정적인 요인이었다.
연구진은 이러한 간극을 메우기 위해 생성적 추론 과정을 관리 가능한 하위 과제로 세분화하는 MOOSE-Star 프레임워크를 도입했다. 특히 동기 유도 계층적 탐색 방식을 사용하여, 불필요한 데이터에 매몰되지 않고 방대한 지식 속에서 관련 있는 연결 고리를 빠르게 찾아내도록 설계했다. 그 결과 계산 비용을 지수 함수적 상승에서 훨씬 효율적인 로그 척도로 전환했으며, 문제의 복잡성이 커질수록 AI가 더욱 효과적으로 지식을 탐색할 수 있는 기반을 마련했다.
또한 연구진은 약 10만 9천 건의 과학 논문을 배경 정보, 영감, 가설이라는 구체적인 튜플 형태로 정리한 TOMATO-Star 데이터셋을 커뮤니티에 공개했다. 3만 8천 시간 이상의 GPU 연산을 통해 구축된 이 데이터셋은 미래 모델이 과학적 추론을 마스터하는 데 필수적인 기초 자료를 제공한다. 특히 R1-Distilled 아키텍처를 기반으로 지식 증류 과정을 거쳐 미세 조정된 모델을 함께 출시함으로써, 'AI for Science' 커뮤니티가 즉시 활용할 수 있는 실질적인 파이프라인을 구축했다.