LLM 학습의 고질적 불안정성 해결한 VESPO 알고리즘
- •VESPO는 시퀀스 단위 중요도 가중치의 분산을 제어해 LLM 강화학습의 안정성을 획기적으로 높였다.
- •기존의 번거로운 토큰 수준 클리핑이나 길이 정규화 같은 휴리스틱 기법 없이도 학습이 가능하다.
- •실험을 통해 밀집 모델과 혼합 전문가 모델(MoE) 모두에서 일관된 성능 향상 효과를 입증했다.
강화학습은 대규모 언어 모델(LLM)을 인간의 선호도에 맞게 정렬하는 표준 기술로 자리 잡았으나, 그 과정이 매우 불안정하다는 고질적인 문제를 안고 있었다. 특히 학습 중인 모델이 데이터를 생성하는 모델과 너무 빠르게 멀어지는 '정책 노후화' 현상이 주된 원인으로 꼽히는데, 이는 수학적 불안정성을 초래해 학습 과정을 중단시키기도 한다. 이에 따라 연구자들은 수치를 제어하기 위해 토큰 수준의 클리핑이나 길이 정규화 같은 임시방편을 동원해 왔지만, 이러한 방식은 흔히 모델 학습에 필요한 핵심 정보를 손실시키거나 편향을 유발하는 한계가 있었다.
이러한 문제를 해결하기 위해 구빈 셴(Guobin Shen, 연구원) 등이 제안한 VESPO는 안정화 문제를 단순한 휴리스틱이 아닌 수학적 최적화의 관점에서 풀어낸 새로운 프레임워크다. 이 기술은 텍스트 시퀀스 전체에 특정 '리셰이핑 커널'을 직접 적용하여, 데이터를 쪼개거나 인위적인 제한을 두지 않고도 분포의 변화를 정교하게 보정한다. 그 결과 시스템의 각 요소가 서로 다른 속도로 작동하는 고속 비동기 컴퓨팅 환경에서도 학습 데이터가 최신 상태가 아닐 때 발생하는 오류를 효과적으로 방지할 수 있게 되었다.
실제 인프라 확장 성능을 테스트한 결과, VESPO는 기존 표준 방식보다 최대 64배나 높은 '노후화 비율'에서도 견고한 안정성을 유지했다. 특히 일반적인 밀집 모델은 물론 복잡한 혼합 전문가 모델(MoE) 구조에서도 고른 성능 향상을 입증했으며, 고도의 사고력이 요구되는 수학 추론 과제에서 특히 강점을 보였다. 무엇보다 현재 모델 상태와 일치하지 않는 데이터로도 안정적인 학습이 가능한 이론적 토대를 마련했다는 점에서, 향후 더 효율적이고 강력한 AI 모델 개발에 크게 기여할 것으로 전망된다.