작업 맞춤형 초안 모델, AI 텍스트 생성 속도 높인다
- •투기적 디코딩의 효율성은 초안 모델의 학습 데이터와 특정 작업 간의 정렬 수준에 크게 좌우됨
- •수학이나 대화 데이터 등 특정 작업에 특화된 학습이 범용 초안 모델보다 뛰어난 성능을 발휘함
- •추론 시 신뢰도 기반 라우팅을 활용하는 방식이 여러 전문 모델을 결합하는 가중치 평균 방식보다 효과적임
투기적 디코딩은 품질 저하 없이 대규모 AI 모델의 생성 속도를 높이기 위해 고안된 효율적인 기술이다. 일반적으로 거대한 모델이 텍스트를 한 단어씩 생성하는 과정은 다소 느리고 반복적일 수 있다. 이때 투기적 디코딩을 적용하면 상대적으로 작은 '초안' 모델이 다음에 올 단어들을 미리 빠르게 추측하고, 이후 거대한 '타겟' 모델이 이 추측값들을 한꺼번에 검토한다. 타겟 모델은 올바른 추측은 수용하고 틀린 부분만 수정하는 병렬 검증을 수행하며, 그 결과 전체적인 처리 시간이 획기적으로 단축된다.
킹 압둘라 과학기술대학교 연구진이 진행한 TAPS 연구에 따르면, 이러한 기법의 효율성은 초안 모델이 무엇을 학습했는지에 따라 결정적인 차이를 보이는 것으로 나타났다. 예를 들어 수학 연산에 특화된 초안 모델은 일반적인 대화 모델에 비해 타겟 모델이 복잡한 방정식을 푸는 과정을 훨씬 빠르게 보조할 수 있다. 이러한 '작업 인식' 역량은 매우 중요하다. 특히 다루는 주제가 전문화될수록 범용 초안 모델은 특화된 작업의 속도를 따라가는 데 한계를 보이기 때문이다.
연구진은 또한 모델이 다양한 분야에서 두루 성능을 발휘해야 하는 상황에 대처할 방법도 모색했다. 여러 전문 모델의 내부 로직을 단순히 산술적으로 평균 내는 방식은 모든 분야에서 어중간한 성능을 내는 결과를 초래하기 쉽다. 이에 따라 연구팀은 각 초안 모델의 신뢰도를 실시간으로 확인하여 특정 질의에 가장 적합한 전문가 모델을 선택하는 라우팅 시스템을 도입했다. 이에 더해 타겟 모델이 여러 가능한 단어 시퀀스를 동시에 검증하는 병합 트리 검증 방식을 활용함으로써 전체 시스템의 추론 효율을 한층 더 극대화했다.