바이트댄스, AI 추론 효율 높이는 DLCM 기술 공개
- •기존 언어 모델보다 연산 효율성이 뛰어나며 모델 크기가 커질수록 성능 향상 폭이 확대된다.
- •개별 토큰 대신 의미 단위인 '개념'에 연산을 집중해 적은 자원으로도 우수한 추론 능력을 발휘한다.
- •압축 인지 스케일링 법칙과 안정적인 학습 매개변수 설정을 통해 미래 AI 개발의 지속 가능성을 제시했다.
틱톡의 모회사인 바이트댄스(ByteDance) 연구진이 기존 인공지능 아키텍처의 고질적인 비효율성을 해결하기 위해 '동적 거대 개념 모델(DLCM)'을 새롭게 선보여 업계의 주목을 받고 있다. 기존의 대규모 언어 모델(LLM)은 단어의 중요도와 관계없이 모든 토큰에 동일한 연산량을 할당함에 따라, 단순한 수식어나 문맥상 중요하지 않은 조사 등에 불필요한 처리 능력을 낭비하는 한계가 있었다. 이에 따라 바이트댄스는 개별 토큰이 아닌 의미의 핵심인 '개념' 단위에 연산을 집중시키는 혁신적인 방식을 도입했다. 이러한 접근 방식은 모델이 중복된 데이터 대신 실질적인 정보에 우선순위를 두도록 유도하여 시스템 자원 활용도를 획기적으로 최적화하는 결과를 낳았다.
이 시스템은 모델이 스스로 의미적 경계를 학습하여 토큰을 가변적인 길이의 단위로 압축하는 적응형 '개념 공간' 기술을 핵심으로 한다. 압축된 공간 내에서 추론을 수행함으로써 DLCM은 핵심 아이디어에 집중하고 주변의 노이즈를 효과적으로 걸러내는 인간의 독서 패턴을 그대로 모방하도록 설계되었다. 특히 이러한 메커니즘 덕분에 모델은 인지적 지능의 저하를 전혀 초래하지 않으면서도 훨씬 적은 계산 리소스로 탁월한 추론 능력을 확보하게 되었다. 결과적으로 인공지능이 보다 높은 효율성으로 작동하면서도 고도의 논리적 사고가 필요한 과제를 원활히 수행할 수 있게 된 것이다.
또한 바이트댄스 연구팀은 모델의 용량과 압축률 사이의 정밀한 상관관계를 정의한 최초의 '압축 인지 스케일링 법칙'을 수립하며 학술적 토대를 마련했다. 이들은 안정적인 모델 학습과 규모에 상관없는 제로샷 하이퍼파라미터 전이를 위해 분리된 형태의 μP 매개변수화 기법을 개발하여 기술적 완성도를 한층 끌어올렸다. 실제로 실험 결과 DLCM은 표준 모델과 동일한 연산 수준에서 약 2.69%의 성능 향상을 기록했으며, 모델 규모가 커질수록 이러한 효율성 이득이 비례하여 증가하는 긍정적인 상관관계를 보였다. 이러한 성과는 향후 지속 가능한 고성능 AI 개발을 위한 매우 유망한 솔루션으로 평가받으며 기술적 잠재력을 입증하고 있다.