알리바바, LLM 메모리 효율 혁신하는 FASA 공개
- •알리바바(Alibaba) 연구진이 롱 컨텍스트 모델의 KV 캐시 메모리 사용량을 획기적으로 줄이는 FASA를 선보였다.
- •회전식 위치 인코딩 (RoPE)의 기능적 희소성을 활용해 연산 오버헤드 없이 토큰의 중요도를 즉각 예측한다.
- •메모리 캐시의 18.9%만 사용하고도 2.56배의 속도 향상과 완벽에 가까운 정확도를 달성했다.
대규모 언어 모델 (LLM)에서 방대한 텍스트를 처리할 때, 입력 길이에 비례해 늘어나는 KV 캐시 메모리는 성능 저하의 주요 원인이 된다. 이에 알리바바(Alibaba) 연구진은 지능을 유지하면서도 불필요한 캐시를 가지치기하는 FASA 프레임워크를 공개했다. FASA는 중요도가 낮은 데이터를 선택적으로 제거해 메모리 사용량을 줄이며, 그 결과 모델이 방대한 컨텍스트 윈도우나 복잡한 추론 작업을 훨씬 더 효율적으로 수행할 수 있게 돕는다.
이번 기술적 돌파구의 핵심은 단어의 위치와 관계를 파악하는 표준 방식인 회전식 위치 인코딩 (RoPE)에서 발견된 새로운 특성에 있다. 연구팀은 이 임베딩 내에 특정 주파수 뭉치만이 문장의 맥락을 결정하는 데 실제로 기여한다는 '기능적 희소성'이 존재함을 밝혀냈다. FASA는 이러한 지배적 주파수 뭉치를 식별함으로써 어떤 토큰을 유지할지 실시간으로 예측한다. 특히 쿼리를 인식하는 이러한 방식은 추가적인 연산 없이도 AI가 적시에 올바른 맥락에 집중하도록 보장한다.
실제 성능 벤치마크 결과는 매우 고무적이다. LongBench-V1 테스트에서 FASA는 단 256개의 토큰만 유지하고도 전체 메모리를 사용한 모델과 대등한 성적을 거두었다. 또한 복잡한 수학 추론 시 일반적인 캐시 용량의 19% 미만으로 2.56배 빠른 속도를 기록했다. 이는 향후 고성능 롱 컨텍스트 AI가 저사양 하드웨어에서도 구동될 수 있음을 시사하며, 이에 따라 고급 AI 기술의 실무 도입이 더욱 가속화될 것으로 기대된다.