AWS-vLLM 협력, 미세 조정 모델 효율성 획기적 개선
- •AWS와 vLLM이 협력하여 Mixture of Experts (MoE) 구조에 최적화된 효율적인 Multi-LoRA 서빙 기술을 구현했다.
- •새로운 커널 최적화를 통해 GPT-OSS 모델의 토큰 처리량을 19% 높이고 지연 시간은 8% 줄이는 성과를 거두었다.
- •단일 GPU에서 수십 개의 맞춤형 모델을 공유하는 Multi-LoRA 기술로 클라우드 인프라 비용을 대폭 절감했다.
다수의 맞춤형 AI 모델을 운영하는 기업들은 흔히 유휴 GPU 용량으로 인한 비용 문제에 직면하곤 한다. 개별 모델의 트래픽이 전용 컴퓨팅 자원을 할당할 만큼 충분하지 않아 하드웨어가 제대로 활용되지 못하기 때문이다. 이를 해결하기 위해 AWS는 vLLM 커뮤니티와 손을 잡고 GPT-OSS나 Qwen과 같은 Mixture of Experts (MoE) 모델에 최적화된 Multi-LoRA 기술을 고도화했다. 이 방식은 무거운 기본 모델은 고정해 둔 채, 특정 사용자 요청에 맞춰 작고 전문화된 '어댑터'만을 GPU 메모리에 실시간으로 교체하며 효율성을 극대화하는 것이 특징이다.
기술적 돌파구의 핵심은 두 가지 수준의 희소성(Sparsity)을 동시에 관리하는 'fused_moe_lora' 커널에 있다. 이는 데이터를 모델의 전문 영역으로 안내하는 전문가 라우팅과 특정 작업에 적합한 어댑터를 선택하는 과정을 통합적으로 관리한다. 특히 연구팀은 GPU 하드웨어에서 이러한 얇은 행렬들이 처리되는 방식을 최적화하여 고질적인 성능 병목 현상을 제거했다. 또한 첫 번째 계산이 끝나기 전에 두 번째 작업을 미리 준비하는 'Programmatic Dependent Launch' 기능을 도입하여, AI 응답 속도를 늦추는 유휴 시간인 '버블' 현상을 효과적으로 방지했다.
이러한 기술적 진보는 Amazon SageMaker AI나 Amazon Bedrock을 활용하는 개발자들에게 실질적인 성과를 안겨준다. 실제로 GPT-OSS 20B 모델을 대상으로 벤치마크를 진행한 결과, 출력 속도는 19% 향상되었으며 첫 토큰 생성 시간은 8%가량 단축되었다. 무엇보다 성능 저하 없이 여러 고객이 동일한 GPU를 공유할 수 있게 됨에 따라, 활용도가 낮았던 하드웨어가 이제는 대규모 개인화 AI 서비스를 위한 경제적인 엔진으로 거듭나게 되었다.