OpenRouter, 자동 품질 라우팅으로 AI 인프라 혁신
- •OpenRouter가 실시간 AI 공급자 라우팅을 위한 'Auto Exacto'를 출시했다.
- •시스템은 5분마다 성능을 평가해 신뢰할 수 있는 공급자 엔드포인트를 우선순위에 둔다.
- •새로운 시스템 도입 이후 도구 호출(tool-call) 오류율이 최대 88% 감소했다.
AI 모델이 폭발적으로 늘어나면서, 마치 서로 다른 가게에서 같은 물건을 사듯 사용자는 품질 차이를 경험하게 된다. 우리가 보내는 모든 요청은 실제로는 '추론 공급자'라는 서버 팜(Server Farm)에서 수학적 연산을 통해 처리되는데, 하드웨어나 소프트웨어 설정에 따라 같은 모델이라도 결과물은 크게 달라진다. 특히 외부 소프트웨어를 제어하기 위해 정교한 형식이 필요한 도구 호출 작업에서는 이러한 공급자 간 성능 편차가 치명적인 오류를 유발할 수 있다.
OpenRouter가 내놓은 'Auto Exacto'는 AI 요청을 위한 지능형 교통 관제사 역할을 수행한다. 이 시스템은 사람이 미리 정해둔 기준을 따르는 대신, 처리량, 도구 호출 정확도, 벤치마크 성능이라는 세 가지 신호를 기반으로 5분마다 데이터를 갱신한다. 특정 공급자의 성능이 떨어지거나 기술적 문제가 감지되면 즉시 트래픽을 다른 곳으로 우회시켜, 사용자가 별도의 설정 없이도 항상 안정적인 서비스를 이용하도록 돕는다.
실제로 이 시스템은 측정 가능한 성과를 거두고 있다. 최근 테스트 결과 GLM-5와 GLM-4.7 모델의 도구 호출 오류율은 각각 88%와 80%씩 급감했다. 전반적인 오류율 또한 1% 수준으로 낮아졌는데, 이는 단계별 워크플로우를 실행하는 에이전트 AI를 구축하는 개발자들에게 매우 중요한 진전이다. 복잡한 인프라 문제를 추상화함으로써 개발자는 인프라 운영보다는 본연의 애플리케이션 논리 설계에 집중할 수 있게 되었다.
흥미로운 점은 개발 과정에서 밝혀진 병목 현상의 실체다. 일반적으로 모델의 메모리 점유율을 줄이는 '양자화'가 성능 저하의 주범으로 꼽히곤 하지만, OpenRouter의 데이터는 실제 범인이 따로 있음을 가리킨다. 대부분의 경우 문제는 모델 가중치 자체가 아니라, 하드웨어와 모델 사이를 연결하는 소프트웨어 통로인 '추론 엔진'의 최적화 수준이었다. 결과적으로 팀은 수동 디버깅 대신 생산 데이터에서 스스로 학습하는 자가 치유형 인프라를 구축하는 데 성공했다.
결국 Auto Exacto는 AI 인프라에 대한 접근 방식을 근본적으로 바꿨다. 이제는 모델을 단순히 실행하는 단계를 넘어, 대규모 환경에서 어떻게 신뢰성 있게 운영할 것인가가 핵심 과제가 되었다. 모델 서빙을 고정된 설정이 아닌 데이터 기반의 동적 최적화 문제로 다루면서, AI 생태계는 마치 전기나 수도처럼 언제든 꺼내 쓰는 '유틸리티' 모델로 한 걸음 더 다가서고 있다.