마이크로소프트, 고속 음성 인식 모델 MAI-Transcribe-1 공개
2026년 4월 3일 (금)
- •마이크로소프트가 Azure Speech API를 통해 MAI-Transcribe-1 음성 변환 모델 출시
- •단어 오류율 3.0% 기록하며 업계 벤치마크 4위 달성
- •실시간 대비 69배 빠른 처리 속도로 업계 최고 수준의 성능 구현
마이크로소프트가 고성능 음성 인식(STT)을 위해 설계된 새로운 모델인 MAI-Transcribe-1을 공개하며 생성형 AI 포트폴리오를 확장했다. 이 모델은 단어 오류율 3.0%를 기록하며 업계 표준인 Artificial Analysis 리더보드 상위권에 이름을 올렸고, 복잡한 오디오를 높은 정확도로 변환하는 능력을 입증했다.
단순 정확도를 넘어 이 시스템의 가장 큰 강점은 뛰어난 처리량이다. 실시간 음성보다 69배 빠르게 오디오를 처리할 수 있어, 회의나 강의, 인터뷰 등 방대한 분량의 기록을 단 몇 초 만에 변환하는 효율성을 제공한다. 이는 지연 시간 비용을 최소화하면서 트랜스크립션 워크플로우를 확장해야 하는 개발자에게 최적화된 솔루션이다.
현재 MAI-Transcribe-1은 영어, 일본어, 아랍어를 포함해 전 세계 주요 25개 언어를 지원한다. 개발자는 마이크로소프트의 Foundry 플랫폼을 통해 즉시 모델을 이용할 수 있다. 비록 일부 전문 분야에서는 경쟁 모델보다 정확도가 다소 낮을 수 있으나, 빠른 속도와 폭넓은 언어 지원을 결합하여 실무 환경에 즉각 도입 가능한 강력한 도구로 평가받는다.