구글, 감정 표현이 가능한 Gemini 3.1 Flash TTS 공개
- •구글이 정교한 감정 표현 제어 기능을 갖춘 Gemini 3.1 Flash TTS를 출시했다.
- •개발자는 텍스트에 오디오 태그를 삽입해 음성의 속도와 어조를 실시간으로 조절할 수 있다.
- •모든 AI 생성 음성에 SynthID 워터마킹을 적용하여 생성 출처를 자동으로 추적한다.
인간과 컴퓨터의 상호작용이 더욱 인간적인 면모를 갖추기 시작했다. 구글의 AI 연구소인 구글 딥마인드(Google DeepMind)는 기존 AI의 기계적이고 단조로운 음성을 넘어선 최신 Text-to-Speech 모델인 Gemini 3.1 Flash TTS를 선보였다. 이번 기술은 단순히 텍스트를 읽는 수준을 넘어 실제 대화에서 나타나는 미묘한 변화와 리듬, 감정의 폭을 구현하는 데 집중했다. 산업 표준 벤치마크에서 높은 Elo 점수를 기록하며, 인공적인 음성이 마침내 자연스러운 목소리의 영역으로 진입했음을 증명했다.
이번 업데이트의 핵심은 세밀한 오디오 태그의 도입이다. 이는 소프트웨어를 위한 디지털 연출 지시어와 같다. 개발자는 텍스트 프롬프트에 직접 자연어 명령을 삽입하여 AI의 발화 방식을 실시간으로 제어할 수 있다. 망설임, 긴박함, 혹은 격식 있는 어조 등 기존에는 전문 성우의 연기가 필요했던 영역을 사용자의 의도에 따라 정밀하게 조정할 수 있게 되었다.
차세대 음성 애플리케이션을 개발하는 이들에게 이번 기술은 연출가와 같은 통제권을 제공한다. 개발자는 API를 통해 환경 설정이나 화자의 페르소나를 정의하여 긴 대화 속에서도 일관된 악센트나 감정적 기조를 유지할 수 있다. 이러한 일관성은 교육 도구나 몰입형 고객 응대 서비스처럼 신뢰가 중요한 분야에서 사용자 경험을 결정짓는 필수 요소다.
창의적인 혜택을 넘어 구글은 안전성을 위한 책임도 강화했다. 생성된 출력물에 SynthID를 내장하여 인간의 귀에는 들리지 않지만 전문 알고리즘은 감지할 수 있는 디지털 워터마크를 도입했다. AI가 생성한 음성과 실제 사람의 목소리를 구별하기 어려워진 시대에, 이러한 보이지 않는 표식은 합성 미디어의 진위 여부를 판별하는 표준 안전장치가 될 것이다.
이번 업데이트는 70개 이상의 언어를 지원하며 영어권 시장에 국한되지 않는다. 고품질의 제어 가능한 음성 기술을 전 세계로 확장함으로써 전문적인 음성 제작 도구를 대중화하고 있다. 대학생이 언어 학습 앱을 개발하거나 엔지니어가 복잡한 대화형 AI 에이전트를 구축할 때, 감정 표현이 가능한 고품질 오디오 구현의 진입 장벽이 획기적으로 낮아졌다.