你这是违法行为 (@Anano)谷歌发布Gemini 3.1 Flash TTS,开发者可像导演一样用自然语言指挥AI怎么说话 中发帖

谷歌发布新一代文本转语音模型 Gemini 3.1 Flash TTS,核心卖点不是「更像真人」,而是开发者可以精确控制 AI 语音的风格、语速和情绪表达。模型已通过 Gemini API、Google AI Studio(开发者预览)、Vertex AI(企业预览)和 Google Vids(Workspace 用户)上线。 
这套控制能力的关键是「audio tags」(音频标签):开发者在输入文本中嵌入自然语言指令,就能调整 AI 语音的语调、节奏和口音,甚至在一句话中间切换表达风格。谷歌在 Google AI Studio 中提供了一套「导演椅」式的配置界面,包含三层控制: 
1. 场景指导:设定环境和对话指令,让角色在多轮对话中保持一致性格 
2. 角色级调参:为每个角色分配独立的音频配置,单独控制语速、语调和口音 
3. 一键导出:调好的参数可直接导出为 Gemini API ...
 
 
Back to Top