𝐴𝐼𝐺𝐶𝐹𝑅𝐸𝐸 (@AIGCFREE) 在 「限时免费」Xiaomi MiMo-V2-TTS 发布:能说会唱的语音合成大模型 中发帖
Xiaomi MiMo-V2-TTS 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构,经过上亿小时语音数据的大规模预训练与多维度强化学习,实现了高度可控的多粒度语音风格控制。MiMo-V2-TTS 支持从整体风格定调到局部情绪表达的精准调节,能在同一句话内完成语气转折和情感递变;真实还原人类说话的自然韵律;在唱歌时,也能准确表达音高和节奏,自然且富有表现力。
MiMo-V2-TTS 模型现已可通过 Xiaomi MiMo API 开放平台 访问,限时免费。
文本风格控制
灵活自定义文本控制风格
MiMo-V2-TTS 支持任意自然语言风格描述,不局限于预设关键词,模型能理解并执行任意描述性表达。
情感控制:开心、悲伤、生气、温柔、兴奋、平静……
方言支持:东北话、四川话、河南话、粤语、台湾腔……
角色扮演:孙悟空、林黛玉、...