- 移动版

主题：支持8大方言与强噪音！小米ASR模型开源，TTS系列3款模型免费！

爱我中华发表于 2026-04-27 14:17

。
智东西上传的提示词是“一位20多岁的女性，说南方软语，声线慵懒松弛，带一点点刚睡醒的鼻音，她是深夜电台主播念稿时尾音轻放，读听众留言时会放柔语气。”
https://oss.zhidx.com/2d3719856127dae118f314a9b4d058a1/69ece500/uploads/2026/04/69eacc29cbba2_69eacc29bf53b_69eacc29bf501_1337854033_2ced17b706eea30cc90849ab71b278f3838974723809309239.wav
生成的音频确实声线慵懒，听起来是一位年轻女气，但说话时仍然是普通话，没有南方软语的特征。其声音为了刻意保持慵懒松弛，会在尾音时可以压低声音，会减弱松弛感。
此外，小米官方给出了一段示例，其提示次是“一位年迈的老先生，说带北方口音的普通话，语速缓慢而沉稳，嗓音略带沙哑和沧桑感，仿佛一位饱经风霜的老爷爷在讲故事，充满岁月的智慧”。
https://oss.zhidx.com/9995c51ab47870b830c3f590fbb058b8/69ece500/uploads/2026/04/69eb08880113a_69eb0887f1a75_69eb0887f1a2c_getvoice.mp3
音色克隆模型MiMo-V2.5-TTS-VoiceClone，用户可以让其复刻一位真人播客、配音演员、品牌代言人，或者用户本人的声音。
其只需提供一段数秒的参考音频，无需额外的训练、标注或微调过程，复刻后的声音可以保留原始说话人的音色身份，以及气息、节奏、习惯性停顿等个人特征。
小米放出的官方案例，用严肃、字正腔圆的新闻播报声线，复刻了《康熙微服私访记》中的一段经典台词，极具反差感。
https://oss.zhidx.com/97b2348165f6993fa14b363ecc35c979/69ece500/uploads/2026/04/69eb08a5eaa5a_69eb08a5e7519_69eb08a5e74df_getvoice-1.mp3
其新音色的提示词为“用尖锐刻薄的嗓音，带着狐假虎威的得意感说话，在提到大人物的身份时故意放慢语速并加重语气，营造压迫感。”
文本为“你以为我是谁，也敢在这儿跟我耍横？我告诉你，站在我身后的那个人，说出来吓死你——是当今的——万岁爷！你今天要是不给我个说法，我让你这铺子明天就开不了门。”
https://oss.zhidx.com/96801b4863b2611589148ae36ceab711/69ece500/uploads/2026/04/69eb08b31a62a_69eb08b31714f_69eb08b317110_getvoice-2.mp3
音频中，音色与新闻播报的声线保持一致，在说“万岁爷”、“开不了门”等重点内容时，还可以拉长声线、加重语气。
结语：语音AI四大研发路线，打造真正通用语音智能

小米公布了其下一步研发方向：
1、更大规模的语音预训练与强化学习后训练：MiMo-V2.5-TTS-Series 证明了大规模预训练与后训练的巨大收益，扩大这两者的规模：通过更多的数据、更大的模型、更强的算力，让更强大的语音智能从规模中涌现；更加精细的奖励建模与强化学习算法，推动模型迈向更高阶的语音表达智能。
2、通用音频生成：语音只是第一步，他们正在将能力扩展到更广义的音频生成：环境音效、动作声、氛围铺底，乃至短乐句与旋律片段，逐步建模出一个完整的声音世界。他们认为真正的通用音频模型，不是把语音、音效、音乐简单拼在一起，而是让它们在同一套空间里彼此理解、协同创作。
3、上下文理解能力：上下文理解意味着模型不再只是一个“逐句执行的工具”，而是一个懂得故事语境的表达者。这是其迈向真正通用语音智能的关键一步。
4、通用语音理解能力：他们的目标是，让方言、噪音、中英混杂这些“真实世界的常态”不再成为语音识别的短板。未来，他们将持续扩展更多方言覆盖、并深化上下文感知能力。

上一页 (2/2)

回帖(3)：

3 ^# ddwg0818
04-27 15:46

作进一步了解！

2 ^# ddwg0818
04-27 15:46

支持一下大佬！

1 ^# ddwg0818
04-27 15:46

来看一看资讯！

全部回帖(3)»