首页| 论坛| 搜索| 消息
主题:支持8大方言与强噪音!小米ASR模型开源,TTS系列3款模型免费!
爱我中华发表于 2026-04-27 14:17

智东西上传的提示词是“一位20多岁的女性,说南方软语,声线慵懒松弛,带一点点刚睡醒的鼻音,她是深夜电台主播念稿时尾音轻放,读听众留言时会放柔语气。”
https://oss.zhidx.com/2d3719856127dae118f314a9b4d058a1/69ece500/uploads/2026/04/69eacc29cbba2_69eacc29bf53b_69eacc29bf501_1337854033_2ced17b706eea30cc90849ab71b278f3838974723809309239.wav
生成的音频确实声线慵懒,听起来是一位年轻女气,但说话时仍然是普通话,没有南方软语的特征。其声音为了刻意保持慵懒松弛,会在尾音时可以压低声音,会减弱松弛感。
此外,小米官方给出了一段示例,其提示次是“一位年迈的老先生,说带北方口音的普通话,语速缓慢而沉稳,嗓音略带沙哑和沧桑感,仿佛一位饱经风霜的老爷爷在讲故事,充满岁月的智慧”。
https://oss.zhidx.com/9995c51ab47870b830c3f590fbb058b8/69ece500/uploads/2026/04/69eb08880113a_69eb0887f1a75_69eb0887f1a2c_getvoice.mp3
音色克隆模型MiMo-V2.5-TTS-VoiceClone,用户可以让其复刻一位真人播客、配音演员、品牌代言人,或者用户本人的声音。
其只需提供一段数秒的参考音频,无需额外的训练、标注或微调过程,复刻后的声音可以保留原始说话人的音色身份,以及气息、节奏、习惯性停顿等个人特征。
小米放出的官方案例,用严肃、字正腔圆的新闻播报声线,复刻了《康熙微服私访记》中的一段经典台词,极具反差感。
https://oss.zhidx.com/97b2348165f6993fa14b363ecc35c979/69ece500/uploads/2026/04/69eb08a5eaa5a_69eb08a5e7519_69eb08a5e74df_getvoice-1.mp3
其新音色的提示词为“用尖锐刻薄的嗓音,带着狐假虎威的得意感说话,在提到大人物的身份时故意放慢语速并加重语气,营造压迫感。”
文本为“你以为我是谁,也敢在这儿跟我耍横?我告诉你,站在我身后的那个人,说出来吓死你——是当今的——万岁爷!你今天要是不给我个说法,我让你这铺子明天就开不了门。”
https://oss.zhidx.com/96801b4863b2611589148ae36ceab711/69ece500/uploads/2026/04/69eb08b31a62a_69eb08b31714f_69eb08b317110_getvoice-2.mp3
音频中,音色与新闻播报的声线保持一致,在说“万岁爷”、“开不了门”等重点内容时,还可以拉长声线、加重语气。
结语:语音AI四大研发路线,打造真正通用语音智能

小米公布了其下一步研发方向:
1、更大规模的语音预训练与强化学习后训练:MiMo-V2.5-TTS-Series 证明了大规模预训练与后训练的巨大收益,扩大这两者的规模:通过更多的数据、更大的模型、更强的算力,让更强大的语音智能从规模中涌现;更加精细的奖励建模与强化学习算法,推动模型迈向更高阶的语音表达智能。
2、通用音频生成:语音只是第一步,他们正在将能力扩展到更广义的音频生成:环境音效、动作声、氛围铺底,乃至短乐句与旋律片段,逐步建模出一个完整的声音世界。他们认为真正的通用音频模型,不是把语音、音效、音乐简单拼在一起,而是让它们在同一套空间里彼此理解、协同创作。
3、上下文理解能力:上下文理解意味着模型不再只是一个“逐句执行的工具”,而是一个懂得故事语境的表达者。这是其迈向真正通用语音智能的关键一步。
4、通用语音理解能力:他们的目标是,让方言、噪音、中英混杂这些“真实世界的常态”不再成为语音识别的短板。未来,他们将持续扩展更多方言覆盖、并深化上下文感知能力。
上一页  (2/2)
回帖(3):
3 # ddwg0818
04-27 15:46
作进一步了解!
2 # ddwg0818
04-27 15:46
支持一下大佬!
1 # ddwg0818
04-27 15:46
来看一看资讯!

全部回帖(3)»
最新回帖
收藏本帖
发新帖