智东西4月24日报道,今天,小米MiMo-V2.5家族语音模型系列正式发布:MiMo-V2.5-TTS Series、MiMo-V2.5-ASR,前者可免费体验,后者发布即开源。其中TTS Series包括语音、语音设计、语音克隆模型三款。
就在昨天,小米MiMo官宣MiMo-V2.5中旗舰推理模型MiMo-V2.5、全模态Agent模型V2.5-Pro开启公测、即将开源,再加上今天的4款语音模型,该系列共计6款模型。
MiMo-V2.5-TTS Series包含三款模型:语音模型MiMo-V2.5-TTS、语音设计模型MiMo-V2.5-TTS-VoiceDesign、语音克隆模型MiMo-V2.5-TTS-VoiceClone,MiMo-V2.5-ASR是这些语音模型的听觉基座,发布即开源。
MiMo-V2.5-TTS的模型集成多款音色、支持一句话复刻音色、定制全新音色等。MiMo-V2.5-ASR则支持中英双语、中文方言、强噪音、多说话人等复杂场景的语音识别。
小米此次发布的几大模型,均为智能体场景打造,其在官方文章里透露了几大模型可以搭配使用的智能体式创作链路:用MiMo-V2.5-Pro作为规划与编剧,拆任务、写剧本、排节奏、决定剪辑顺序;用MiMo-V2.5-TTS Series提供音色与素材,VoiceDesign生成音色、VoiceClone合成内容;MiMo-V2.5扮演裁判,听反馈的音频中角色一不一致、节奏对不对、有没有跟用户初衷偏离。
其放出了一条经这一套链路生成的音频:
https://oss.zhidx.com/a822c879ad9f1d0badd8feed435c50af/69ece500/uploads/2026/04/69eb083e59674_69eb083e538e7_69eb083e538a1_Agent%E8%87%AA%E5%B7%B1%E5%81%9A%E9%9F%B3%E9%A2%91.mp3
不过音频中,有出现主人公边说边自己旁白的情况,且爷爷的声音特点并没有在整个说话环节都保持一致,中间会突然背离需求的“嗓门哑、拖长音”,语气突然变快等。
小米MiMo大模型负责人是原DeepSeek核心成员、被业内称为“天才少女”的罗福莉,今天凌晨,她在社交平台转发了大语言模型智能体端到端透明基准测试框架Claw-Eval、香港应用科技大学博士生Lei Li的帖子,其帖子提到,MiMo V2.5 Pro目前在Claw-Eval排名第3,MiMo V2.5排5,接下来是DeepSeek V4吗?
雷军昨日转发了小米-V2.5系列发布微博,并配文“继续进步!”
语音模型均可以在MiMo-Studio免费体验,面向开发者,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone均在Xiaomi MiMo API开放平台限时免费提供。
在开源方面,MiMo-V2.5-ASR目前已开源模型权重和代码,MiMo-V2.5-TTS相关模型的接入Skill全面开源。
MiMo-Studio 快速体验地址:https://aistudio.xiaomimimo.com/#/c
MiMo-V2.5-ASR开源地址:https://github.com/XiaomiMiMo/MiMo-V2.5-ASR
MiMo-V2.5-TTS模型的接入Skill开源地址:https://github.com/XiaomiMiMo/MiMo-Skills
一、三款语音模型+一款听觉模型,小米为通用语音智能放大招
MiMo-V2.5-TTS Series包含三款模型,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone。
三款模型的相同之处在于,其拥有统一的风格指令遵循、音频标签控制与文本理解能力。
不同之处在于针对的创作需求:
MiMo-V2.5-TTS内置多款音色,支持语速、情绪、语气等精细化控制,开箱即用,能满足多场景表达;MiMo-V2.5-TTS-VoiceDesign支持一句话快速定义并生成全新音色;MiMo-V2.5-TTS-VoiceClone能通过少量样本高保真复刻目标音色,同时保持稳定的风格指令遵循与音频标签控制能力。
MiMo-V2.5-ASR发布即开源。根据小米官方信息,该模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂真实场景下的语音识别性能达到业界领先水平。
小米官方总结了这一模型的八大特点:
中文方言:支持吴语、粤语、闽南语、四川话等方言;
英文复杂场景:在AMI等复杂英文场景Open ASR Leaderboard上达到领先水平;
Code-Switch:中英Code-Switch语音转录自由流畅,无需预设语种标签;
歌曲识别:中英文歌曲歌词识别,在伴奏与人声混合场景下保持高精度;
强噪音场景:在高噪音、远场拾音等复杂声学环境中保持鲁棒识别;
多说话人:支持多人交叉对话场景的准确转录,如会议场景;
强知识关联:古诗词、专业术语、人名、地名等知识密集型内容的精准识别;
原生标点:结合语音韵律与语义原生输出标点,转写结果即拿即用,无需后处理。
其提到,对于智能体应用、内容创作工具、会议系统、语音交互产品而言,MiMo-V2.5-ASR已经在复杂真实世界语音中经过验证。
二、导演剧本、音频标签都能看懂,没需求只看音频文本也能传达情绪
智东西实际体验了MiMo-V2.5-TTS系列几款模型的效果。
首先是MiMo-V2.5-TTS,根据官方信息,该模型从情绪、语气、语速、发声方式到语言风格等多个维度,都能理解并遵循,其还可以支持导演剧本级的结构化输入:把人物、场景、详细指导分层描述,各层按自己的节奏独立更新、自由组合。
智东西选择了知性女声,上传的指令是“声音轻柔舒缓,语速很慢,带着安抚人心的温度,说话时像在给客人递一杯热咖啡,语气温柔又有耐心,像开了几十年书店的老板娘。”
https://oss.zhidx.com/7a1638b15803b15f63c9aff8246ff364/69ece500/uploads/2026/04/69eaca3a40aab_69eaca3a383b4_69eaca3a3836e_%E8%80%81%E6%9D%BF%E5%A8%98.wav
生成的音频中,老板娘说话整体语速偏慢、换气舒缓,没有急促感,字句之间留白自然,整体符合语言生成的需求。
其次,除了自然语言指令,该模型还支持行内音频标签,用于在文本特定位置精准控制情绪、状态或风格。标签支持中英双语和开放文本描述,允许在同一段文本中灵活混用。
智东西上传了一段茶馆说书人的音频标签文本,提示词为
(洪亮,开场)话说那江湖之上,有位少年侠客,仗剑走天涯。
(压低声音,神秘)可谁也不知道,他腰间那把剑,藏着一段血海深仇。
(拔高声调,激昂)今日,他终于要回来了!
https://oss.zhidx.com/8eb0dc1fc8fdc92ea75202c3912806b3/69ece500/uploads/2026/04/69eac916bcd9c_69eac916b13ce_69eac916b138a_%E8%AF%B4%E4%B9%A6.wav
整体来看,音频中的三句话都符合前面的音频标签特征,但每一句之间的衔接仍有优化的空间,会出现声音突然从高变低,又突然拔高的情况。
最后是文本理解能力,即使用户没有上传具体需求,模型也能根据文本判断其中的韵律与情感,在音频中表现出标点的停顿、句式的起伏等。
官方提示词为“Ten… nine… eight… seven… six… five… four… three… TWO… ONE… ZERO! LAUNCH! LAUNCH! WE HAVE LIFTOFF! GO GO GO! SHE’S CLIMBING! ALTITUDE 1,000… 5,000… 10,000 FEET AND CLIMBING! BEAUTIFUL! AB-SO-LUTE-LY BEAUTIFUL!”
https://oss.zhidx.com/7b2f8e042f73512d65b9227f8935fa8e/69ece500/uploads/2026/04/69eb087415165_69eb087411e7a_69eb087411e40_%E5%80%92%E6%95%B0.mp3
如上面这段提示词,模型感知到文本的节奏逐渐加快,从倒计时阶段的专业、冷静到最后情绪爬升与赞叹时,还原出了人物的情绪变化。
三、无需参考音频生成全新音色,还支持一句话复刻
另外两个是音色设计和克隆模型。
音色设计模型MiMo-V2.5-TTS-VoiceDesign无需任何参考音频,支持用户通过自然语言描述从零生成一款全新音色。其可以自由使用年龄、性别、口音、音质、发声方式、性格气质等维度进行描述,模型即可合成对应的角色音色

