5月28日,阿里巴巴语音大模型Fun-Realtime-TTS-Preview在Artificial Analysis的Speech Arena排行榜上拿到1190分Elo,全球第五,国产模型里排第一。同一个模型家族里的Fun-Realtime-ASR和Fun-Realtime-AudioChat也分别在各自的赛道拿到过全球第一,三项指标加在一起,阿里把这个组合称为”大满贯”。
这条新闻出来之后,国产语音AI半年走到哪了,是个值得梳理的问题。
一. 阿里通义:三项指标拿过全球第一,但排名一直在变
5月28日的成绩单
Speech Arena的评测方式是盲听打分,听众听两段同样文本生成的语音,选哪个更自然,靠这个积累出Elo分。这套机制的好处是排除了厂商自吹的成分,坏处是榜单变化很快,几乎每周都在动。
5月28日那天,Fun-Realtime-TTS-Preview拿到1190分,前面排着Gemini 3.1 Flash TTS(1214分)、Inworld Realtime TTS-2研究预览版(1209分)、Cartesia Sonic 3.5(1203分)。两天后,MarkTechPost统计5月30日的榜单,前五名换了一拨,但Fun-Realtime-TTS-Preview还在里面。
这里有个细节值得说清楚:阿里后来又发了一版叫Fun-Realtime-TTS(去掉了Preview),这一版拿到1219到1224分,反超了Gemini,成为阿里在Artificial Analysis榜单上的第一个全球第一。定价每百万字符27.6美元,比Cartesia Sonic 3.5和Inworld Realtime TTS-2都便宜。
“大满贯”是怎么拿到的
语音交互能力拆开看是三层:听得准(ASR)、说得好(TTS)、聊得棒(端到端对话)。阿里的语音模型家族在这三个赛道各自单独登顶过,没有哪一个模型同时做完三件事,是三款不同的模型分别拿了三个第一。
放到开源生态里看,阿里这几年在TTS方向的投入一直比较扎实。由通义团队主导开发的CosyVoice 2在中文韵律、多音字处理上明显领先海外团队的同类模型。Fun-Realtime-TTS-Preview走的是商业闭源路线,CosyVoice走开源,两条线都在推进。
二. 字节豆包:从能听会说到端到端通话,半年内连续上新
豆包语音2.0:识别准了,朗读公式也准了
字节这边的节奏比阿里更密集。豆包语音合成2.0(Doubao-Seed-TTS-2.0)和声音复刻2.0(Doubao-Seed-ICL-2.0)在2025年10月16日发布,语音识别2.0(Doubao-Seed-ASR-2.0)隔了一个半月,在12月5日单独上线。
识别模型这一代加了图像理解能力,遇到容易混淆的同音词(比如”滑鸡”和”滑稽”),可以结合图片信息辅助判断,关键词召回率提了20%。合成模型主打教育场景的公式朗读,从小学到高中全学科覆盖,平均准确率从传统模型的50%提到了90%。声音复刻只需要5秒参考音频,支持中英日西葡多种语言。
实时语音通话:去年6月就上线了
豆包APP在2025年6月的火山引擎Force原动力大会上发布了实时语音大模型,用户可以像打电话一样和AI连续对话。2026年4月,火山引擎正式上线了豆包实时语音模型3.0(代号Seeduplex)的API服务并开启邀测,这是原生全双工端到端语音大模型,能在对话过程中调用工具完成任务,做到边听边说边办事。
3月豆包APP加了”深度思考”,支持边想边搜。5月又上了实时互动视频通话。6月上线了AI博客功能,做的是双人对话式的语音播客,国内是首个免费加秒级生成的同类产品。
这个节奏背后是字节对豆包的资源投入。据钛媒体报道,豆包上线以来已经完成了至少20次版本迭代,2025年保持每月上新。
三. 腾讯混元:先把底子补齐,语音方向悄悄走了条翻译的路
2025年底,腾讯先解决了”模型不够用”的问题
腾讯混元的端到端语音通话模型混元Voice其实2025年5月就上线了,当时的数据是响应速度比级联方案快30%以上,降到1.6秒。但接下来一年里,腾讯内部的默认大模型一直是DeepSeek,混元的存在感不高。
2026年1月,马化腾在公司年会上公开说腾讯在AI上”动作慢了”,腾讯总裁刘炽平随后提到要重构混元团队的组织方式,重建预训练和强化学习基础设施。
前OpenAI研究员姚顺雨2025年底加入腾讯出任首席AI科学家,主导了这场重建。4月23日,重建后的第一个模型Hy3 preview发布并开源,总参数295B,激活参数21B,最大支持256K上下文。5月7日腾讯披露,Hy3 preview上线后的Token调用量已经是上一代Hy2的10倍以上。元宝App的默认通用大模型也换成了Hy3 preview。
语音方向真正的新动作,是离线翻译
底层模型补上之后,腾讯混元这半年在语音相关方向上拿出的实际新东西,是一系列翻译模型。混元开源了手机端离线翻译模型Hy-MT1.5,1.8B参数压缩到1.25bit量化,模型体积只有440MB,支持33种语言1056个翻译方向,无需联网就能在手机本地跑,官方说翻译质量超过了谷歌翻译。
紧接着腾讯又发布了新一代翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三个尺寸,支持33种语言互译加5种民族语言和方言,7B和30B-A3B在多项评测中拿到了开源模型最佳成绩。配套推出的腾讯Hy翻译小程序支持语音输入和离线翻译,iOS和安卓App也在筹备上架。
这条线和混元Voice不是一回事,一个做语音通话,一个做语音输入辅助的翻译,但两者背后都是同一套混元基座,Hy3之后底座变快变准,这些应用层的产品才有了跟上的资本。
VITA-Audio:底层研究一直没停
腾讯优图实验室此前和南京大学、厦门大学联合做过一个叫VITA-Audio的开源项目,专门解决流式语音生成里首个音频token延迟过高的问题,动态注意力机制让语音响应速度提升了5倍。这个项目时间上比Hy3 preview的重建还要早,是腾讯在语音底层一直保持投入的另一个证据。
四. 三家放在一起看,能看出什么
路线不一样,但目标都在往端到端收
- 阿里走的是”国际榜单验证+独立模型分赛道登顶”,技术指标拿得很硬,但目前没有把ASR、TTS、Chat三个能力合并进一个端到端模型。
- 字节走的是”产品快速迭代+场景化深耕”,公式朗读、实时通话、AI播客这些功能都是从具体场景反推出来的需求。
- 腾讯走的是”先把底座补齐,应用层换个赛道再发力”,混元Voice去年就上线了,但今年上半年真正拿出新东西的是离线翻译这条线,不是语音通话本身。
三家共同的方向是端到端语音对话,这几个模型现在打的分数都还没拉开明显差距。
榜单名次会变,但能力差距在缩小是真的
Speech Arena的排名一两周就能洗一遍,今天说”全球第五”,下个月可能换了模型版本又冲到前三或者掉到第八。把某一天的快照当成定论,意义不大。但拉长到半年看,国产语音模型从能稳定出现在国际榜单前列,到拿过分赛道全球第一,这个变化是实在的。
接下来值得看的是腾讯混元的语音通话能力会不会借着Hy3的底座重新发力,以及阿里的端到端对话模型什么时候能追上字节Seeduplex这样的产品化进度。