在线咨询

专属客服在线解答，提供专业解决方案

工单支持

专业技术支持团队，随时响应服务需求

首页博客正文

Fun-Realtime-TTS全球语音竞技场排第五：国产语音模型这半年走到哪了

2026-06-24

大力出奇迹

AI 情报局行业趋势

5月28日，阿里巴巴语音大模型Fun-Realtime-TTS-Preview在Artificial Analysis的Speech Arena排行榜上拿到1190分Elo，全球第五，国产模型里排第一。同一个模型家族里的Fun-Realtime-ASR和Fun-Realtime-AudioChat也分别在各自的赛道拿到过全球第一，三项指标加在一起，阿里把这个组合称为”大满贯”。

这条新闻出来之后，国产语音AI半年走到哪了，是个值得梳理的问题。

一. 阿里通义：三项指标拿过全球第一，但排名一直在变

5月28日的成绩单

Speech Arena的评测方式是盲听打分，听众听两段同样文本生成的语音，选哪个更自然，靠这个积累出Elo分。这套机制的好处是排除了厂商自吹的成分，坏处是榜单变化很快，几乎每周都在动。

5月28日那天，Fun-Realtime-TTS-Preview拿到1190分，前面排着Gemini 3.1 Flash TTS（1214分）、Inworld Realtime TTS-2研究预览版（1209分）、Cartesia Sonic 3.5（1203分）。两天后，MarkTechPost统计5月30日的榜单，前五名换了一拨，但Fun-Realtime-TTS-Preview还在里面。

这里有个细节值得说清楚：阿里后来又发了一版叫Fun-Realtime-TTS（去掉了Preview），这一版拿到1219到1224分，反超了Gemini，成为阿里在Artificial Analysis榜单上的第一个全球第一。定价每百万字符27.6美元，比Cartesia Sonic 3.5和Inworld Realtime TTS-2都便宜。

“大满贯”是怎么拿到的

语音交互能力拆开看是三层：听得准（ASR）、说得好（TTS）、聊得棒（端到端对话）。阿里的语音模型家族在这三个赛道各自单独登顶过，没有哪一个模型同时做完三件事，是三款不同的模型分别拿了三个第一。

放到开源生态里看，阿里这几年在TTS方向的投入一直比较扎实。由通义团队主导开发的CosyVoice 2在中文韵律、多音字处理上明显领先海外团队的同类模型。Fun-Realtime-TTS-Preview走的是商业闭源路线，CosyVoice走开源，两条线都在推进。

二. 字节豆包：从能听会说到端到端通话，半年内连续上新

豆包语音2.0：识别准了，朗读公式也准了

字节这边的节奏比阿里更密集。豆包语音合成2.0（Doubao-Seed-TTS-2.0）和声音复刻2.0（Doubao-Seed-ICL-2.0）在2025年10月16日发布，语音识别2.0（Doubao-Seed-ASR-2.0）隔了一个半月，在12月5日单独上线。

识别模型这一代加了图像理解能力，遇到容易混淆的同音词（比如”滑鸡”和”滑稽”），可以结合图片信息辅助判断，关键词召回率提了20%。合成模型主打教育场景的公式朗读，从小学到高中全学科覆盖，平均准确率从传统模型的50%提到了90%。声音复刻只需要5秒参考音频，支持中英日西葡多种语言。

实时语音通话：去年6月就上线了

豆包APP在2025年6月的火山引擎Force原动力大会上发布了实时语音大模型，用户可以像打电话一样和AI连续对话。2026年4月，火山引擎正式上线了豆包实时语音模型3.0（代号Seeduplex）的API服务并开启邀测，这是原生全双工端到端语音大模型，能在对话过程中调用工具完成任务，做到边听边说边办事。

3月豆包APP加了”深度思考”，支持边想边搜。5月又上了实时互动视频通话。6月上线了AI博客功能，做的是双人对话式的语音播客，国内是首个免费加秒级生成的同类产品。

这个节奏背后是字节对豆包的资源投入。据钛媒体报道，豆包上线以来已经完成了至少20次版本迭代，2025年保持每月上新。

三. 腾讯混元：先把底子补齐，语音方向悄悄走了条翻译的路

2025年底，腾讯先解决了”模型不够用”的问题

腾讯混元的端到端语音通话模型混元Voice其实2025年5月就上线了，当时的数据是响应速度比级联方案快30%以上，降到1.6秒。但接下来一年里，腾讯内部的默认大模型一直是DeepSeek，混元的存在感不高。

2026年1月，马化腾在公司年会上公开说腾讯在AI上”动作慢了”，腾讯总裁刘炽平随后提到要重构混元团队的组织方式，重建预训练和强化学习基础设施。

前OpenAI研究员姚顺雨2025年底加入腾讯出任首席AI科学家，主导了这场重建。4月23日，重建后的第一个模型Hy3 preview发布并开源，总参数295B，激活参数21B，最大支持256K上下文。5月7日腾讯披露，Hy3 preview上线后的Token调用量已经是上一代Hy2的10倍以上。元宝App的默认通用大模型也换成了Hy3 preview。

语音方向真正的新动作，是离线翻译

底层模型补上之后，腾讯混元这半年在语音相关方向上拿出的实际新东西，是一系列翻译模型。混元开源了手机端离线翻译模型Hy-MT1.5，1.8B参数压缩到1.25bit量化，模型体积只有440MB，支持33种语言1056个翻译方向，无需联网就能在手机本地跑，官方说翻译质量超过了谷歌翻译。

紧接着腾讯又发布了新一代翻译模型Hy-MT2，提供1.8B、7B、30B-A3B三个尺寸，支持33种语言互译加5种民族语言和方言，7B和30B-A3B在多项评测中拿到了开源模型最佳成绩。配套推出的腾讯Hy翻译小程序支持语音输入和离线翻译，iOS和安卓App也在筹备上架。

这条线和混元Voice不是一回事，一个做语音通话，一个做语音输入辅助的翻译，但两者背后都是同一套混元基座，Hy3之后底座变快变准，这些应用层的产品才有了跟上的资本。

VITA-Audio：底层研究一直没停

腾讯优图实验室此前和南京大学、厦门大学联合做过一个叫VITA-Audio的开源项目，专门解决流式语音生成里首个音频token延迟过高的问题，动态注意力机制让语音响应速度提升了5倍。这个项目时间上比Hy3 preview的重建还要早，是腾讯在语音底层一直保持投入的另一个证据。

四. 三家放在一起看，能看出什么

路线不一样，但目标都在往端到端收

阿里走的是”国际榜单验证+独立模型分赛道登顶”，技术指标拿得很硬，但目前没有把ASR、TTS、Chat三个能力合并进一个端到端模型。
字节走的是”产品快速迭代+场景化深耕”，公式朗读、实时通话、AI播客这些功能都是从具体场景反推出来的需求。
腾讯走的是”先把底座补齐，应用层换个赛道再发力”，混元Voice去年就上线了，但今年上半年真正拿出新东西的是离线翻译这条线，不是语音通话本身。

三家共同的方向是端到端语音对话，这几个模型现在打的分数都还没拉开明显差距。

榜单名次会变，但能力差距在缩小是真的

Speech Arena的排名一两周就能洗一遍，今天说”全球第五”，下个月可能换了模型版本又冲到前三或者掉到第八。把某一天的快照当成定论，意义不大。但拉长到半年看，国产语音模型从能稳定出现在国际榜单前列，到拿过分赛道全球第一，这个变化是实在的。

接下来值得看的是腾讯混元的语音通话能力会不会借着Hy3的底座重新发力，以及阿里的端到端对话模型什么时候能追上字节Seeduplex这样的产品化进度。

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验

本博客为技术交流与平台行业信息分享平台，内容仅供交流参考，文章内容不代表本公司立场和观点，亦不构成任何出版或销售行为。