2025年10月31日,实时互联网大会(Convo AI & RTE 2025)迎来了第十一届。不同于往年,这一次的大会不只是展示实时音视频的技术进步,而是一次关于“实时互动 × 对话式 AI”未来方向的系统性讨论。
当我们谈论 “AI 有声”,其实是在回答一个问题:当机器开始说话,我们该如何重新定义沟通?
一. 从连接到对话:RTE 行业进入「有声智能」时代
开场演讲中,声网创始人兼 CEO 赵斌在开场演讲中抛出了一个历史性节点:
“声网年度服务分钟数首次突破 1 万亿分钟。”
这不仅是一组数字。它标志着实时互动技术(RTE)已经从基础通信能力,成长为全球级的 实时计算基础设施(AI Infra)。
与此同时,过去两年里720p 以上视频流量增长超过 10 倍,海外市场中 720p 以上分辨率流量占比已超过 80%;而 WebRTC 在全球范围内的搜索热度也出现爆发式上涨。种种数据表明,实时互动行业正迎来又一轮创新高潮。
然而,赵斌也指出,技术的完善不等于体验的完成。即便在基础设施日趋完善的当下,产业仍面临从“连通”向“对话”的本质跃迁挑战。当交互对象从“人与人”扩展至“人与 AI”时,传统 RTE 侧重于媒介连通、语音/视频传输,而在环境感知、自然交互、情感理解等方面尚存缺口。
根据行业数据显示:
- 约21% 的用户对现有 AI 对话体验满意;
- 人类沟通中仅有 7% 来源于文字,超过90% 取决于语音、语调、表情与肢体语言。
真正的“类人对话”必须攻克低延迟响应、自然打断、情感识别、上下文理解与多模态生成等核心难题。
正是在这一背景下,多模态大语言模型(LLM)的出现被视为突破口。它们使计算机具备近似人类实时语音对话的能力,从而为解决上述挑战提供了全新路径。赵斌指出:对话式 AI 正在驱动 RTE 从“能够对话”迈向“声情并茂”。这一演进,不仅意味着技术升级,更意味着实时互动产业即将迎来一个“不可估量”的全新市场。
二. 语音AI智能体 的新势能:三大场景的规模化机遇
根据 Deepgram 与 Opus Research 的最新调研:
- 67% 的企业已将语音 AI 智能体纳入战略核心,
- 84% 的企业计划在未来一年内增加投入。
与此同时,全球开发者生态正在掀起实时语音技术的新一轮高潮:在 Y Combinator 的最新孵化公司名单中,语音智能体相关初创企业占比显著提升;而 ARK Invest 更预判:AI 陪伴赛道有望从目前的 3000 万美元规模成长至 700 – 1500 亿美元。
声网自身的数据也印证了这一趋势——2025 年第三季度,对话式 AI 相关用量环比增长 151%。这一系列数据无一不凸显:语音智能体已从边缘实验跃升为主流战略。
在众多应用场景中,赵斌认为对话式 AI 将率先在以下三大场景实现规模化落地:
- 情感陪伴:AI 不只是回答,更能感知、陪伴、共情;
- 智能硬件:语音/对话界面成为设备新入口,人机互动更自然;
- 在线教育:让教学互动从“被动听课”转向“实时对话、即时反馈”。
在大会现场,声网展示了针对企业客服场景的实时演示——AI 客服不只是被动响应,而是在实时 RTE 通道中展现出语音理解、情感感知、场景切换等能力,体现了当下对话式 AI 在实时交互与场景理解方面取得的突破。
三. 从中国速度到全球共鸣:论“AI 出海的心智跃迁”
Agora 联合创始人 Tony Wang 的演讲从中国 AI 企业的海外实践视角出发——全球化与信任。强调:出海不再仅是增量选择,而是战略必选。他指出,要在全球化中取得成功,中国 AI 企业必须完成从“算法精度”向“心智广度”的认知跨越。技术优势固然重要,但真正的竞争壁垒在于“信任”,而信任则源自透明的数据治理、商业共赢的生态模式、以及文化共情的本地化能力。
“中国企业拥有技术深度与执行力,但要赢得全球信任,必须实现从控制到信任、从速度到共鸣的心智转变。”
他将成功的全球化总结为三大支点:
- 数据治理的透明性,赢得信任;
- 商业共赢的生态性,构建持续关系;
- 文化共情的本地化,让产品被理解与喜爱。
对于产品全球化路径,他提出:“技术价值的全球化叙事”与“情感价值的本地化表达”必须并行。既要解决人类普适的效率与陪伴需求,也要深耕各地文化特性。作为中国创业者,虽然具备技术深度、执行能力与快速规模化经验,但在全球化时往往被“商业语言”“管理心智”所限制。Tony Wang 提出:“Go Global, Go Local”并非一句口号,而是深层次的战略变革:从控制到信任、从竞争到共赢、从技术导向到文化共情。他强调:只有当产品被世界理解、信任与喜爱,中国 AI 企业才能真正实现全球化突破。
四. 韦青:当技术“融于无形”,才见真正价值
微软(中国)首席技术官韦青带来了哲学式的洞察——“真正伟大的技术,应当‘融于无形’。”
他他以 WebRTC 为例,回顾声网曾在 2014–2015 年决定拥抱这一当时并不被主流看好的标准,这背后是对开发者未来需求的深刻洞察。由此可见,真正的优势不是追逐技术热词,而是回归用户体验与场景价值。
韦青强调,AI 时代的组织竞争力,不仅在技术突破,更在于能否构建出**“人 + Agent” 的智能协作体系**。在这种体系中:
- 组织层面:构建能够有机协同人类与 AI Agent 的形态;
- 个体层面:成为能持续学习、能“指挥 AI 大军”的“超级个体”。
他提出,企业在追逐技术长板时,也应关注数据安全、流程重塑、组织文化这些潜在短板。唯有以人为本、技术为辅,才能实现从“有 AI”→“用 AI”→“是 AI”的跃迁,技术才能真正服务用户,创造长久价值。
五. 圆桌:AI 产品出海实战的破局之道
如果前三场演讲搭建了认知框架,圆桌讨论则提供了实战经验。Tony Wang、天际资本创始人张倩、OceanBase CEO杨冰、珞博智能联合创始人&CTO潘雨楠、WaveSpeedAI联合创始人李样兵,围绕AI出海的核心挑战展开了深度对话。
在“AI 产品出海的破局关键”圆桌论坛中,嘉宾们从不同角度分享了中国 AI 企业的全球化实战经验。
赛道选择:三大机遇与两极生态
张倩从投资人视角指出,Agent、AI硬件与底层基础设施正构成三大核心机遇。她特别强调,智能体AI尚处爆发初期,创业者在细分赛道深耕将大有可为。她判断未来生态将呈现“两极分化”:巨头主导通用场景,而深耕细分的 AI 原生企业依靠专业深度也能构建护城河。
珞博智能联合&CTO创始人潘雨楠补充,AI 硬件企业要深刻理解“大模型能力”与“产品化落地”之间的鸿沟,通过保持“6 个月到 1 年”的技术代差来构建竞争壁垒;同时,中国企业应该发挥在供应链整合与快速迭代方面的传统优势,将技术深度快速转化为产品优势。
市场策略:三种打法,各有侧重
- OceanBase CEO 杨冰:”顺势而为,扬长避短”跟随中资企业全球化的步伐,深耕本地化和行业化。这是风险相对可控、资源效率较高的打法,适合基础设施类企业。
- 珞博智能联合创始人&CTO潘雨楠:”匹配度决定策略”根据目标市场对企业品牌和文化的接受度来制定策略。不是所有市场都适合直接进入,有时需要通过合作伙伴、通过行业切入。
- WaveSpeedAI 联合创始人 李样兵:”声西击东”在北美建立品牌声量,同时将业务重心布局在中东、东南亚等蓝海市场。这需要更强的资源协调能力,但也可能获得更大回报空间。
三种打法关键是与自身资源禀赋和战略目标匹配。
此外,圆桌嘉宾们一致强调:出海团队需要兼具“从 0 到 1 的创业经验”与“跨文化适应能力”,这将成为支撑全球布局的关键基石。
六. 从万亿到下一个万亿
四场议程,四个视角,但指向同一个方向:RTE正在经历从”连接”到”对话”的范式转变。 赵斌的趋势判断告诉我们:对话式AI是RTE的下一个增长引擎 Tony Wang的出海经验提醒我们:全球化需要心智跃迁,不只是技术输出 韦青的哲学思考启发我们:技术的终极追求是融于无形,服务于人 圆桌的实战分享告诉我们:破局需要战略定力、本地信任和稀缺人才。
从“人人连接”到“人机对话”再到“人机共生”,实时互动技术与对话式 AI 的深度融合,正重塑沟通的边界。 RTE 已经不再只是通话、实时直播、互动按钮,而是成为“有情绪、有反应、有意识”的新型交互基础。
下一个万亿分钟会是什么样子?也许不仅仅是数量的增长,更是质量的跃迁——每一分钟的交互都更智能、更自然、更有温度。这才是RTE的下一站。