2025 年 7 月 26–28 日,第八届世界人工智能大会(WAIC)在上海世博中心举行,主题为“智联全球(Global Solidarity in the AI Era)”,吸引约 1200 名嘉宾、800 多家创新企业参展,并展示3000 多项 AI 创新成果。
声网作为对话式AI与实时音视频云服务提供商,在 WAIC 上发布新版对话式 AI 引擎,并于 H3 馆 D512 展位设立体验展区。重点展示其最新推出的 声纹识别、视觉理解、数字人交互三大功能,同时展出基于该引擎的 AI 硬件产品,包括芙崽 Fuzozo、EBO Air 2 Plus、数字人全息仓、AI 眼镜等。
对话式 AI 在未来交互中的价值
随着对话式 AI 从单一语音问答演进至多模态融合交互,其价值体现在以下层面:
1. 交互自然性与沉浸感显著提升
1.1 多模态融合增强语境理解
传统语音交互系统依赖单一语音通道,难以处理语义模糊、背景复杂的场景。而多模态 AI 系统(融合语音、视觉、文本等)能从更多维度获取信息,从而提高理解准确率。例如视觉语言模型能够同时读取图像与对应文本,实现更全面的语境推理。
1.2 提升认知共鸣与沉浸体验
相较于文本或单语音交互,加入视觉元素的互动能显著增加用户参与、延长交谈时长、提升信任感。多模态交互被认为是增强用户体验的关键因素。视觉与声音协同的 AI 系统更接近人类交互方式,提供更具感知丰富性与自然感的体验。
2. 场景感知能力实质性增强
2.1 主动理解非语言输入
对话式 AI 若仅依赖语音输入,则忽略用户动作、环境、文字内容等信息。而具备视觉理解能力的系统可主动识别手势、物品、书写内容,并融合语音进行精准响应。例如拍照识题、物品识别、手势操作处理等场景。在教育和智能助手场景中尤为重要。
2.2 从被动响应转向主动适配
具备视觉识别能力的 AI 可在用户未明确发起语音指令时,自动感知环境中的变化,并主动提出服务或反馈建议。这种主动交互模式可提升系统的感知深度和应用效率,例如家庭学习辅助、陪护机器人等应用中更贴近实际需求。
3. 从工具型向陪伴型转变:情感交互提升用户信任
3.1 数字人和拟人化代理的效果
数字人(embodied agent)结合自然表情、语音与视觉反馈,被研究证实能增加用户对系统的信任感和参与度。它们能模拟面对面交流的社会行为,增强沟通自然度。在客户支持或教育陪伴中,用户更易建立情感连接。
3.2 情感识别驱动更具共情的互动体验
未来提升 AI 情感交互能力的重要方向包括识别语气、面部表情、情绪倾向,并在回复中体现适当语调与姿态。这将使 AI 不仅回答问题,还“倾听情感”,为儿童教育、老人陪伴、客服支持等举足轻重的场景创造更具温度的交互方式。
4. 行业应用场景拓展:教育、陪护、客服、IoT 全面适配
4.1 教育产品:AI 既能“看题”亦能“说解”
教育AI 借助视觉理解模块,可识别上传图片中的题目内容,同时语音讲解答案与步骤,模拟 AI 家教场景。这种方式提升学习效率,增强互动质量,尤其适用于家庭学习助手与教育硬件平台。
4.2 智能陪伴设备:自然交互成为核心卖点
儿童陪护机器人、毛绒玩具等嵌入视觉与语音识别能力后,能够识别用户动作、场景变化,并做出适当回应。这拓展了设备功能边界,让 AI 更像一个能理解环境变化并主动陪伴的“存在”。
4.3 客户服务与导览系统升级体验
在虚拟客服或现场导览中,若系统可以识别客户的手势、表情或所指对象,并结合语音输入生成响应,将极大提升服务交互效率和用户满意度。例如数字人导览员或售后场景中融合视觉识别技术,可以减少误解与提高处理速度。
4.4 IoT 设备:智能眼镜与家居助手的多模态升级
IoT 设备诸如智能眼镜、智能家居终端,通过集成视觉与语音交互能力,能够识别环境提示、图像内容或用户指令,并提供及时反馈或建议。这种多模态方式增强系统可靠性、容错性,且用户门槛更低。
随着对话式 AI 从语音互动转型为语音+视觉的多模态交互,交互自然性、场景感知能力、情感连接强度,以及场景适配广度都实现显著提升。这也是未来 AI 在消费级产品与服务中成为真正“懂你、理解场景、能共同参与”的智能伙伴之关键所在。
声网展台展示亮点:让硬件“会听、会看、会说话”
2025 年 WAIC 声网展台展示多款搭载对话式 AI 引擎的硬件,包括 Fuzozo 毛绒陪伴宠物、EBO Air 2 Plus 智能陪伴机器人、数字人全息仓 和 AI 眼镜 等,直观展现声网对话式AI引擎技术能力落地效果。
- Fuzozo(AI 毛绒宠物):整合 Robopoet 自研 MEM 多模态情感模型与声网对话式 AI 引擎,可准确识别主讲者声纹、屏蔽干扰、实现低延迟交互。用户与其对话体验自然流畅,展台现场反应热烈,被称为“爆款潮玩”。
- EBO Air 2 Plus(Enabot):配备 3K 摄像头、双向视频通话与 AI 追踪功能,硬件可结合视觉与声音识别,实现动作指令理解、远程互动、表情反馈等场景交互。声网引擎的低延迟和高鲁棒性确保现场体验稳定顺畅。
- 数字人全息仓 & AI 眼镜:前者通过拟真数字人形象结合手势+语音交互,提升情感体验;后者支持拍照识图、翻译、环境分析等多模态反馈,均由声网引擎快速响应支持。
这些演示清晰体现出声纹识别、视觉理解与数字人交互三大能力协同作用,支撑硬件设备实现“所见即所言、所触即反馈”的沉浸式交互体验。
声网对话式 AI 引擎:核心技术构成
声网对话式AI引擎构建在其全球 软件定义实时网络(SD‑RTN™) 之上,结合 TEN 开源框架,实现真正可扩展、低延迟且具备高抗丢包能力的对话式 AI 平台。关键能力包括:
- 超低延迟响应:AI 端到端响应时延低至 650 毫秒,使对话符合人类自然交流节奏。
- 智能插话处理:当用户插入话语时,AI 能立即停止当前输出,支持高频互动场景。
- 背景噪声抑制 & AI-AEC:内置增强型回声消除与噪声抑制算法,在环境噪音复杂场景下依然保持清晰语音质量。
- 网络鲁棒性:在高达 80% 丢包率 或短暂断连(3–5 秒)情况时仍可保持对话流畅、不丢语意。
- 开放架构集成:支持任意 LLM(如 OpenAI GPT、Google Gemini)与多个 TTS 服务,通过 RESTful API 或 SDK 无缝接入。
开发者可通过 Agora 的 App Builder 或 PlayKit、Device Kit 等工具,快速将上述能力嵌入智能硬件终端,从开发到部署实现高度模块化与场景适配。
声网对话式 AI 引擎:核心功能深度解读与优势分析
1. 声纹识别:提升“听”的精准度与语境适应性
功能机制
声网新增的 选择性注意力锁定技术,在对话初期对用户声明声纹进行采集,之后识别主声源并聚焦处理,而忽略其他声音或噪声干扰。这项机制在嘈杂环境或多人互动场景中尤为关键。
技术优势与落地价值
- 主导说话者聚焦:确保 AI 响应仅来自主互动者,减少误触触发错误响应。
- 背景抗干扰能力强:自动屏蔽约 95% 的背景人声与噪声,大幅提升场景稳定性。
- 延迟优化使交互自然:结合 650ms 端到端延迟与智能中断处理,使交谈流程贴近人类自然节奏。
- 实用场景丰富:如教育硬件中多个孩子围绕 AI 设备进行互动时,只针对当前主导者正确响应;在家庭陪伴机器人里,准确区别多个家庭成员输入确保语音交互的精确性。
2. 视觉理解:AI 的“眼睛”让交互更丰富
功能结构
视觉理解模块兼顾实时视频输入与上传图片处理两个方向:
- 摄像头捕捉手势/指向动作,结合语音分析判断用户意图;
- 拍照识题/识物功能,AI 自动解析图像内容并以语音或文本形式反馈答案或说明。
优势与应用场景
- 交互自然流畅:“所见即所言”打破纯语音的交互界限,使用户反馈源于动作或视觉内容,更直观。
- 教育场景高度契合:拍照识题、作业批改、语音讲解结合数字人,可模拟更真实的智能辅导体验。
- 智能助理拓展能力:识别物品、环境,进行翻译、分析或信息合成输出,适配智能眼镜、家庭助手场景。
- 降门槛、扩适配:无需额外接口即可实现传感与语义识别融合,为硬件厂商提供更友好开发选项。
3. 数字人交互:赋情感与人性化交流能力
技术整合方式
声网引擎支持集成商汤等主流数字人技术,通过渲染高度拟真的面部表情与动作,实现屏幕上与用户的生动互动。
优势分析
- 增强情感连接感:数字人的面部动作、表情与语音结合,让用户更有“对话对象”的感受。
- 提升用户信任度与参与率:相较传统语音助手,数字人体形象更具可亲性,尤其适合儿童教育、家庭陪伴与客服场景。
- 多角色选择灵活适配:可根据品牌或使用者偏好定制不同形象,提高用户接受度与场景代入感。
4. 综合优势对比与场景适配
模块功能 | 核心机制 | 优势表现 | 适用场景举例 |
---|---|---|---|
声纹识别 | 选择注意力聚焦主声源 | 高识别准确、强抗噪、反应迅速 | 教育硬件、多人与机器人互动 |
视觉理解 | 视频手势识别 + 拍照图像解析 | 动作/图像理解自然,交互形式更多元 | 家教软硬件、智能眼镜、AI 助理 |
数字人交互 | 拟真面部与动作表达 | 情感联结感强,增强信任与沉浸感 | 教育陪伴、虚拟客服、互动娱乐 |
Agora 架构 | SD‑RTN 网络 + TEN 框架 | 超低延迟、智能插话、抗丢包、跨平台适配 | 云端与硬件终端通用的实时 AI 服务平台 |
小结
通过 WAIC 展示与行业新闻案例分析,声网对话式 AI 引擎已分别在“听”“看”“情”的维度完成升级:声纹识别增强语音专注度;视觉理解赋予设备观察力;数字人交互提升情感表达。实际在 Fuzozo、EBO Air 2 Plus 等硬件中落地,展现出较高的表现力与实用性。展望未来,随着情感理解、主动反馈、角色人格定制等进一步推进,声网这套对话式AI引擎技术,将推动 AI 从被动工具走向主动陪伴者,提高对话自然性、情境理解能力与用户信任度。