在线咨询

专属客服在线解答，提供专业解决方案

声网 AI 助手

您的专属 AI 伙伴，开启全新搜索体验

首页博客正文

直击世界人工智能大会：让智能设备“会听、会看、会说话”的黑科技

2025-07-28

暮木君

对话式 AI 行业趋势

2025 年 7 月 26–28 日，第八届世界人工智能大会（WAIC）在上海世博中心举行，主题为“智联全球（Global Solidarity in the AI Era）”，吸引约 1200 名嘉宾、800 多家创新企业参展，并展示3000 多项 AI 创新成果。

声网作为对话式AI与实时音视频云服务提供商，在 WAIC 上发布新版对话式 AI 引擎，并于 H3 馆 D512 展位设立体验展区。重点展示其最新推出的声纹识别、视觉理解、数字人交互三大功能，同时展出基于该引擎的 AI 硬件产品，包括芙崽 Fuzozo、EBO Air 2 Plus、数字人全息仓、AI 眼镜等。

对话式 AI 在未来交互中的价值

随着对话式 AI 从单一语音问答演进至多模态融合交互，其价值体现在以下层面：

1. 交互自然性与沉浸感显著提升

1.1 多模态融合增强语境理解

传统语音交互系统依赖单一语音通道，难以处理语义模糊、背景复杂的场景。而多模态 AI 系统（融合语音、视觉、文本等）能从更多维度获取信息，从而提高理解准确率。例如视觉语言模型能够同时读取图像与对应文本，实现更全面的语境推理。

1.2 提升认知共鸣与沉浸体验

相较于文本或单语音交互，加入视觉元素的互动能显著增加用户参与、延长交谈时长、提升信任感。多模态交互被认为是增强用户体验的关键因素。视觉与声音协同的 AI 系统更接近人类交互方式，提供更具感知丰富性与自然感的体验。

2. 场景感知能力实质性增强

2.1 主动理解非语言输入

对话式 AI 若仅依赖语音输入，则忽略用户动作、环境、文字内容等信息。而具备视觉理解能力的系统可主动识别手势、物品、书写内容，并融合语音进行精准响应。例如拍照识题、物品识别、手势操作处理等场景。在教育和智能助手场景中尤为重要。

2.2 从被动响应转向主动适配

具备视觉识别能力的 AI 可在用户未明确发起语音指令时，自动感知环境中的变化，并主动提出服务或反馈建议。这种主动交互模式可提升系统的感知深度和应用效率，例如家庭学习辅助、陪护机器人等应用中更贴近实际需求。

3. 从工具型向陪伴型转变：情感交互提升用户信任

3.1 数字人和拟人化代理的效果

数字人（embodied agent）结合自然表情、语音与视觉反馈，被研究证实能增加用户对系统的信任感和参与度。它们能模拟面对面交流的社会行为，增强沟通自然度。在客户支持或教育陪伴中，用户更易建立情感连接。

3.2 情感识别驱动更具共情的互动体验

未来提升 AI 情感交互能力的重要方向包括识别语气、面部表情、情绪倾向，并在回复中体现适当语调与姿态。这将使 AI 不仅回答问题，还“倾听情感”，为儿童教育、老人陪伴、客服支持等举足轻重的场景创造更具温度的交互方式。

4. 行业应用场景拓展：教育、陪护、客服、IoT 全面适配

4.1 教育产品：AI 既能“看题”亦能“说解”

教育AI 借助视觉理解模块，可识别上传图片中的题目内容，同时语音讲解答案与步骤，模拟 AI 家教场景。这种方式提升学习效率，增强互动质量，尤其适用于家庭学习助手与教育硬件平台。

4.2 智能陪伴设备：自然交互成为核心卖点

儿童陪护机器人、毛绒玩具等嵌入视觉与语音识别能力后，能够识别用户动作、场景变化，并做出适当回应。这拓展了设备功能边界，让 AI 更像一个能理解环境变化并主动陪伴的“存在”。

4.3 客户服务与导览系统升级体验

在虚拟客服或现场导览中，若系统可以识别客户的手势、表情或所指对象，并结合语音输入生成响应，将极大提升服务交互效率和用户满意度。例如数字人导览员或售后场景中融合视觉识别技术，可以减少误解与提高处理速度。

4.4 IoT 设备：智能眼镜与家居助手的多模态升级

IoT 设备诸如智能眼镜、智能家居终端，通过集成视觉与语音交互能力，能够识别环境提示、图像内容或用户指令，并提供及时反馈或建议。这种多模态方式增强系统可靠性、容错性，且用户门槛更低。

随着对话式 AI 从语音互动转型为语音＋视觉的多模态交互，交互自然性、场景感知能力、情感连接强度，以及场景适配广度都实现显著提升。这也是未来 AI 在消费级产品与服务中成为真正“懂你、理解场景、能共同参与”的智能伙伴之关键所在。

声网展台展示亮点：让硬件“会听、会看、会说话”

2025 年 WAIC 声网展台展示多款搭载对话式 AI 引擎的硬件，包括 Fuzozo 毛绒陪伴宠物、EBO Air 2 Plus 智能陪伴机器人、数字人全息仓和 AI 眼镜等，直观展现声网对话式AI引擎技术能力落地效果。

Fuzozo（AI 毛绒宠物）：整合 Robopoet 自研 MEM 多模态情感模型与声网对话式 AI 引擎，可准确识别主讲者声纹、屏蔽干扰、实现低延迟交互。用户与其对话体验自然流畅，展台现场反应热烈，被称为“爆款潮玩”。
EBO Air 2 Plus（Enabot）：配备 3K 摄像头、双向视频通话与 AI 追踪功能，硬件可结合视觉与声音识别，实现动作指令理解、远程互动、表情反馈等场景交互。声网引擎的低延迟和高鲁棒性确保现场体验稳定顺畅。
数字人全息仓 & AI 眼镜：前者通过拟真数字人形象结合手势＋语音交互，提升情感体验；后者支持拍照识图、翻译、环境分析等多模态反馈，均由声网引擎快速响应支持。

这些演示清晰体现出声纹识别、视觉理解与数字人交互三大能力协同作用，支撑硬件设备实现“所见即所言、所触即反馈”的沉浸式交互体验。

声网对话式AI硬件产品

声网对话式 AI 引擎：核心技术构成

声网对话式AI引擎构建在其全球软件定义实时网络（SD‑RTN™）之上，结合 TEN 开源框架，实现真正可扩展、低延迟且具备高抗丢包能力的对话式 AI 平台。关键能力包括：

超低延迟响应：AI 端到端响应时延低至 650 毫秒，使对话符合人类自然交流节奏。
智能插话处理：当用户插入话语时，AI 能立即停止当前输出，支持高频互动场景。
背景噪声抑制 & AI-AEC：内置增强型回声消除与噪声抑制算法，在环境噪音复杂场景下依然保持清晰语音质量。
网络鲁棒性：在高达 80% 丢包率或短暂断连（3–5 秒）情况时仍可保持对话流畅、不丢语意。
开放架构集成：支持任意 LLM（如 OpenAI GPT、Google Gemini）与多个 TTS 服务，通过 RESTful API 或 SDK 无缝接入。

开发者可通过 Agora 的 App Builder 或 PlayKit、Device Kit 等工具，快速将上述能力嵌入智能硬件终端，从开发到部署实现高度模块化与场景适配。

声网对话式 AI 引擎：核心功能深度解读与优势分析

1. 声纹识别：提升“听”的精准度与语境适应性

功能机制

声网新增的选择性注意力锁定技术，在对话初期对用户声明声纹进行采集，之后识别主声源并聚焦处理，而忽略其他声音或噪声干扰。这项机制在嘈杂环境或多人互动场景中尤为关键。

技术优势与落地价值

主导说话者聚焦：确保 AI 响应仅来自主互动者，减少误触触发错误响应。
背景抗干扰能力强：自动屏蔽约 95% 的背景人声与噪声，大幅提升场景稳定性。
延迟优化使交互自然：结合 650ms 端到端延迟与智能中断处理，使交谈流程贴近人类自然节奏。
实用场景丰富：如教育硬件中多个孩子围绕 AI 设备进行互动时，只针对当前主导者正确响应；在家庭陪伴机器人里，准确区别多个家庭成员输入确保语音交互的精确性。

2. 视觉理解：AI 的“眼睛”让交互更丰富

功能结构

视觉理解模块兼顾实时视频输入与上传图片处理两个方向：

摄像头捕捉手势／指向动作，结合语音分析判断用户意图；
拍照识题／识物功能，AI 自动解析图像内容并以语音或文本形式反馈答案或说明。

优势与应用场景

交互自然流畅：“所见即所言”打破纯语音的交互界限，使用户反馈源于动作或视觉内容，更直观。
教育场景高度契合：拍照识题、作业批改、语音讲解结合数字人，可模拟更真实的智能辅导体验。
智能助理拓展能力：识别物品、环境，进行翻译、分析或信息合成输出，适配智能眼镜、家庭助手场景。
降门槛、扩适配：无需额外接口即可实现传感与语义识别融合，为硬件厂商提供更友好开发选项。

3. 数字人交互：赋情感与人性化交流能力

技术整合方式

声网引擎支持集成商汤等主流数字人技术，通过渲染高度拟真的面部表情与动作，实现屏幕上与用户的生动互动。

优势分析

增强情感连接感：数字人的面部动作、表情与语音结合，让用户更有“对话对象”的感受。
提升用户信任度与参与率：相较传统语音助手，数字人体形象更具可亲性，尤其适合儿童教育、家庭陪伴与客服场景。
多角色选择灵活适配：可根据品牌或使用者偏好定制不同形象，提高用户接受度与场景代入感。

4. 综合优势对比与场景适配

模块功能	核心机制	优势表现	适用场景举例
声纹识别	选择注意力聚焦主声源	高识别准确、强抗噪、反应迅速	教育硬件、多人与机器人互动
视觉理解	视频手势识别 + 拍照图像解析	动作/图像理解自然，交互形式更多元	家教软硬件、智能眼镜、AI 助理
数字人交互	拟真面部与动作表达	情感联结感强，增强信任与沉浸感	教育陪伴、虚拟客服、互动娱乐
Agora 架构	SD‑RTN 网络 + TEN 框架	超低延迟、智能插话、抗丢包、跨平台适配	云端与硬件终端通用的实时 AI 服务平台

小结

通过 WAIC 展示与行业新闻案例分析，声网对话式 AI 引擎已分别在“听”“看”“情”的维度完成升级：声纹识别增强语音专注度；视觉理解赋予设备观察力；数字人交互提升情感表达。实际在 Fuzozo、EBO Air 2 Plus 等硬件中落地，展现出较高的表现力与实用性。展望未来，随着情感理解、主动反馈、角色人格定制等进一步推进，声网这套对话式AI引擎技术，将推动 AI 从被动工具走向主动陪伴者，提高对话自然性、情境理解能力与用户信任度。

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验

本博客为技术交流与平台行业信息分享平台，内容仅供交流参考，文章内容不代表本公司立场和观点，亦不构成任何出版或销售行为。