在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验
首页 / 博客 / 正文

直击世界人工智能大会:让智能设备“会听、会看、会说话”的黑科技

2025 年 7 月 26–28 日,第八届世界人工智能大会(WAIC)在上海世博中心举行,主题为“智联全球(Global Solidarity in the AI Era)”,吸引约 1200 名嘉宾、800 多家创新企业参展,并展示3000 多项 AI 创新成果。

声网作为对话式AI与实时音视频云服务提供商,在 WAIC 上发布新版对话式 AI 引擎,并于 H3 馆 D512 展位设立体验展区。重点展示其最新推出的 声纹识别、视觉理解、数字人交互三大功能,同时展出基于该引擎的 AI 硬件产品,包括芙崽 Fuzozo、EBO Air 2 Plus、数字人全息仓、AI 眼镜等。

 

 

对话式 AI 在未来交互中的价值

随着对话式 AI 从单一语音问答演进至多模态融合交互,其价值体现在以下层面:

1. 交互自然性与沉浸感显著提升

1.1 多模态融合增强语境理解

传统语音交互系统依赖单一语音通道,难以处理语义模糊、背景复杂的场景。而多模态 AI 系统(融合语音、视觉、文本等)能从更多维度获取信息,从而提高理解准确率。例如视觉语言模型能够同时读取图像与对应文本,实现更全面的语境推理。

1.2 提升认知共鸣与沉浸体验

相较于文本或单语音交互,加入视觉元素的互动能显著增加用户参与、延长交谈时长、提升信任感。多模态交互被认为是增强用户体验的关键因素。视觉与声音协同的 AI 系统更接近人类交互方式,提供更具感知丰富性与自然感的体验。

2. 场景感知能力实质性增强

2.1 主动理解非语言输入

对话式 AI 若仅依赖语音输入,则忽略用户动作、环境、文字内容等信息。而具备视觉理解能力的系统可主动识别手势、物品、书写内容,并融合语音进行精准响应。例如拍照识题、物品识别、手势操作处理等场景。在教育和智能助手场景中尤为重要。

2.2 从被动响应转向主动适配

具备视觉识别能力的 AI 可在用户未明确发起语音指令时,自动感知环境中的变化,并主动提出服务或反馈建议。这种主动交互模式可提升系统的感知深度和应用效率,例如家庭学习辅助、陪护机器人等应用中更贴近实际需求。

3. 从工具型向陪伴型转变:情感交互提升用户信任

3.1 数字人和拟人化代理的效果

数字人(embodied agent)结合自然表情、语音与视觉反馈,被研究证实能增加用户对系统的信任感和参与度。它们能模拟面对面交流的社会行为,增强沟通自然度。在客户支持或教育陪伴中,用户更易建立情感连接。

3.2 情感识别驱动更具共情的互动体验

未来提升 AI 情感交互能力的重要方向包括识别语气、面部表情、情绪倾向,并在回复中体现适当语调与姿态。这将使 AI 不仅回答问题,还“倾听情感”,为儿童教育、老人陪伴、客服支持等举足轻重的场景创造更具温度的交互方式。

4. 行业应用场景拓展:教育、陪护、客服、IoT 全面适配

4.1 教育产品:AI 既能“看题”亦能“说解”

教育AI 借助视觉理解模块,可识别上传图片中的题目内容,同时语音讲解答案与步骤,模拟 AI 家教场景。这种方式提升学习效率,增强互动质量,尤其适用于家庭学习助手与教育硬件平台。

4.2 智能陪伴设备:自然交互成为核心卖点

儿童陪护机器人、毛绒玩具等嵌入视觉与语音识别能力后,能够识别用户动作、场景变化,并做出适当回应。这拓展了设备功能边界,让 AI 更像一个能理解环境变化并主动陪伴的“存在”。

4.3 客户服务与导览系统升级体验

在虚拟客服或现场导览中,若系统可以识别客户的手势、表情或所指对象,并结合语音输入生成响应,将极大提升服务交互效率和用户满意度。例如数字人导览员或售后场景中融合视觉识别技术,可以减少误解与提高处理速度。

4.4 IoT 设备:智能眼镜与家居助手的多模态升级

IoT 设备诸如智能眼镜、智能家居终端,通过集成视觉与语音交互能力,能够识别环境提示、图像内容或用户指令,并提供及时反馈或建议。这种多模态方式增强系统可靠性、容错性,且用户门槛更低。

随着对话式 AI 从语音互动转型为语音+视觉的多模态交互,交互自然性、场景感知能力、情感连接强度,以及场景适配广度都实现显著提升。这也是未来 AI 在消费级产品与服务中成为真正“懂你、理解场景、能共同参与”的智能伙伴之关键所在。

 

声网展台展示亮点:让硬件“会听、会看、会说话”

2025 年 WAIC 声网展台展示多款搭载对话式 AI 引擎的硬件,包括 Fuzozo 毛绒陪伴宠物、EBO Air 2 Plus 智能陪伴机器人、数字人全息仓 和 AI 眼镜 等,直观展现声网对话式AI引擎技术能力落地效果。

  • Fuzozo(AI 毛绒宠物):整合 Robopoet 自研 MEM 多模态情感模型与声网对话式 AI 引擎,可准确识别主讲者声纹、屏蔽干扰、实现低延迟交互。用户与其对话体验自然流畅,展台现场反应热烈,被称为“爆款潮玩”。
  • EBO Air 2 Plus(Enabot):配备 3K 摄像头、双向视频通话与 AI 追踪功能,硬件可结合视觉与声音识别,实现动作指令理解、远程互动、表情反馈等场景交互。声网引擎的低延迟和高鲁棒性确保现场体验稳定顺畅。
  • 数字人全息仓 & AI 眼镜:前者通过拟真数字人形象结合手势+语音交互,提升情感体验;后者支持拍照识图、翻译、环境分析等多模态反馈,均由声网引擎快速响应支持。

这些演示清晰体现出声纹识别、视觉理解与数字人交互三大能力协同作用,支撑硬件设备实现“所见即所言、所触即反馈”的沉浸式交互体验。

声网对话式AI硬件产品

 

 

声网对话式 AI 引擎:核心技术构成

声网对话式AI引擎构建在其全球 软件定义实时网络(SD‑RTN™) 之上,结合 TEN 开源框架,实现真正可扩展、低延迟且具备高抗丢包能力的对话式 AI 平台。关键能力包括:

  • 超低延迟响应:AI 端到端响应时延低至 650 毫秒,使对话符合人类自然交流节奏。
  • 智能插话处理:当用户插入话语时,AI 能立即停止当前输出,支持高频互动场景。
  • 背景噪声抑制 & AI-AEC:内置增强型回声消除与噪声抑制算法,在环境噪音复杂场景下依然保持清晰语音质量。
  • 网络鲁棒性:在高达 80% 丢包率 或短暂断连(3–5 秒)情况时仍可保持对话流畅、不丢语意。
  • 开放架构集成:支持任意 LLM(如 OpenAI GPT、Google Gemini)与多个 TTS 服务,通过 RESTful API 或 SDK 无缝接入。

开发者可通过 Agora 的 App Builder 或 PlayKit、Device Kit 等工具,快速将上述能力嵌入智能硬件终端,从开发到部署实现高度模块化与场景适配。

 

 

声网对话式 AI 引擎:核心功能深度解读与优势分析

1. 声纹识别:提升“听”的精准度与语境适应性

功能机制

声网新增的 选择性注意力锁定技术,在对话初期对用户声明声纹进行采集,之后识别主声源并聚焦处理,而忽略其他声音或噪声干扰。这项机制在嘈杂环境或多人互动场景中尤为关键。

技术优势与落地价值

  • 主导说话者聚焦:确保 AI 响应仅来自主互动者,减少误触触发错误响应。
  • 背景抗干扰能力强:自动屏蔽约 95% 的背景人声与噪声,大幅提升场景稳定性。
  • 延迟优化使交互自然:结合 650ms 端到端延迟与智能中断处理,使交谈流程贴近人类自然节奏。
  • 实用场景丰富:如教育硬件中多个孩子围绕 AI 设备进行互动时,只针对当前主导者正确响应;在家庭陪伴机器人里,准确区别多个家庭成员输入确保语音交互的精确性。

2. 视觉理解:AI 的“眼睛”让交互更丰富

功能结构

视觉理解模块兼顾实时视频输入与上传图片处理两个方向:

  • 摄像头捕捉手势/指向动作,结合语音分析判断用户意图;
  • 拍照识题/识物功能,AI 自动解析图像内容并以语音或文本形式反馈答案或说明。

优势与应用场景

  • 交互自然流畅:“所见即所言”打破纯语音的交互界限,使用户反馈源于动作或视觉内容,更直观。
  • 教育场景高度契合:拍照识题、作业批改、语音讲解结合数字人,可模拟更真实的智能辅导体验。
  • 智能助理拓展能力:识别物品、环境,进行翻译、分析或信息合成输出,适配智能眼镜、家庭助手场景。
  • 降门槛、扩适配:无需额外接口即可实现传感与语义识别融合,为硬件厂商提供更友好开发选项。

3. 数字人交互:赋情感与人性化交流能力

技术整合方式

声网引擎支持集成商汤等主流数字人技术,通过渲染高度拟真的面部表情与动作,实现屏幕上与用户的生动互动。

优势分析

  • 增强情感连接感:数字人的面部动作、表情与语音结合,让用户更有“对话对象”的感受。
  • 提升用户信任度与参与率:相较传统语音助手,数字人体形象更具可亲性,尤其适合儿童教育、家庭陪伴与客服场景。
  • 多角色选择灵活适配:可根据品牌或使用者偏好定制不同形象,提高用户接受度与场景代入感。

4. 综合优势对比与场景适配

模块功能 核心机制 优势表现 适用场景举例
声纹识别 选择注意力聚焦主声源 高识别准确、强抗噪、反应迅速 教育硬件、多人与机器人互动
视觉理解 视频手势识别 + 拍照图像解析 动作/图像理解自然,交互形式更多元 家教软硬件、智能眼镜、AI 助理
数字人交互 拟真面部与动作表达 情感联结感强,增强信任与沉浸感 教育陪伴、虚拟客服、互动娱乐
Agora 架构 SD‑RTN 网络 + TEN 框架 超低延迟、智能插话、抗丢包、跨平台适配 云端与硬件终端通用的实时 AI 服务平台

 

 

小结

通过 WAIC 展示与行业新闻案例分析,声网对话式 AI 引擎已分别在“听”“看”“情”的维度完成升级:声纹识别增强语音专注度;视觉理解赋予设备观察力;数字人交互提升情感表达。实际在 Fuzozo、EBO Air 2 Plus 等硬件中落地,展现出较高的表现力与实用性。展望未来,随着情感理解、主动反馈、角色人格定制等进一步推进,声网这套对话式AI引擎技术,将推动 AI 从被动工具走向主动陪伴者,提高对话自然性、情境理解能力与用户信任度。