近日,声网受邀出席由白鲸出海主办的 GTC2025 全球流量大会。以下内容为声网生成式 AI 产品负责人毛玉杰演讲实录,本文在不改变原意的基础上,为方便阅读进行了删改:
AI 驱动行业变革
从全球泛娱乐应用市场的发展来看,互动能力已从”加分项”变为”必选项”。数据显示,搭载声网实时互动SDK的应用在全球主要市场渗透率均超60%,尤其在东南亚和中东地区,音视频互动日均使用时长同比增长。这印证了一个核心趋势:用户不再满足于单向内容消费,而是追求双向甚至多向的实时互动体验。
从区域分布看,泛娱乐出海呈现“西稳东进“态势。中东地区凭借高 ARPU 值和强社交需求,成为付费意愿最高的细分市场;东南亚则凭借年轻人口红利和多元文化特性,形成差异化竞争优势。
随着 OpenAI 发布多模态大模型 GPT-4o,以及向开发者开放了相关功能,使得构建能对话的 AI 成为现实,也为对话式 AI 在泛娱乐领域的应用奠定了技术基础。
五大应用场景:释放对话式 AI 无限潜力
对话式 AI 在泛娱乐领域的应用场景丰富多样,为行业带来了全新的价值和思考。
在情绪价值与虚拟陪伴场景中,AI 不再仅仅是工具,更成为陪伴者,满足人们在情感交流方面的需求。这种陪伴对于缓解孤独感有一定帮助。
有很多的出海企业开始做一些 AI 陪伴玩具,可以在小朋友成长过程当中,一定程度上缓解压力、孤独,因此在儿童市场火爆。
在直播场景里,AI 可以协助主播完成打赏、弹幕互动等任务,还能与主播进行内容共创,提升直播趣味性和互动性,增强主播与粉丝之间的粘性。
AI 在游戏场景中的应用,有效解决了新用户上手难的问题。以 MOBA 类手游为例,引导角色能帮助玩家更快熟悉游戏玩法,提升用户体验,促进转化。
AI 翻译耳机则打破了语言障碍,在跨国交流场景中发挥重要作用。它让不同语言的人能够顺畅沟通,为泛娱乐出海活动的开展提供便利。
声网对话式 AI 引擎打造“聪明又贴心”的 AI 伙伴
声网发布的对话式 AI 引擎具备独特优势,能够实现秒回响应、优雅打断。现实中,人和人当面交流响应时间约200 毫秒,远程沟通约 400 毫秒,而声网基于自身技术将响应时间做到了 650 毫秒。同时,支持模型随时被打断,且打断速度快,避免给用户造成模型 “笨” 的不良体验。
声网对话式 AI 引擎具备选择性注意力锁定功能,能有效应对对话过程中的人声和噪音干扰,在抗丢包抗抖动方面表现出色,提供 80% 的丢包保障,确保交互稳定。
此外,具备丰富的智能特性,音色多样,模型可选,能兼容全球大模型,开发者可根据需求一键接入,充分发挥自身创造力。