关于实时AGI、大模型落地、沉浸式空间计算的深度思考

在线咨询

专属客服在线解答，提供专业解决方案

工单支持

专业技术支持团队，随时响应服务需求

7月6日，声网联合 CSDN 举办的“当 RTC 遇上 AI ，大模型创新应用星城论道”主题沙龙在湖南长沙圆满收官。在本场沙龙活动中，声网首席科学家、CTO 钟声、声网解决方案架构师管浩森、芒果融创科技有限公司（广电总局 5G 实验室）产品技术中心总经理吴红、亚马逊生成式 AI 专家团队经理郭韧为现场的开发者们分享了 RTC 与 AI 在当下的发展趋势，并展望了 RTC+AI 对技术与业务的创新价值。

以下为本次活动，嘉宾演讲内容的精选：

《实时通用人工智能必由之路》

声网首席科学家、CTO —— 钟声

首先，声网首席科学家、CTO 钟声以“实时通用人工智能必由之路”为主题结合具体案例展开了分享。

1. 企业加入智能化生态的重要性

钟声首先回顾了在 RTE2021 与 RTE2023 大会上分享的故事与趋势分析。故事：2021年微软收购了 AT&T ，将其网络云端平台技术与微软云 Azure 整合，AT&T 只做用户接入和传输，业务如果涉及到计算需要用 Azure 提供计算服务。微软在同一时期收购了 5G 边缘计算公司，直接提供智能的 5G 服务，最重要的是仍然沿着云原生技术提供业务服务，微软得到了最有价值的部分，即计算服务，AT&T 则开始被边缘化，逐渐成为纯的“管道”。

AT&T 公司此后收购了很多广告公司，购买了内容并投钱建 5G 基础设施，但收效甚微，如果 AT&T 技术不变革，可能会变成 “dumb pipe”，一个没有智能的，纯粹的“哑巴”管道。怎么样避免成为“dumb pipe”，其中一点应该做集成的智能，实时的智能：1、大数据无处不在，用小数据即可检索，对应了2022年 LLM 大型语言模型的崛起。2、利用 AI 算法来泛化智能，把它沉淀下来，用小数据驱动，当时有提到两个关键词，笑“逐”颜开：从关键点生成视频，音“融”笑貌：从语音生成视频，对应了2024年2月视频生成大模型 Sora 发布。

钟声还分享了他在 RTE2021 还预言了伴随 AI 的发展，计算需求会急速增长，算力会很缺，并受能源供给的限制，同时存储需求也会增长过快，这些后来也都一一应验，英伟达今年也因为大模型对 GPU 显卡需求的暴增，市值飙升。

对于 AT&T 而言，最重要的是成为智能化生态的一部分，把自己的接入和传输服务与智能连接起来。做标准化的 API ，能灵活帮助客户搭建业务，既有传输的业务，还有智能计算的业务，即智能化生态的一部分，这才是未来，越来越多的东西往智能转变。

2. AI 时代实时互动何去何从？

信息传播、消费与实时分布式智能，内容从哪里产生出来？钟声探讨了涵盖内容产生、表达、分发、传输和消费的发展，从文字到数字媒体，从 UGC 到 AIGC 不断演进。在 AI 时代，可通过技术实现网红分身、人人分身，改善互动和体验。

钟声表示，在去年 RTE 大会上，他就曾提到端边云结合的实时智能会成为趋势与焦点， AGI 也将走进实时互动。按照以往的理解，实时 AI 分身需要写实对话、写实声音、写实形象。而技术进步远比我们想得更快，到了2024年，多模态大模型快速突破，不再需要分很多步，能够直接语音对话，中间不再需要翻成文本，文本再转成语音。将写实形象单独列出来，算力无法把视频一起包进来，要实时的话很困难。即便是离线去生成内容要花巨大的算力，可能要计算好多天。目前仍然是把这两步拆开，由语音换到实时的形象中，“比如我的复刻，为我建模的三维或者二维的形象，从计算角度更合理。成本太高应用很难，范围就受限制，一个低成本的，同样效果的，生成能力更强，所有的颠覆性创新都是这么来的。”

3.端云结合是实时 AGI 必由之路

端云结合后在能耗、延时上有优势。如下图，左边是由服务器上生成的，有意生成了低分辨率。右图是在服务器生成之后传到端上来，接收后利用端上的边缘算法提升画质和帧率，端上接收到的质量很好，这比起要在云端直接生成左图，省一个数量级以上的计算量。

AI 未来会是怎样的状况？

未来少数公司，例如 Apple ，MSFT，Google ，将会控制端设备和入口，标配端上 LLM ，且提供接口服务允许用户个性化定制“属于自己的模型”；少数能提供云端优异超大模型的公司，将弥补端上模型能力不足之处，做到端云结合；此外，少数提供算力、网络、存储芯片的公司，例如英伟达，以及少数具备网络效应的超级 APP 公司将成为 AI 生态链上的“上帝”。

大批很难过但还得苦苦挣扎着想翻身的公司和开发者，最终用户会被 AGI 牢牢拴住。

《实时互动社交全球化趋势场景玩法分析与技术落地》

声网解决方案架构师 —— 管浩森

接下来，声网解决方案架构师管浩森从海外实时互动市场概况、行业玩法与场景落地、垂类与创新产品方案三方面进行了主题分享。

1.海外实时互动市场概况

作为全球实时互动云服务的开创者和引领者，声网凭借丰富的行业经验以及对前沿数据的洞察，深入解读了海外实时互动市场的最新动态。据声网数据显示，在音视频用量上，东南亚在音频和视频占比和增速都很快。首先，从声网内部用量上看，在2024年1-4月音视频总用量地区分布中，最主要的地区是中东和东南亚，然后是欧洲、北美和印度；其次，东南亚的视频和音频用量都增长明显，中东则相对集中在语音。

另外，机型适配也是企业出海不得不重视的一个问题，据数据显示，在全球各区域机型重合率中，中国大陆的机型市场比较特殊，平均重合率为15%，只有其他地区的⼀半不到；欧洲的平均机型重合率最高，达49% ；欧洲和中东机型重合率⾼达 70%，Top2000 中相同机型有1395个；中国大陆和南美机型重合率最低，只有12%，Top2000 中只有230个相同机型。在出海国家选择方面，中东所有国家中，泛娱乐应用收入主要集中在沙特（40%）、土耳其（16%）、阿联酋（11%）；东南亚收⼊主要来⾃泰国，泰国的用户付费能力较强；其次是印尼和马来西亚。

2.行业玩法与场景落地

语聊房：语聊房全球只在中东是赚钱的，中东语聊竞争非常激烈且在持续增长。中东有非常多优秀的中国出海开发者，从细分场景来看，较受欢迎的有游戏语音/陪玩、太空杀/狼人杀、互动播客、 K 歌房/实时合唱等。

视频直播：东南亚、南美是视频增速最快的量大市场，出海用户视频社交习惯形成，跟 TikTok 在全球的流行密切相关；视频社交是更直接的社交方式，玩法扩展性更多，但社交门槛更高。

1v1 私密房：该赛道 Tinder 和 Bumble 的头部效应明显，国内厂商 Litmatch、SoulChill 在海外影响力越来越大。同时对于东南亚主播针对北美市场以及跨国婚恋应用也越来越广泛。

3.垂类与创新产品方案

游戏语音：对于 MOBA 类型游戏和 FPS 射击游戏来说语音是刚需，且游戏内的语⾳已经承担了⼀部分社交能力，游戏和社交的界限在逐渐模糊。且游戏语音的音质在随着用户群体设备的不断迭代也有了更高的要求。纯语音向的游戏内容也在不断迭代出现，包括和 AR/VR 的结合与空间音效的能力应用。游戏场景需要考虑的能力：一是 AI 降噪，声网针对性的优化 AI 降噪可以有效抑制游戏中的键盘音和屏幕敲击声，同时对于性能与包体积有额外优化，保障在端侧处理；二是变声插件，实时 AI 变声插件可以让派对游戏有更多乐趣。三是 STT 语音审核和录制，需要针对某些地区和法律针对性定制。

IoT 结合场景：IoT 已经遍布生活的各个部分，目前越来越多的港口、机场、无人机和高危作业的行业逐渐引入平行驾驶场景，可以替代人工进行⼀些应急、高危、狭窄空间作业，同时融合 AI 动态识别；汽车的哨兵模式、家用摄像头的双向通话、儿童手表，都会通过 IoT 的 RTC 进行快速全球接入；广播级超高清直播 4K60 帧，同时与场景内硬件设备做到时间戳同步。IOT 场景需要考虑的能力：一是低功耗；二是多网络环境自动切换和选择；三是某些场景要求 AI 处理面部识别做隐私处理；四是需要低于200ms的端到端延迟。

多模态大模型和 RTC 的强结合：在多模态大模型方面，声网也在持续探索。传统多模态大模型并没有做到实时的语音对话，STT、LLM、TTS 之间需要串行处理，且模型无法在说话过程中进行推理，不能进行打断，对话也不像人与人之间的自然沟通。而在以 GPT-4o 为首的多模态大模型中，加入 RTC 后，用户可以通过音频、视频、文字进行实时对话；也可以主动介入，交流中任意打断；可以直接并行处理多模态信息，在输入过程中大模型有想法，有更好的实时的逻辑；且交流过程更贴近人与人之间的交流。

《沉浸式大空间实时互动技术应用与实践》

芒果融创科技有限公司（广电总局 5G 实验室）产品技术中心总经理 —— 吴红

第三位嘉宾，芒果融创科技有限公司（广电总局 5G 实验室）产品技术中心总经理吴红，就沉浸式大空间上的探索和实践进行了分享。吴红老师首先介绍到“ R 空间”的定义为基于云端计算的智能三维沉浸互动体验空间。应用于节目内容的创建、文旅及节目联合创意等场景。

作为内容生产企业，往往手上会有比较多的 IP ，如《明星大侦探》、《密室逃脱》，传统长视频更多是以观看为主，用户永远是属于被动接受的状态，那么如何让用户深度参与内容体验？除了视觉，还可以通过传感器等技术实时生成内容并实现交互，生产方式类似游戏生产，并借助 AI 辅助提升效率。内容创作完成后，采用云渲染方式面向不同终端分发，特别是 VR 端因设备特点主要面向门店。

R 空间体验系统包含多个关键部分，对比传统方案具有显著优势。吴红以剧本杀为例详细介绍了其内容创作流程。对《明星大侦探》剧本杀进行 AI 改造，引入智能 NPC 系统，该系统在形象和推理等方面不断优化。应用通过云渲染集群运行，注重对接 RTC 性能交付控制逻辑，针对弱网问题模拟优化，制定相关指标和策略，同时对 SDK 进行 QOS 数据采集与优化。

《亚马逊云科技生成式 AI 重塑泛娱乐行业内容新生态》

亚马逊生成式 AI 专家团队经理 —— 郭韧

第四位嘉宾，亚马逊生成式 AI 专家团队经理郭韧，分享了亚马逊云科技在生成式 AI 领域尤其是泛娱乐行业的诸多实践和观察。

生成式 AI 已从实验阶段进入扩展阶段，在各行业包括泛娱乐业广泛应用，带来巨大收入。亚马逊集团也在电商、广告等多个场景运用了生成式 AI 技术，如药品信息规范化提取、广告素材自动生成、热门商品评论总结等。

郭韧认为未来划时代的交互方式将会是文本或纯语音交互，这样一来大模型要非常清楚、准确理解用户当前的目标、行为，并且能够很好地跟背后的业务系统进行配合。亚马逊云科技 Amazon Bedrock 平台上的模型表现出色，不同版本各具特点和优势。相关的 Artifacts 工具也展现出强大功能。Amazon Bedrock 为生成式 AI 模型的运用和开发提供便利，Amazon Q 系列应用丰富多样。在泛娱乐行业，客户有不少投入，除了生图/生视频多模态应用之外，大部分应用集中在生文的场景。通过客服、文案生成、聊天机器人的方式快速帮助人们提升效果，产生更多的创意。具体的客户案例，包括视频 VQA 、直播视频内核审核、文字审核、素材标签化、智能运营、实时翻译、短剧辅助、客户服务等。