智谱清言如何打造百万用户的视频通话 AI 助手？

2025-07-15

行业趋势

近年来，随着大模型技术的发展，多模态交互成为人工智能应用的新趋势。在2024年7月末，OpenAI发布了支持视频交互的GPT-4o版本；紧接着，8月29日，智谱AI正式宣布清言App上线视频通话功能，成为国内首个支持“文本、语音、图像和视频”多模态交互与实时推理的AI助手。智谱称其为“有了眼睛”的AI产品，不再局限于打字和普通语音对话，使用户无需担心机械生硬的播报方式。声网作为实时音视频领域的全球领先厂商，为这一视频通话AI助手提供了底层的通信和对话式AI引擎支持，保障了系统的低延迟和高质量交互体验。

技术架构与多模态处理

清言视频通话AI助手的核心在于将智谱的多模态大模型与声网的实时互动技术深度融合。系统总体架构如图所示：用户端通过摄像头和麦克风采集图像与语音，并借助声网RTC网络将数据实时传输到云端；在云端，一方面由智谱的多模态大模型对视觉和语音进行理解分析，一方面由声网对话式AI引擎负责快速处理对话流程和网络传输优化；最后的回复通过语音合成或直接音频输出返回给用户。具体来说，智谱推出了名为GLM-4-Plus-VideoCall的新模型作为视频通话的基础能力。该模型融合了GLM-4系列的大语言模型和多模态输入能力，支持视频通话和语音多轮对话等跨模态交互。在这个框架下，清言的视频通话功能能够同时处理用户的实时视频帧和语音输入，生成连贯的回复。

在语音方面，智谱使用GLM-4-Voice模型实现端到端的语音对话能力。GLM-4-Voice通过离散音频Token表示输入语音，避免了传统ASR+LLM+TTS的复杂流程。其音频编码器将语音信号压缩为12.5 Hz的低码率Token，这些Token既保留了语义信息，也包含了音色、情感等副语言信息。在生成方面，GLM-4-Voice采用流匹配（Flow Matching）技术，可以仅用约10个音频Token即可流式合成一段语音，从而最大限度地降低对话延迟。GLM-4-Voice在预训练时将语音对话任务拆分为“语音到文本”与“文本到语音”两个阶段，分别负责将用户语音映射为文本回复，以及根据文本生成带有用户声纹和情感的语音回复，保证了理解和生成的灵活性。这样，用户说话时，GLM-4-Voice可以直接理解语音含义并马上以语音形式回答，无需先转为文本再语音合成，交互更加自然流畅。

在视觉方面，智谱使用GLM-4V-Plus模型来理解摄像头画面。GLM-4V-Plus不仅具备卓越的图像理解能力，还具有时间感知的视频理解能力。它可以实时分析视频帧序列，识别画面中的物体、人物及其动态变化。例如在一段篮球比赛视频中，当用户询问“穿绿色衣服的球员在视频中做了什么”时，GLM-4V-Plus能够准确地描述出该球员运球并投篮的动作；当用户追问“精彩时刻发生在第几秒”时，它还能回答在第4秒投篮得分。此外，GLM-4V-Plus可以对视频中的静态细节进行识别，如从商品包装、屏幕上的幻灯片或手写文字中提取关键信息。通过GLM-4V-Plus，清言AI能够“看到”摄像头所见，并将视觉信息转化为模型可以处理的格式，用以丰富回答的上下文。

多模态输入的协同流程如：用户的画面帧通过GLM-4V-Plus抽取语义特征，用户的语音通过GLM-4-Voice转为语义Token，这些信息作为对话上下文被基础模型（GLM-4-Plus-VideoCall）综合处理，生成回复内容（文本或音频）。例如，学生在视频通话中举起一道数学题目拍照并提问，系统通过视觉模型识别题干、同时通过语音模型理解提问意图，然后生成逐步解题的回答；又或用户指出商品包装上的英文产品名，系统识别文本并结合语音提问一起解析，给出使用或翻译建议。GLM-4-Plus-VideoCall背后的大模型因此能够将视觉信息和声音信息串联，提供更丰富的场景感知和智能应答能力。

声网对话式AI引擎的支撑作用

声网提供的对话式AI引擎在整个系统中承担了对话管理和网络传输优化的关键角色。该引擎构建于声网全球实时网络（SD-RTN™）之上，并集成了多项先进的音频处理技术。SD-RTN网络在全球200多个国家和地区部署节点，可智能路由流量、选择最佳传输路径，显著降低音视频传输的时延。同时，声网引擎内置了语音活动检测（VAD）、背景噪声抑制等模块，可对用户环境噪声进行实时过滤，提高语音识别的准确性和清晰度。这些特性共同加快了对话流转速度，有效缩减了从用户说话到AI回复的整体延迟。

在实际效果上，声网对话式AI引擎将端到端响应时延优化至极致，其内测数据显示中位延迟仅为约650毫秒。这个延迟覆盖了语音输入结束到AI回复开始的完整过程，已经接近真人对话的节奏。更重要的是，该引擎支持智能打断功能：用户在AI语音回复过程中随时插话，AI会立即暂停当前回复并转而响应新指令，使对话宛如自然人际交流般流畅。即使在网络条件极差（高达80%丢包率）的情况下，声网系统也能自适应调整，通过拥塞控制和错误恢复机制保持通话稳定。这些技术确保了清言视频通话AI助手在任何设备和网络环境下都能提供一致的低延迟、高稳定性的体验。

此外，声网在互动场景中对音视频同步传输也积累了丰富经验。例如，在声网的互动白板产品中，即支持动画PPT展示，又保证了音频讲解与画面演示的同步。同样的技术优势保证了视频通话中用户看到的画面与听到的语音能够紧密对齐，不会出现明显的唇动不同步问题。综上所述，声网对话式AI引擎为清言视频通话AI助手提供了完善的实时通信基础和对话优化能力，是实现低延迟交互和高质量体验的关键支撑。

多模态交互体验的演进

在人工智能互动演进过程中，清言视频通话功能极大丰富了用户体验。以往的大模型对话产品主要依赖文本窗口或简单语音，存在交互迟缓、情感缺失的问题。而多模态视频通话让交流更加真实自然：用户可以像和真人视频通话一样提问，随时指向某个物体或场景让AI观察，并在对话过程中即刻得到反馈。实践表明，这种沉浸式交互体验颠覆了传统“问答式”对话方式：即便频繁打断，清言也能即时反应，打断率和用户等待感大幅降低。正如用户分享的使用感受，AI助手能够理解语音、情绪等多种信号，并以“人味”十足的方式回答问题。

同时，多模态对话使得用户不再需要繁琐输入。一位IT媒体撰稿人曾报道：清言具有“眼睛”的能力，无需局限于文字输入，直接通过摄像头传递信息便能完成交互。用户可直接点击首页的“打 Call”按钮开启视频通话，在画面上划重点或拿起物品给AI看，AI即刻识别并响应。这种体验让人与AI的沟通更贴近人与人之间的自然交流，打破了之前对话式AI在语速、语调、画面理解等方面的瓶颈。

多模态输入串联与GLM-4模型机制

清言视频通话助手的多模态输入由GLM-4系列模型协同处理。用户通过摄像头和麦克风传递的语音和图像数据，在后端被对应的模型模块解析：GLM-4-Voice将用户语音编码为离散Token，GLM-4V-Plus则提取视频帧中的语义信息。这些编码后信息一并作为大语言模型的输入进行推理。具体机制如下：

GLM-4-Voice（语音模块）：输入语音后，GLM-4-Voice利用其音频Tokenizer将连续语音转为低频率（12.5 Hz）离散Token序列。这一过程保留了语音的语义内容、情绪和音调等副语言特征。经过编码后的语音Token与之前对话的上下文共同输入到大模型（GLM-4-Plus-VideoCall）中，生成文本或语音回复的内容。由于GLM-4-Voice为端到端模型，输出也是音频Token，通过内置的解码器实时合成语音，无需额外TTS组件。这种设计让语音输入输出环节更紧凑，避免了传统管道中语音识别和语音合成的冗长转换。
GLM-4V-Plus（视觉模块）：输入的视频帧会被GLM-4V-Plus处理，提取其中的视觉描述或知识点信息。这可以是物体识别、文字识别（如图像中的文本）、场景描述或行为分析等。例如，在考试辅导场景中，GLM-4V-Plus识别出黑板上的数学题目或试卷内容；在产品咨询场景，它可以读取商品包装上的英文说明；在烹饪场景，它识别食材种类。在对话过程中，这些视觉理解结果以文本或特征形式提供给核心模型，辅助回答生成。
信息融合：GLM-4-Voice模块和GLM-4V-Plus模块产生的中间信息在大模型层面融合。GLM-4-Plus-VideoCall模型（基于GLM-4-Plus）能够同时接收文本、音频Token和视觉提示，对它们进行联合推理。例如，学生说“解这个题”并拿书给AI看，模型会同时使用语音理解学生意图与视觉识别的题目内容，进而生成完整的解题过程反馈。这种多模态输入串联的模式使得交互更具上下文感知能力，也使AI能处理更复杂的任务。

应用场景与用户增长

智谱清言视频通话AI助手在教育、客服、导览等多种场景中展现了丰富的应用价值。目前清言App累计用户已超过2500万，这也为视频通话功能带来了庞大的用户基础。以下是一些典型的应用场景：

教育辅导：清言可充当“AI老师”，通过视频通话帮助学生答题和学习，其中就演示了作业辅导场景：系统迅速理解视频中展示的小学数学题目含义，拆解步骤引导学生计算，并在学生答对后鼓励“太棒了”；在英语学习场景下，系统精准识别用户圈出的单词，给出正确发音，并耐心纠正朗读错误，就像坐在学生身边的英语老师一样。这种实时、沉浸式的互动大大提升了学习体验。
智能客服及生活助手：用户在购物或使用家电过程中，可通过镜头向AI求助。在商品识别场景中，一位用户将星巴克咖啡包装对准摄像头，清言识别出商品名称、配料、口味等信息，并回答了如何制作美式咖啡、如何储存咖啡豆等问题；在厨房场景中，助手能够识别案板上的食材（白菜、辣椒、大蒜、姜），并根据用户需求推荐辣椒炒白菜的做法，详细给出步骤。此外，智谱官方也提到清言视频通话可提供穿搭建议、机器使用方法、场景背景讲解等生活场景服务。多模态识别加对话功能让客户服务更智能：例如智能客服可让用户直接展示故障界面或产品照片，AI即时诊断并解答问题，减少了沟通成本。
职场与商务：在专业工作场景中，清言视频通话功能同样大显身手。它可以作为面试辅导官，帮助求职者模拟问答；在会议过程中，可实时理解演示文稿和白板内容，自动生成会议纪要；对于图表、报表、代码等复杂信息，AI能够透过摄像头读取并解释要点。例如用户对着显示屏提问代码含义时，助手可以识别屏幕上的代码并给出解释，极大提高了解决问题的效率。
智能导览：在导览场景中，游客可以将设备对准景点或展品，AI助手通过图像识别提供语音讲解和背景故事。这实际上和场景识别讲述背景相通。多模态交互让传统导览更加灵活：用户不需预先知道问题，只要描述或指向事物，AI便能即时解说，丰富了旅游与文化体验。

通过上述场景可以看出，清言视频通话AI助手的使用场景涵盖教育培训、零售客服、居家生活、企业服务等多个领域。其多模态能力和低延迟交互使用户黏性大幅提高。据智谱内部数据统计，自清言上线视频通话功能并开启付费服务后，C端年化收入已突破千万元，展示了用户对该功能的强烈需求。在过去一年里，智谱清言App总用户数已超过2500万，其中涵盖了大量活跃用户。可以预见，随着产品功能的不断迭代和性能优化，该视频通话AI助手还有望继续吸引更多百万级用户使用，实现规模化增长。

智谱清言与声网携手打造的视频通话AI助手，依托先进的多模态大模型（GLM-4系列）和高性能实时通信引擎，实现了跨越语音、图像、视频三种模态的自然对话。智谱提供了强大的语言、语音和视觉理解能力；声网则提供了全球SD-RTN网络支持、超低延迟和智能打断功能。两者的结合，让AI助手具备了类人的交互能力：能够准确“看”懂摄像头画面、快速“听”懂用户语音、并实时给出符合上下文的回答。目前，此视频通话AI助手已在教育、客服、导览等多个领域投入实践，吸引了数以百万计的用户体验。未来，随着GLM-4-Voice、GLM-4V-Plus等模型不断优化升级，以及声网技术的持续迭代，该系统的多模态理解能力和交互效率将进一步提升，为开发者和企业带来更多创新机会。

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验