用 AI 发电，视频互动特效无限！来看看这款声网插件

在线咨询

专属客服在线解答，提供专业解决方案

声网 AI 助手

您的专属 AI 伙伴，开启全新搜索体验

在人工智能爆发的元年，AI 正在被加速应用在各行各业，特别是在视频领域，一方面，生成式 AI 推动视频生成模型的诞生，文生视频、图生视频为短、中视频以及影视行业带来新的内容生产工具。另一方面，在 AI 技术的加持下，各类视频特效惊艳亮相，增强了直播、视频社交的互动、视觉体验。

在当下主流的直播平台，视频特效主要分为两类，第一种比较简单，用户通过赠送礼物，为主播增加一些穿搭特效，例如墨镜、皇冠、头套等。二是主播自己设定直播间特效，例如 3D 虚拟背景、氛围特效、Animoji 特效等，在这些视频特效的视觉冲击下，可以有效提升直播观看体验与人气度。

在直播、视频行业快速发展的当下，互联网用户对于直播、视频聊天等场景下的画质体验、视觉效果的需求也随之增长。声网在致力于打造实时高清·超级画质的同时，也一直在探索如何实现更多创意与个性化的视频互动效果，并通过 AI 面捕、AI 语音驱动、AI 人像分割技术与 3D 渲染的结合，推出了 Metakit 插件，这是一款优化了视频互动各项体验的创新性产品，集成多项 AI 技术，为用户提供了富有创意和个性的视频增强功能。

AI 面捕+AI 语音驱动打造丰富的视频互动特效

MetaKit 是一款声网 SDK 拓展插件，开发者在构建高清、流畅的直播、视频通话场景时，还可以根据自己的场景需求灵活选用 Metakit 插件，以实现虚拟人、Animoji、Sticker、3D 灯光、氛围特效、背景特效等丰富的视频互动效果，例如：

社交娱乐：通过虚拟人、Animoji、Sticker 贴纸、人像边缘火焰等功能为主播提供更多创意和个性化的展示方式，增加视频社交和直播时的趣味性。其中虚拟人特效通过 AI 面捕、语音驱动技术，实时捕捉用户表情，并在虚拟形象上进行还原渲染，并通过捏脸、时尚换装等自定义选项打造独一无二的虚拟形象，增强互动的趣味性，同时也保障了虚拟人直播的低延时、低卡顿的流畅体验。

图1：虚拟人特效

Animoji 特效则是通过 AR 和 AI 面捕技术，实时将各种 Animoji 3D 动画应用于人像，呈现人像头部动态和表情的实时变化，展现出独特的个性。Sticker 贴纸同样是基于 AI面捕技术，选择 2D/3D 不同的挂件和贴纸进行装饰，如口罩、面纱、眼镜和头饰，增强互动趣味性。

图2：Animoji 3D动画图3：Sticker 贴纸特效

氛围特效则是通过利用灯光特效结合人像分割技术，为用户在直播间等场景打造艺术氛围感，包含了人像边缘火焰、人像边缘光线、极光、波纹等丰富的特效玩法。

图4：氛围特效：人像边缘火焰

在线教育、在线会议：在线会议场景，支持用户自定义 2D、3D 背景。线上教学场景，可以设置 360 全景背景，支持陀螺仪同步，创造更为生动多彩的教学环境，提高学生的学习兴趣。
电商直播、在线会议：在电商直播、在线会议场景，为了增强商品或人物的色彩饱和度，往往会选择专业的灯光设备来打造演示氛围。声网 Metakit 基于智能光影调控、背景分割等技术可营造媲美专业效果的演示环境，提升展示的视觉光影效果，包括 3D 灯（一盏灯光，可自定义运动轨迹）、氛围灯（模拟多盏真实灯光效果，运动轨迹固定）、广告灯等模式，让用户可以在虚拟环境中体验到更真实的光影效果。

图5：打光（氛围灯）图6：打光（3D灯）

开放的美术生态基于声网美术标准实现灵活创作

声网 Metakit 基于 Unity runtime 引擎开发，相比于市场其他同类产品，在 AI算法能力、美术生态、产品易用性、包体积等方面具备独特优势，不仅方便开发者低成本快速接入，还支持美术素材的灵活创作，构建更丰富的视频互动特效。

业内领先的 AI 算法：

面捕捕捉算法，精准识别人脸1220个 3D 关键点，52个表情系数和12个姿态估计值，在虚拟人和 Animoji 特效中可以精准还原真人的面部细腻表情和头部动作，以及叠加 3D 虚拟挂件，在包体积和性能消耗层面也表现出色。
语音驱动算法，可将用户输入的语音信息转换为人脸的26个表情系数，在虚拟人场景还原人物说话时的面部表情，算法适用于各类人声，包含性别以及丰富的方言、语种等。在对话式AI的趋势下，声网语音驱动算法同样适用于 AI 虚拟助手等场景。
AI 背景分割，能保证复杂场景下人像边缘分割准确而且稳定。

开放美术生态：声网 Metakit 插件提供开放的美术生态，支持一键导入基于声网美术标准制作的虚拟人、Animoji 和 Sticker 形象，为开发者提供更灵活的创作和集成选项。例如，开发者如想创作更多不同主题、风格的特效，如圣诞、春节主题的背景特效，欧美、卡通风格的虚拟人脸特效，都可以基于声网的美术标准进行二次开发创作，以更低的成本构建丰富的特效内容。
产品易用性封装：为了让多种特效更有效组合，降低客户的接入成本，声网 MetaKit 做了美术素材的产品形态封装，通过资源一体化打包直接给客户去集成，从而减少接入成本、提升易用性
包体小：Unity runtime 引擎本身具备丰富的功能用于游戏开发，而在视频特效场景，为了避免一些非必要的功能对包体积带来的负担，声网进行了多轮的深度优化，有效降低了 SDK 插件的包体积。

用 AI 发电，视频互动特效无限！来看看这款声网插件

AI 面捕+AI 语音驱动 打造丰富的视频互动特效

开放的美术生态 基于声网美术标准实现灵活创作

AI 面捕+AI 语音驱动打造丰富的视频互动特效

开放的美术生态基于声网美术标准实现灵活创作