在人工智能爆发的元年,AI 正在被加速应用在各行各业,特别是在视频领域,一方面,生成式 AI 推动视频生成模型的诞生,文生视频、图生视频为短、中视频以及影视行业带来新的内容生产工具。另一方面,在 AI 技术的加持下,各类视频特效惊艳亮相,增强了直播、视频社交的互动、视觉体验。
在当下主流的直播平台,视频特效主要分为两类,第一种比较简单,用户通过赠送礼物,为主播增加一些穿搭特效,例如墨镜、皇冠、头套等。二是主播自己设定直播间特效,例如 3D 虚拟背景、氛围特效、Animoji 特效等,在这些视频特效的视觉冲击下,可以有效提升直播观看体验与人气度。
在直播、视频行业快速发展的当下,互联网用户对于直播、视频聊天等场景下的画质体验、视觉效果的需求也随之增长。声网在致力于打造实时高清·超级画质的同时,也一直在探索如何实现更多创意与个性化的视频互动效果,并通过 AI 面捕、AI 语音驱动、AI 人像分割技术与 3D 渲染的结合,推出了 Metakit 插件,这是一款优化了视频互动各项体验的创新性产品,集成多项 AI 技术,为用户提供了富有创意和个性的视频增强功能。
AI 面捕+AI 语音驱动 打造丰富的视频互动特效
MetaKit 是一款声网 SDK 拓展插件,开发者在构建高清、流畅的直播、视频通话场景时,还可以根据自己的场景需求灵活选用 Metakit 插件,以实现虚拟人、Animoji、Sticker、3D 灯光、氛围特效、背景特效等丰富的视频互动效果,例如:
- 社交娱乐:通过虚拟人、Animoji、Sticker 贴纸、人像边缘火焰等功能为主播提供更多创意和个性化的展示方式,增加视频社交和直播时的趣味性。其中虚拟人特效通过 AI 面捕、语音驱动技术,实时捕捉用户表情,并在虚拟形象上进行还原渲染,并通过捏脸、时尚换装等自定义选项打造独一无二的虚拟形象,增强互动的趣味性,同时也保障了虚拟人直播的低延时、低卡顿的流畅体验。
图1:虚拟人特效
Animoji 特效则是通过 AR 和 AI 面捕技术,实时将各种 Animoji 3D 动画应用于人像,呈现人像头部动态和表情的实时变化,展现出独特的个性。Sticker 贴纸同样是基于 AI面捕技术,选择 2D/3D 不同的挂件和贴纸进行装饰,如口罩、面纱、眼镜和头饰,增强互动趣味性。
图2:Animoji 3D动画 图3:Sticker 贴纸特效
氛围特效则是通过利用灯光特效结合人像分割技术,为用户在直播间等场景打造艺术氛围感,包含了人像边缘火焰、人像边缘光线、极光、波纹等丰富的特效玩法。
图4:氛围特效:人像边缘火焰
- 在线教育、在线会议:在线会议场景,支持用户自定义 2D、3D 背景。线上教学场景,可以设置 360 全景背景,支持陀螺仪同步,创造更为生动多彩的教学环境,提高学生的学习兴趣。
- 电商直播、在线会议:在电商直播、在线会议场景,为了增强商品或人物的色彩饱和度,往往会选择专业的灯光设备来打造演示氛围。声网 Metakit 基于智能光影调控、背景分割等技术可营造媲美专业效果的演示环境,提升展示的视觉光影效果,包括 3D 灯(一盏灯光,可自定义运动轨迹)、氛围灯(模拟多盏真实灯光效果,运动轨迹固定)、广告灯等模式,让用户可以在虚拟环境中体验到更真实的光影效果。
图5:打光(氛围灯) 图6:打光(3D灯)
开放的美术生态 基于声网美术标准实现灵活创作
声网 Metakit 基于 Unity runtime 引擎开发,相比于市场其他同类产品,在 AI算法能力、美术生态、产品易用性、包体积等方面具备独特优势,不仅方便开发者低成本快速接入,还支持美术素材的灵活创作,构建更丰富的视频互动特效。
- 业内领先的 AI 算法:
- 面捕捕捉算法,精准识别人脸1220个 3D 关键点,52个表情系数和12个姿态估计值,在虚拟人和 Animoji 特效中可以精准还原真人的面部细腻表情和头部动作,以及叠加 3D 虚拟挂件,在包体积和性能消耗层面也表现出色。
- 语音驱动算法,可将用户输入的语音信息转换为人脸的26个表情系数,在虚拟人场景还原人物说话时的面部表情,算法适用于各类人声,包含性别以及丰富的方言、语种等。在对话式AI的趋势下,声网语音驱动算法同样适用于 AI 虚拟助手等场景。
- AI 背景分割,能保证复杂场景下人像边缘分割准确而且稳定。
- 开放美术生态:声网 Metakit 插件提供开放的美术生态,支持一键导入基于声网美术标准制作的虚拟人、Animoji 和 Sticker 形象,为开发者提供更灵活的创作和集成选项。例如,开发者如想创作更多不同主题、风格的特效,如圣诞、春节主题的背景特效,欧美、卡通风格的虚拟人脸特效,都可以基于声网的美术标准进行二次开发创作,以更低的成本构建丰富的特效内容。
- 产品易用性封装:为了让多种特效更有效组合,降低客户的接入成本,声网 MetaKit 做了美术素材的产品形态封装,通过资源一体化打包直接给客户去集成,从而减少接入成本、提升易用性
- 包体小:Unity runtime 引擎本身具备丰富的功能用于游戏开发,而在视频特效场景,为了避免一些非必要的功能对包体积带来的负担,声网进行了多轮的深度优化,有效降低了 SDK 插件的包体积。