在线咨询
专属客服在线解答,提供专业解决方案
声网 AI助手
您的专属 AI 伙伴,开启全新搜索体验
首页 / 新闻中心 / 产品发布 / 正文

用 AI 发电,视频互动特效无限!来看看这款声网插件

在人工智能爆发的元年,AI 正在被加速应用在各行各业,特别是在视频领域,一方面,生成式 AI 推动视频生成模型的诞生,文生视频、图生视频为短、中视频以及影视行业带来新的内容生产工具。另一方面,在 AI 技术的加持下,各类视频特效惊艳亮相,增强了直播、视频社交的互动、视觉体验。

在当下主流的直播平台,视频特效主要分为两类,第一种比较简单,用户通过赠送礼物,为主播增加一些穿搭特效,例如墨镜、皇冠、头套等。二是主播自己设定直播间特效,例如 3D 虚拟背景、氛围特效、Animoji 特效等,在这些视频特效的视觉冲击下,可以有效提升直播观看体验与人气度。

在直播、视频行业快速发展的当下,互联网用户对于直播、视频聊天等场景下的画质体验、视觉效果的需求也随之增长。声网在致力于打造实时高清·超级画质的同时,也一直在探索如何实现更多创意与个性化的视频互动效果,并通过 AI 面捕、AI 语音驱动、AI 人像分割技术与 3D 渲染的结合,推出了 Metakit 插件,这是一款优化了视频互动各项体验的创新性产品,集成多项 AI 技术,为用户提供了富有创意和个性的视频增强功能。

AI 面捕+AI 语音驱动  打造丰富的视频互动特效

MetaKit 是一款声网 SDK 拓展插件,开发者在构建高清、流畅的直播、视频通话场景时,还可以根据自己的场景需求灵活选用 Metakit 插件,以实现虚拟人、Animoji、Sticker、3D 灯光、氛围特效、背景特效等丰富的视频互动效果,例如:

  • 社交娱乐:通过虚拟人、Animoji、Sticker 贴纸、人像边缘火焰等功能为主播提供更多创意和个性化的展示方式,增加视频社交和直播时的趣味性。其中虚拟人特效通过 AI 面捕、语音驱动技术,实时捕捉用户表情,并在虚拟形象上进行还原渲染,并通过捏脸、时尚换装等自定义选项打造独一无二的虚拟形象,增强互动的趣味性,同时也保障了虚拟人直播的低延时、低卡顿的流畅体验。

图1:虚拟人特效

Animoji 特效则是通过 AR 和 AI 面捕技术,实时将各种 Animoji 3D 动画应用于人像,呈现人像头部动态和表情的实时变化,展现出独特的个性。Sticker 贴纸同样是基于 AI面捕技术,选择 2D/3D 不同的挂件和贴纸进行装饰,如口罩、面纱、眼镜和头饰,增强互动趣味性。

     

图2:Animoji 3D动画             图3:Sticker 贴纸特效

氛围特效则是通过利用灯光特效结合人像分割技术,为用户在直播间等场景打造艺术氛围感,包含了人像边缘火焰、人像边缘光线、极光、波纹等丰富的特效玩法。

图4:氛围特效:人像边缘火焰

  • 在线教育、在线会议:在线会议场景,支持用户自定义 2D、3D 背景。线上教学场景,可以设置 360 全景背景,支持陀螺仪同步,创造更为生动多彩的教学环境,提高学生的学习兴趣。
  • 电商直播、在线会议:在电商直播、在线会议场景,为了增强商品或人物的色彩饱和度,往往会选择专业的灯光设备来打造演示氛围。声网 Metakit 基于智能光影调控、背景分割等技术可营造媲美专业效果的演示环境,提升展示的视觉光影效果,包括 3D 灯(一盏灯光,可自定义运动轨迹)、氛围灯(模拟多盏真实灯光效果,运动轨迹固定)、广告灯等模式,让用户可以在虚拟环境中体验到更真实的光影效果。

     

图5:打光(氛围灯)         图6:打光(3D灯)

开放的美术生态  基于声网美术标准实现灵活创作

声网 Metakit 基于 Unity runtime 引擎开发,相比于市场其他同类产品,在 AI算法能力、美术生态、产品易用性、包体积等方面具备独特优势,不仅方便开发者低成本快速接入,还支持美术素材的灵活创作,构建更丰富的视频互动特效。

  • 业内领先的 AI 算法:
  1. 面捕捕捉算法,精准识别人脸1220个 3D 关键点,52个表情系数和12个姿态估计值,在虚拟人和 Animoji 特效中可以精准还原真人的面部细腻表情和头部动作,以及叠加 3D 虚拟挂件,在包体积和性能消耗层面也表现出色。
  2. 语音驱动算法,可将用户输入的语音信息转换为人脸的26个表情系数,在虚拟人场景还原人物说话时的面部表情,算法适用于各类人声,包含性别以及丰富的方言、语种等。在对话式AI的趋势下,声网语音驱动算法同样适用于 AI 虚拟助手等场景。
  3. AI 背景分割,能保证复杂场景下人像边缘分割准确而且稳定。
  • 开放美术生态:声网 Metakit 插件提供开放的美术生态,支持一键导入基于声网美术标准制作的虚拟人、Animoji 和 Sticker 形象,为开发者提供更灵活的创作和集成选项。例如,开发者如想创作更多不同主题、风格的特效,如圣诞、春节主题的背景特效,欧美、卡通风格的虚拟人脸特效,都可以基于声网的美术标准进行二次开发创作,以更低的成本构建丰富的特效内容。
  • 产品易用性封装:为了让多种特效更有效组合,降低客户的接入成本,声网 MetaKit 做了美术素材的产品形态封装,通过资源一体化打包直接给客户去集成,从而减少接入成本、提升易用性
  • 包体小:Unity runtime 引擎本身具备丰富的功能用于游戏开发,而在视频特效场景,为了避免一些非必要的功能对包体积带来的负担,声网进行了多轮的深度优化,有效降低了 SDK 插件的包体积。

相关文章

让任意大模型开口说话,1分钟不到1毛钱!

3月6日,声网举办了主题为“AI开口,互动无界”的产品发布会,正式发布了全球首个对话式 AI 引擎。声网对话式 AI 引擎可支持任意文本大模型快速升级为“能说会道”的对话式多模态大模型。同时,对话式

未来可期,RTE创新大赛全球三强揭晓

10月24日,第三届 RTE 创新大赛全球总决赛在 RTE2023 实时互联网大会圆满举办!舞指科技、萤火空间、Kivisense弥知科技斩获三强,Motphys 获得上海杨浦科技创新(集团)有限公司

一键美音修声,你的专属语音“嘴替”来咯!

线上 K 歌、语聊、狼人杀、剧本杀这些需要通过语音进行互动的玩法,什么最重要? 把“声音”两字打在公屏上,家人们! 语音互动,对用户来说,吸引力最大的当然是对方的音质、音色、音效了!萝莉音、御姐音、女

首批通过!声网通过信通院实时音视频服务能力评测

2023年6月8日,“实时音视频产业创新发展论坛”在北京成功召开,本次论坛重磅发布了中国信通院首轮实时音视频产品能力评测结果,并聚焦实时音视频产业深化发展、核心技术突破方向、行业应用场景等热点话题,邀