大多数人对 AI 语音助手的印象,可能还停留在“Hi xxx,帮我播放歌曲”和“打开电视、关闭电视”,更进一步也就是“帮我导航最近的兰州牛肉面馆”。
简单的问题回复及时,稍微难一点的似乎只能回答“我不明白”。TA 只会对特定的提问反应,简单的陪聊甚至前言不搭后语,反应的话术也都是预设的。
试想一下,如果有一种 AI 语音助手,能够与你进行实时语音互动,甚至 TA 的人设也能够根据你的需求而变,那会是多么爽的事情。比如你想练口语,TA 就化身一口纯正英腔的英伦大叔与你对话;你失恋了想找个人倾诉,TA 一定是情绪最稳定的那个;你也不用再做旅游攻略了,没有 TA 不知道的;TA 可以当你的二次元“恋人”,甚至给你提供专业咨询?
好家伙,这 AI 看上去几乎全知全能,任劳任怨,不得不说,TA 人还怪好的嘞!
以上 dream 的AI 语音助手,声网已经搞定了!相较于市面上的文本互动生成式 AI 对话或者离线的本地数字人方案,声网 AIGC 解决方案更专注于实时音频对话的更优体验,支持体验者与 AI 语音助手进行超低延迟的语音互动,并提供泛娱乐、教育、政企等细分业务场景的定制化。
声网 AIGC 一站式解决方案 更沉浸、低延时、易开发
1.更沉浸,用户体验up:相比传统的通过 IM 文字聊天与 AI 角色实现交互的方案,声网提供的实时音视频 + 实时消息 + 虚拟形象方案能够带来更真实自然的互动体验,更好地表达情感和传达用户的个性化意图。

2.低延时,响应延时低至1.9秒内:针对目前市面上大多数 AI 生成式对话响应慢的问题,声网的研发团队对 AIGC 场景下音视频互动的延时做了技术优化,从用户发言到 AI 对话响应平均延时仅为 1.9s,比市面上绝大部分 AI 互动延迟在 6-7s 的方案要低很多。
3.易开发,3h 快速上线:在场景开发层面,声网提供封装完整的 SDK,包含实时音视频、实时消息、语音转文字(STT)/文字转语音(TTS)、语音驱动虚拟人嘴型等多种能力,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。

此外,声网还可以提供以下 RTE X AIGC 一站式产品能力:
1.国内外多种商用大模型灵活切换
声网与热门的国内外大模型厂商进行合作,根据业务场景集成测试了多个大模型的能力,支持企业根据自身需求进行灵活切换。此外,声网在开源大模型层面也有在尝试做私有化部署,以满足部分企业对数据安全及网络的要求。
2.支持丰富的语言能力
对 STT + TTS 模型精细化调优,实现人声分离,断句优化,让整个语言体验更加流畅。此外,声网还支持 AI 实时变声、定制化声音克隆,让声音听起来更具真实感。

3.场景人设定制化
声网对 AI 角色进行了人设定制,通过 Prompt 的方式设置 AI 角色的名字、职业、性格等丰富的人设属性并支持定制形象与声音,例如设定不同性格人设的 AI 语音助手,比如口语陪练老师、虚拟恋人、客服人员、销售专家等。

4.多轮对话记忆,交互体验再升级
声网提供的多轮对话记忆功能,可以更好的应用在 AI 情感陪聊、智能办公助手等场景。对于需要 AI 精准回答特定行业知识、企业专业知识的客户,声网 AIGC 解决方案都能够提供实时语音回答。比如政务大厅的 AI 问答助手可以回答公积金、社保等问题;AI 英语老师可以针对不同年级提供不同难易程度的词库指导等。