在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验
首页 / 博客 / 正文

多语言语音AI之一:多语言语音AI技术模型盘点

全球约有 7000 种语言,而现有 AI 语言模型覆盖的仅是极小一部分。过去,主流语音识别和语音助手大多专注于英语、中文等少数几种主要语言,许多中小语言的使用者在与智能设备交互时不得不借助第二语言。如今,这一情况正在改变:多语言语音 AI 技术的崛起正迈开步伐,为更多语言群体提供平等的人工智能对话体验。这不仅是技术的发展,更是通往包容性对话式人工智能的重要一步。

多语言语音 AI 时代的到来意味着什么?简单来说,就是我们的智能助手、语音翻译器等系统将能听懂和说出更多种语言,让不同语言背景的用户都能以母语与人工智能交流。例如,在一个国际化的客服场景中,AI 可以即时将客户的母语问题转录并翻译给客服代表,实现跨语言的顺畅沟通;又如在教育领域,AI 可为使用小语种的学生提供母语语音辅导资源。这种技术的发展让人工智能更好地服务全球多元文化社区,缩小“语言数字鸿沟”。

随着计算能力的提升和算法的进步,支持多语言的语音模型正在不断涌现。从科技公司到开源社区,越来越多的力量投入到多语言语音 AI 的研究与应用中。接下来,本文将深入探讨多语言语音 AI 技术的重要性、所面临的挑战以及近年出现的关键技术突破,并重点解析几项标志性的里程碑进展。这些进展表明,多语言语音 AI 时代已经曙光初现,一个支持多语对话的更包容智能世界正向我们走来。

 

 

多语言语音 AI 的重要性

消除语言壁垒,提升用户体验: 对话式 AI 的理想愿景是让每个人都能用自己最熟悉的语言与机器交流。多语言语音 AI 能够为不同语言背景的用户提供无缝的交互体验,这对于非英语母语的广大用户尤为重要。在过去,很多人不得不使用英语与智能助手交流或使用机器翻译,这不仅增加了使用门槛,也降低了交互效率。而多语言语音 AI 的出现,使智能设备能够直接“听懂”用户的母语并做出响应,极大提升了用户体验和满意度。

  • 促进数字公平与包容: 语言承载着文化与身份。如果 AI 技术只支持少数几种语言,那么说其他语言的人群将在数字时代处于劣势。多语言语音 AI 的发展,有助于确保不同语言文化的群体都能平等地从 AI 进步中受益。例如,过去主流语音识别系统对英语使用者的错误率远低于对非英语使用者的错误率,甚至在同一种语言内部,不同群体间也存在性能差异——斯坦福大学的一项研究发现,当时市面上一些顶尖语音识别对白人说话者的出错率比对黑人说话者低约19%。这表明语言和口音的不一致会带来技术偏见。而如今通过更广泛的多语言数据训练和模型改进,我们有机会大幅降低这类偏见,使语音 AI 对各种人群都更加公平。例如,让AI学会多种语言和口音,可以提升系统对不同族裔、不同行业术语的适应性。从这个角度看,多语言语音 AI 不仅是技术创新,更是促进社会公平的重要举措。
  • 拓展应用场景与市场: 对企业而言,多语言语音 AI 能打开更广阔的市场空间。具备多语言能力的智能客服、语音助手,可以服务全球各地的客户而不受语言限制。例如,一款支持多语言的语音聊天机器人可以同时处理来自不同国家用户的咨询,在旅游、跨境电商等行业具有巨大价值。同样地,多语言实时翻译也成为可能——现代的AI翻译耳机或应用,已经可以在两人对话时即时识别出不同语言并互译,从而让不会彼此语言的人也能流畅交流。这些应用得益于多语言语音识别和翻译技术的进步。可以预见,随着多语言语音 AI 的能力提升,我们将在全球商务、医疗、教育等各领域见到更加多元化的 AI 应用,触达此前因语言不通而无法服务的人群。

总之,多语言语音 AI 的重要性体现在它让人工智能真正走向全球用户。语言不再是人与技术之间的高墙,而变成了沟通的桥梁。这不仅提升了个体的用户体验和获取信息的便利性,也让不同语言文化能够在数字世界中被听见、被看见,推动了人工智能领域的多样性和包容性发展。

 

 

面临的挑战

尽管前景光明,实现多语言语音 AI 面临一系列挑战。首先也是最大的挑战是数据匮乏。训练一个高性能的语音识别或语音合成模型,通常需要成千上万小时的带标注语音数据——既包含音频,又有人为转写的文本。对于英语等资源丰富的语言,这样的数据相对容易获取(比如字幕、转录服务等)。但对于许多冷门语言,甚至是使用人数众多但技术资源有限的语言来说,高质量的语音-文本数据几乎不存在。例如,一些小语种可能连基础的语音数据库都没有,更不用说覆盖各种口音和场景的大规模数据了。人工去收集和标注如此大量的数据,成本极其高昂,而且耗时漫长。数据匮乏直接导致了这些语言上的语音 AI 模型性能欠佳,形成“强者恒强、弱者恒弱”的局面。

  • 多样性与复杂性: 人类语言丰富多样,即使是同一种语言,不同地区、不同行业的说话方式也存在明显差异。这给语音 AI 模型带来了口音和方言挑战。例如,英语中的印度口音、英国口音、美国口音之间差异巨大,模型往往对非标准口音有更高错误率。同样地,阿拉伯语在不同国家的变体、汉语的各地方言,可能彼此差异如同不同语言。要打造一个多语言语音模型,不仅要覆盖多种语言,还要在每种语言内部适应这种多样性。此外,语音中的环境噪音、说话者语速快慢、录音设备质量差异等,都会影响模型的准确率。在多语言场景下,这些问题可能被放大——模型可能错误地将一种语言的噪声当成另一种语言的词语,或者在不熟悉的语言上“幻想”出不存在的词(即所谓的幻听现象)。
  • 模型训练和效率: 即便数据足够,训练支持多语言的语音模型也极具挑战。一个模型如果要覆盖上百种语言,其规模和复杂度都远超单语言模型。以 Meta 的Massively Multilingual Speech(MMS)项目为例,他们尝试用一个模型涵盖1100多种语言,结果表明当语言数量从61增加到1107时,模型的字符错误率仅略微上升约0.4%,而语言覆盖范围扩大了17倍。这虽然展现了多语言模型的可行性,但也提示:随着语言数目的扩增,模型训练变得愈加复杂。模型需要具备区分上千种语言的能力,并在参数有限的情况下保持每种语言的精度不至于大幅下降。另外,大规模多语言训练对计算资源要求极高。Google 的团队为其通用语音模型 USM 使用了 12 万小时的音频和 280 亿句文本来预训练模型——这样的数据规模和计算开销,小型研究团队难以承受。
  • 文本和语音资源不对称: 有些语言可能有一定的书面文本资源,但缺乏口语语音数据;另一些语言甚至没有广泛使用的书写系统(比如某些方言和土著语言),导致传统的文本数据无法直接帮助语音模型训练。Meta 去年展示的一个例子是他们的通用语音翻译器,实现了对没有正式书写体系的闽南语(福建话)进行语音到语音翻译。这类“无文字语言”对AI提出了特殊挑战:无法通过文本转写来辅助训练,只能直接依赖语音对语音的学习。类似地,即使对于有文字的语言,缺少双语平行数据(例如日语音频对应英文文本翻译)也让语音翻译模型无从下手。这种数据的不对称性意味着单靠传统的有监督学习(依赖标注数据)难以拓展到所有语言。
  • 现实应用的要求: 在实际应用中,多语言语音 AI 模型不仅要“准”,还要足够快且高效。想象一个实时翻译耳机,如果模型需要几秒甚至更长时间才能处理一句话,那对话就变得支离破碎。而多语言模型通常体型庞大,推理速度较慢,如何优化速度以满足实时性是个挑战。另外,模型需具备自动语言识别能力:当用户开口时,系统应能自动判断他使用的语言并切换对应模型或策略,否则用户必须预先手动设置语言,体验会大打折扣。然而语言自动识别在多语言背景下也容易出错(比如分不清西班牙语和加泰罗尼亚语),一旦识别错误,后续处理都会偏离轨道。

总的来说,实现一个真正通用、多语言的语音 AI 是一个复杂的系统工程。我们需要克服数据稀缺、模型训练、性能优化等多方面的难题。这些挑战促使研究人员和工程师去探索新的方法,比如利用自监督学习减少对人工标注的依赖、通过模型架构创新提升多语言学习效率、以及借助开源合作来汇聚全球的力量和数据资源。下面,我们将介绍在应对这些挑战过程中出现的关键技术突破。

 

 

技术突破与发展

面对上述挑战,近年多语言语音 AI 领域出现了诸多技术突破,为我们逐步破解难题、迈向多语言时代提供了支撑。本节将从数据、模型和跨语言翻译三个角度,介绍推动多语言语音 AI 发展的重要进展。

自监督学习与海量数据

自监督学习(Self-Supervised Learning) 是近年突破数据瓶颈的关键技术之一。传统监督学习要求每段语音都有对应的文本标签,而自监督方法则让模型在无标注的纯音频数据上学习,从中自发地摸索语言结构和特征。Facebook(现 Meta)开发的 wav2vec 2.0 算法是这一领域的代表。它通过让模型猜测被掩盖的音频片段内容,来训练模型提取有用的语音表征。这样的预训练不需要人工转写数据,从而可以利用互联网上丰富的音频资料。

Meta 的 Massively Multilingual Speech (MMS) 项目充分展示了自监督学习的威力。他们构建了一个涵盖 1400 多种语言的音频集合,主要来源竟是《圣经》的朗读音频——因为《圣经》被翻译成上千种语言且对应的录音容易找到。虽然每种语言平均只有约 32 小时的有声读物数据(远不足以训练传统模型),但研究团队先用wav2vec2.0在50万小时的未标注语音(覆盖1400种语言)上进行自监督预训练,然后再少量带标签数据上微调。结果表明,自监督预训练极大提升了低资源语言的识别效果。在标准测试集上,这个多语言模型对一些语言的错误率只有 OpenAI 的 Whisper 模型的一半。由此可见,自监督学习让模型能够“听”遍海量未标注的声音,从中学到不同语言的普遍规律,然后在很少的标注数据下也能取得出色表现。这一技术突破直接回应了数据匮乏的挑战——特别是为那些缺少人工转录的小语种提供了一条可行路径。

Google 也采用了类似理念开发其 通用语音模型 (Universal Speech Model, USM)。Google 的研究人员报告,他们使用 12 万小时的语音数据进行自监督预训练,并辅以 280 亿句跨 300 多种语言的文本做第二阶段训练,最终使模型能够胜任 100 多种语言的语音识别。USM 模型能够识别包括阿姆哈拉语、宿务语、阿萨姆语等在内的许多低资源语言。更重要的是,由于预训练大量使用了无标注音频,他们证明只需很少的有标注数据就能让模型掌握一种新语言,大幅降低了拓展语言覆盖面的难度。总而言之,自监督学习结合海量数据,为多语言语音 AI 奠定了地基,使模型有机会吸收千变万化的语音特征,突破对人工标注的依赖。

开源数据集与模型

开源运动在多语言语音 AI 的推进中扮演了重要角色。无论是数据还是模型,开源能够集众人之智,打破少数巨头垄断,从而加速技术演进。近年来,一系列大型开源语音数据集的发布,大大缓解了某些语言的数据稀缺问题。

其中最著名的莫过于 Mozilla 发起的 Common Voice 项目。Common Voice 通过全民众包的方式收集全世界各语言的语音。目前该数据集已涵盖了 134 种语言,汇集了将近 33,500 小时的语音记录,贡献者超过 35 万人。参与者可以录制自己朗读的句子并上传,也可以帮忙验证他人的录音质量。这样累积起来的数据对于研究人员特别是学生、非营利组织而言非常宝贵,因为它免费且开源。然而,需要指出的是,尽管 Common Voice 声量不小,但平均每种语言的数据量仍然不大,不少语种只有几十小时到几百小时的数据。因此,Common Voice 更像是一种开源协作范例,为行业树立了开放数据的风气。除此之外,非营利组织 MLCommons 也发布过多语种关键词数据集 MSWC(50种语言、2,340万条关键词样本)等用于特定任务的开源语音数据。

专业机构和企业也开始开放自有数据。今年 8 月,NVIDIA 宣布推出 Granary 开源多语言语音数据集,规模达到惊人的 100 万小时,涵盖欧盟24种官方语言以及俄语和乌克兰语。Granary 是首个同时提供如此大规模语音转录和翻译数据的开源项目。NVIDIA 将其用于训练自家的多语言语音识别模型 Canary,并取得了高精度成果。Granary 的发布标志着业界在开放大数据方面更进一步——从过去零散的小数据集跃升到百万小时级别,为后来的研究铺平道路。

模型开源方面,开放源码的多语言模型极大地推动了研究和应用。例如,OpenAI 在 2022 年将其开发的 Whisper 模型开源。Whisper 是一个在 68 万小时多语种数据上训练的语音识别系统。开源后,开发者可以免费使用各种尺寸的 Whisper 模型进行语音转写和翻译,不少开源项目(如字幕自动生成工具、语言学习应用等)都迅速集成了 Whisper。这使得多语言语音技术的门槛大为降低:以前一个小团队要实现多语种识别需要训练复杂模型,现在调用现成的 Whisper 模型即可。而开源社区也对 Whisper 进行了大量分析和改进,比如有研究对 Whisper 在低资源语言上的微调方法进行了探索。

同样,Meta 在发布 MMS 项目时不仅公开了训练代码,还开源了训练用的数据集以及模型权重供研究者使用。虽然由于版权原因,他们对部分资源设置了非商业许可(CC BY-NC),但对于学术界来说已经十分有价值。这种开源举措的意义在于:研究者可以复现 Meta 的实验、验证结果甚至继续改进模型,而开发者也能将这些成果应用到自己的产品中。开源带来的透明度和可及性,加速了多语言语音 AI 的发展,让全球更多人参与到这个领域的创新之中。

跨语言翻译和多模态模型

多语言语音 AI 的最终目标之一,是实现不同语言之间的顺畅交流。这就需要跨语言的语音翻译能力,以及能够处理语音和文本多种模态的统一模型。

传统的机器翻译多针对文本,而语音翻译一般拆解为“语音识别 -> 文本翻译 -> 语音合成”三个步骤。然而,这种串联方式效率不高,而且中间转换为文字可能丢失语气等信息。为此,Meta 在 2023 年推出了SeamlessM4T,这是一个多模态、多任务的统一翻译模型。SeamlessM4T 可以一次性完成从语音到语音、语音到文本、文本到文本、文本到语音的翻译,而无需将任务拆解给不同模块。具体来说,它支持将近 100 种语言的语音识别和语音->文本翻译,以及语音->语音翻译支持近100种输入语言和35种输出语言。这样的能力前所未有地接近科幻中的“通用翻译器”。更可贵的是,SeamlessM4T 不仅支持高资源语言之间的翻译,对于低资源语言的翻译质量也有显著提升。例如,以往机器翻译对非洲一些小语种表现很差,但 SeamlessM4T 通过多语种联合训练,实现了对这些语言更好的翻译效果。这说明统一的多语言多模态模型有潜力打破“长尾语言”在翻译领域的瓶颈。

技术上,SeamlessM4T 采用了一个多任务的序列到序列架构,内部包含用于语音和文本的编码器,以及既能输出文本也能输出语音单元的解码器。模型先将输入语音或文本编码成语言无关的语义表示,然后根据需要解码成目标语言的文本或生成目标语言的语音声码器参数。值得一提的是,SeamlessM4T 不需要单独的语言识别模型就能确定输入语音的语言。也就是说,用户无需提前告诉系统“这是法语”或“那是日语”,模型自己就能听出来,简化了使用流程。在评测中,SeamlessM4T 在近100种语言的各种翻译任务上达到了当前最先进水平,同时在嘈杂环境和不同说话人上鲁棒性更强。Meta 将该模型和构建所用的 265,000 小时多语对齐语料(称为SeamlessAlign)一并开放给研究社区,并表示这将成为构建通用翻译系统的重要基石。

除了 Meta 的努力,Google 也在探索端到端语音翻译和直接语音对话的技术。例如,Google Research 此前演示过将英语语音直接翻译成西班牙语语音的系统,中间不经过文字转换。他们还在研究让单一模型同时掌握ASR、翻译、TTS等能力,从而实现更高效的多语言对话。尽管目前这些研究大多处于早期阶段,但随着多语言语音基础模型的性能提升,我们有理由相信真正的即时跨语言对话将在不久的将来实现。届时,人们或许只需佩戴一个AI驱动的翻译设备,就能像《银河系漫游指南》中的“巴别鱼”那样,与任何语言的人自在交流。

综上所述,从数据获取的新范式(自监督)到模型开源共享,再到统一的跨语言翻译模型,多语言语音 AI 正在攻克一个又一个难题。这些技术突破相互配合,正在将我们推向一个前所未有的多语言智能时代。下面,我们将回顾几个近期具有代表性的里程碑案例,加深对这些进展的理解。

 

 

近期里程碑案例

OpenAI Whisper:开源多语种识别模型

OpenAI 的 Whisper 模型是多语言语音识别领域的一个标志性里程碑。它于 2022 年 9 月开源发布,一经推出便引起广泛关注。Whisper 的特别之处在于其训练数据规模和多任务设计——它在来自网络的 68 万小时多语言音频上训练而成,涵盖了 97 种语言的语音识别,并能将这些语言的语音直接翻译成英文文本。OpenAI 声称,正是因为训练数据多语言且多样化,Whisper 对各种口音、背景噪音和专业术语都有更强的鲁棒性。这使它相较许多先前的语音模型在真实场景下表现更佳。

Whisper 的开源具有里程碑意义——开发者可以自由下载不同大小的模型(从极小模型到高精度的大模型)并将其应用到自己的项目中。自开源以来,Whisper 已被广泛用于自动字幕生成、语音助手、多语言语音转写工具等领域。比如,有开发者将 Whisper 集成到视频会议软件中,实现了实时多语种字幕;语言学习者也利用 Whisper 来转录外语音频,从而生成学习材料。然而,Whisper 也有其局限。OpenAI 在发布时就提醒,因训练数据中掺杂了一些不精确的自动转录,Whisper 有时会在识别结果中加入音频中并未实际出现的词语。这被称为“幻听”或插入错误。此外,Whisper 对所有语言的识别效果并不均等:对于训练数据中相对弱势的语言,错误率要明显高于高资源语言。这体现了数据分布不平衡带来的偏差。不过,总的来说,Whisper 作为一个开源模型,为多语言语音识别提供了一个强大而便利的工具,被誉为“开箱即用”的多语种ASR解决方案。

值得关注的是,Whisper 的成功激发了业界对于大规模多语言模型的信心。它证明了通过大量抓取的弱标注数据(如带有自动字幕的音频)也能训练出相当出色的语音模型。甚至有研究团队以 Whisper 为基础,对一些低资源语言进行了微调,从而显著提高这些语言的识别准确率。可见,Whisper 不仅本身实用,它的出现还推动了多语言语音研究的繁荣。

Meta MMS:覆盖 1100 种语言的语音模型

Meta(Facebook)的 Massively Multilingual Speech (MMS) 项目是多语言语音技术的另一项突破性成果。该项目于 2023 年公布,目标直指长期无人问津的“长尾”语言。MMS 团队通过创新的方法,让语音识别和合成的语言数量从过去的两位数跃升到了四位数级别——覆盖了超过 1100 种语言。这是前所未有的壮举。

MMS 项目成功的关键在于巧妙地利用了《圣经》朗读数据和自监督学习相结合。正如前文所述,研究者搜集了 1100 多种语言的《新约圣经》朗读音频,每种语言平均约 32 小时。单看这个数量,其实远不足以训练一个传统的语音识别模型,但 MMS 的策略是先用这些有声读物进行初步的有监督训练,然后借助 wav2vec 2.0 模型在更多未对齐的多语音频上做自监督预训练,最后再将两者结合。在自监督阶段,团队共利用了约 50 万小时、涵盖 1400 余种语言的音频来训练1B参数规模的模型。如此一来,即使许多语言只有少量标注数据,模型也已经从海量无标注数据中学到了足够多的跨语言语音特征。

结果是令人惊喜的:MMS 模型显著缩小了与当前最先进模型的差距。在测试中,与 OpenAI Whisper 模型相比,MMS 在很多语言上的单词错误率仅为 Whisper 的一半左右。考虑到 Whisper 已经是非常强大的模型,这说明 MMS 在多语言学习上取得了巨大成功。此外,MMS 模型还能执行语言识别和语音合成(TTS)任务——研究者构建了一个跨1100种语言的TTS系统,能够将文字转换为对应语言的语音。尽管合成语音的自然度因训练数据所限可能不及主流商用TTS,但这个结果证明在极低资源条件下,通过共享跨语言信息,机器也能学会“说”人类的大多数语言。这对于保护和推广濒危语言有着深远意义。

更令人钦佩的是,Meta 选择将 MMS 项目产出开源。他们开放了模型的代码和部分模型权重,供社区研究和试用。同时,为鼓励后续研究,Meta 还公布了 MMS 用到的数据集细节和自监督训练方法,希望更多人能基于他们的工作继续扩大语言覆盖或提升性能。MMS 项目证明了即使是传统上被忽视的语言,通过创新的方法和庞大的计算,也有机会纳入AI的版图中。可以说,MMS 为“让每一种语言都在技术时代拥有发言权”迈出了关键一步。

Meta SeamlessM4T:通用翻译模型

SeamlessM4T 是 Meta 在多语言多模态翻译领域的先锋成果。发布于 2023 年 8 月的 SeamlessM4T,实现了语音和文本翻译的一体化,被誉为向科幻中的“通用翻译机”迈进的重要一步。

传统的翻译系统往往针对单一模式:要么输入文本翻译成文本,要么语音转写成文本后再翻译。而 SeamlessM4T 的雄心在于统一上述所有任务。它的模型能够执行语音识别(ASR)、语音到文本翻译、语音到语音翻译、文本到文本翻译以及文本到语音合成等多项功能。目前,SeamlessM4T 支持将近 100 种语言的语音识别和文本翻译,以及语音到语音翻译支持近100种输入语言和35种输出语言。例如,一段中文语音,它可以直接翻译成英语语音输出;一段法语语音,也可以识别后翻译成德语文本。所有这些过程均由同一个模型架构完成,无需不同任务切换模型,真正做到了“无缝”衔接。

SeamlessM4T 采用了Meta改进的 UnitY 多任务序列建模架构。它包含语音编码器、文本编码器,以及结合文本解码与语音解码的模块。训练时,通过多任务学习让模型同时掌握ASR、翻译和TTS技能。值得强调的是,SeamlessM4T 在训练中加入了语言自动识别能力,因此在推断阶段模型可以不借助额外工具自行判断输入语音属于何种语言。这对用户体验非常重要——意味着用户讲话时不用手动选择语言,AI会自动听出,这是以前许多多语言系统所欠缺的功能。

在性能评估中,SeamlessM4T 表现出极高的翻译质量和鲁棒性。Meta 引入了一个专门的翻译评测指标 BLASER 2.0,结果显示 SeamlessM4T 对近100种语言的翻译达到了当前最佳水平。尤其难能可贵的是,对于低资源和中等资源语言,SeamlessM4T 的翻译效果相比此前的模型有显著提升。这意味着即使训练数据较少的语言,也能从统一模型中受益。此外,由于是端到端建模,SeamlessM4T 在存在背景噪音、多说话人变换的实际场景下,其稳健性超过传统流水线式系统。可以想见,在嘈杂的街头或多人对话环境中,它也能较好地完成翻译,不会轻易因环境变化而失败。

Meta 将 SeamlessM4T 以非商业开源的形式发布(研究人员可免费使用,但禁止商业用途)。同时开放的还有支撑该模型的庞大多语种对齐数据集(SeamlessAlign,包含超过26.5万小时的语音-文本对齐数据)。这些开放举措表明 Meta 致力于推动学术界和开发者共同朝“通用翻译”目标前进。展望未来,SeamlessM4T 的出现只是开始——基于其架构理念,我们或许能期待覆盖更多语言、更高音质语音输出的下一代通用翻译模型问世。可以说,SeamlessM4T 为跨语言、跨模态的对话式 AI 打下了重要基础。

Google USM:迈向千种语言

Google 在多语言语音方面的宏伟计划体现在其 1,000 Languages Initiative(千种语言计划)和随之推进的 通用语音模型 (Universal Speech Model, USM) 上。Google 的愿景是构建一个支持地球上1000种最常用语言的 AI 模型,以服务数十亿多语言用户。这是一个长期目标,而 USM 则是朝此方向迈出的关键一步。

USM 模型于 2023 年发表,展示了 Google 在多语言ASR上的最新进展。USM 是一个含 20亿参数 的模型家族,训练数据规模极为庞大:使用了1200万小时的语音数据和 280亿句文本数据作为训练素材。这可能是迄今为止训练数据量最大的语音识别模型之一。通过这种大规模训练,USM 能够执行英语、普通话等高资源语言的识别,也能处理阿姆哈拉语、宿务语、阿萨姆语、阿塞拜疆语等低资源语言的语音转写。USM 模型已被用于改进 YouTube 视频的自动字幕功能,使更多语言的视频内容能自动生成准确的字幕。

在技术方法上,USM 与 Meta MMS 类似,也采用了大规模自监督预训练 + 少量监督微调的范式。他们先让模型在上千万人小时的音频上学习通用语音表示,然后针对超过100种语言的转录数据进行有监督训练以提升各语言的精度。这种两阶段训练证明非常有效:Google 报告说对一些原本缺乏数据的语言,只要很少量的新数据也能快速提高模型表现。此外,USM 模型使用了 Google 最新的语音模型架构 Conformer(卷积增强Transformer),在效率和精度上都表现出色。

虽然 Google 并未将 USM 全部开源,但他们发布了关于 USM 的研究论文,并在学术会议上分享了部分模型和训练方法。Google 还宣称 USM 是实现他们千种语言目标的“第一步”,未来将进一步拓展语言覆盖、改进对方言的支持。可以预见,在 Google 强大基础设施的支持下,USM 将不断演进,也许不久的将来我们会看到一个在千种语言上都能进行语音识别和翻译的 Google AI 模型。对于行业来说,Google 的加入使多语言语音 AI 的竞争与创新更趋激烈,也将惠及更多用户。

 

结语

多语言语音 AI 时代的曙光已经闪现。通过技术突破和开源协作,我们正在将语言多样性的梦想变为现实。在这个过程中,我们见证了人工智能从只服务少数人群,逐渐转变为一个面向全人类、尊重多元文化的技术力量。从 OpenAI Whisper 到 Meta 的千语项目,再到 Google 的千语计划和各类开源数据集,所有这些努力都指向同一个愿景:让每个人都能用自己的语言与智能机器对话,无需再受制于语言障碍。

展望未来,迈向更包容的对话式人工智能还有许多工作要做。我们需要覆盖更多的语言,包括那些目前尚未数字化的方言土语;我们需要让模型理解语言背后的文化语境,避免翻译或识别中的冒犯和误解;我们还需要在保证性能的同时,提高模型的运行效率,让多语言AI真正随手可得。然而可以肯定的是,方向已然明确,路径正在铺就。多语言语音 AI 将继续融入我们的日常生活,从教育、医疗到娱乐、社交,无处不在地发挥作用,悄然改变我们与技术以及彼此交流的方式。

当语言不再成为人与人、人与机器之间的高墙,我们将迎来一个真正地球村式的对话世界。不同语言的思想可以自由碰撞交流,每一种声音都能被听见。多语言语音 AI 带来的不仅是技术进步,更是对人类多样性和平等性的拥抱。迈向更包容的对话式人工智能,让我们共同期待并参与这个历史进程。