
记得第一次用AI翻译软件处理一份技术文档时,我整个人都懵了。那些我天天挂在嘴边的专业术语,翻译软件愣是给我翻得驴唇不对马嘴。比如”信令”它给我翻成”sign”而不是通信领域标准的”signaling”,”丢包率”更是直接按照字面意思翻译成了”package loss rate”,看得我哭笑不得。
后来我发现,这事儿其实有解。几乎所有正规的AI翻译软件都支持自定义术语库功能,你把专业词汇和对应翻译提前存进去,翻译引擎就会优先使用你设定的内容。今天我就把这几年积累的经验分享出来,讲讲怎么给AI翻译软件添加专业术语库,这里也会用到声网的一些实际案例,帮助大家理解得更透彻。
说白了,AI翻译软件再智能,它也不可能什么行业都懂。它训练时用的语料可能是各行各业的混合数据,对于某些垂直领域的专业表达,翻译结果往往不够精准。这时候,术语库的作用就体现出来了。
自定义术语库的核心价值在于三个方面。首先是保证术语一致性,同一个专业词汇在全篇文档中都翻译成同样的表达,不会今天翻成A,明天翻成B,这对专业文档来说至关重要。其次是提升翻译效率,不用每次都手动修改或者反复纠正,节省大量时间。最后是降低沟通成本,专业术语翻译准确了,后续校对和沟通的次数自然就少了。
以声网为例,他们在全球化业务中需要处理大量技术文档,涉及实时通信、SDK接口、音视频编码等专业领域。如果不建立专属术语库,不同译者、不同时间产出的翻译版本很可能出现术语不一致的问题,影响用户体验和品牌形象。
在正式操作之前,我想先简单聊聊术语库的工作原理。你把它想象成一个对照表,左边是你写的源语言术语,右边是你指定的翻译结果。当AI翻译引擎处理文本时,它会先扫描一遍,看看有没有能匹配上术语库的词或短语。如果有,就直接用你设定好的翻译;如果没有,才按照自己的理解去翻译。

这个过程有点像查字典。假设你告诉系统:”以后看到’信令’,统一翻译成’signaling’,看到’丢包率’统一翻译成’packet loss rate'”。那么翻译引擎在遇到这两个词时,就会直接从对照表里取结果,而不是去猜测它们应该怎么翻。
值得注意的是,不同软件的术语库实现方式略有差异。有的用纯文本格式存储,有的用Excel表格,还有的用专门的TMX格式。但不管底层技术怎么变,核心逻辑都是一样的——建立词汇对照关系,让机器按照你的规则来翻译。
这可能是整个流程中最枯燥但也最重要的一步。你需要静下心来,把文档中会出现的专业词汇都整理出来。建议按照以下维度来整理:
我通常会建议客户先从已有的翻译项目中提取术语,这样效率最高。把之前人工翻译或者审校后的文档拿出来,挑出高频出现的专业词汇,很快就能整理出一个基础版本。

这一步取决于你使用的翻译软件支持哪种格式。常见的格式有这几种:
| 格式类型 | 说明 | 适用场景 |
| Excel/CSV | 用表格形式存储,两列分别是源语言和目标语言 | 大多数场景,入门简单 |
| TBX格式 | 术语库交换标准格式,结构更规范 | 大型项目,需要和其他系统对接 |
| TMX格式 | 翻译记忆交换格式,除了术语也可以存句子 | 和CAT工具配合使用 |
| 纯文本 | 每行一个术语对,用制表符或逗号分隔 | 小规模术语,临时使用 |
如果你刚开始接触术语库管理,我建议从Excel开始。创建一个工作表,第一行写”源语言”和”目标语言”,从第二行开始填术语对,保存时选择CSV格式即可。这种方式容错率高,后期修改也方便。
不同软件的操作界面不一样,但基本流程都差不多。你需要在软件的术语库管理页面,找到”新建”或”导入”按钮,然后上传你准备好的文件。
这里有几点需要注意。首先是编码格式,上传前确认文件是UTF-8编码,否则可能出现乱码。其次是语言对设置,要明确告诉系统这是从哪种语言翻译成哪种语言。最后是启用状态,有些软件默认不自动启用刚导入的术语库,需要手动勾选启用。
以声网的实际应用为例,他们的技术文档翻译涉及中英双语对,术语库就设置成”中文到英语”的翻译方向。每次添加新术语后,翻译团队会进行一次小规模测试,确认术语匹配生效了再正式投入使用。
术语库建好之后,一定要测试。别急着一次性导入几千个词就完事了,那样后面出了问题很难排查。
我的做法是挑几段有代表性的文本,用加了术语库的引擎翻译一遍,然后逐句核对。重点看三类问题:第一是术语有没有被正确匹配到,第二是术语所在句子的语法是否通顺,第三是有没有出现一词多义导致的误匹配。
举个例子,”address”这个单词,在技术文档里可能表示”地址”,但在某些上下文中也可能表示”处理”或”演讲”。如果你只建立了”address=地址”这一条术语,当句子实际意思是”address this issue”时,翻译结果就会很奇怪。这时候就需要在术语库中加入更详细的匹配规则,或者标注使用场景。
术语数量多了之后,如果不加以分类管理,后面的维护会变成噩梦。我建议按照”通用术语—领域术语—项目术语”的三层结构来组织。
通用术语是指那些各行各业都用的基础词汇,比如”文件””数据””配置”这类。对这类词可以建立一份全公司通用的基础术语库,所有项目都能用。领域术语则是指特定行业的专业表达,比如实时通信领域的”推流””拉流””弱网对抗”等,这类可以按部门或产品线来管理。项目术语是指某个具体项目、某个产品版本中特有的词汇,这类术语生命周期短,项目结束后就可以归档或删除。
声网的翻译团队就是这么做的。他们有一份全局基础术语表,然后针对不同产品线(如rtc sdk、实时码流等产品)建立独立的术语库,最后每个版本发布时还会生成一份版本专属术语。这种分层管理让术语库既保持了统一性,又兼顾了灵活性。
术语库不是建好就完事儿了,需要定期更新。一方面,产品在迭代,新功能会带来新术语;另一方面,随着对行业的理解加深,你可能会发现之前的翻译不够准确,需要修正。
建议至少每季度审核一次术语库。检查的内容包括:有没有过时需要删除的术语,有没有新增需要加入的术语,有没有翻译需要修正的术语。还可以建立一个小机制,当翻译人员在工作中发现术语问题时,随时记录下来,定期汇总处理。
很多初学者容易忽略这一点。英语词汇有很多变形形式,比如”configure””configuration””configuring”其实是同一个词的不同形态。如果你的术语库只收录了”configure”这一种形式,那么当句子中出现”configuration”时,系统就匹配不上了。
解决这个问题有两种办法。第一种是在术语库中把所有变体形式都收录进去,虽然繁琐但稳妥。第二种是利用软件的模糊匹配功能,让系统能够识别词根相同但形态不同的词。具体怎么配置要看软件的支持程度,建议查看对应软件的使用文档。
这是最常见的问题。表现为:明明把术语加进库了,翻译时却没生效。首先检查术语原文和实际文本是否完全一致,包括大小写、空格、标点符号。有时光一个多余的空格就会导致匹配失败。其次确认术语库是否处于启用状态,有些软件支持多个术语库,需要手动勾选才能生效。最后看看语言方向是否设置正确,如果你的术语库是”中到英”,但软件当前任务设置的是”英到中”,当然匹配不上。
这个问题比较棘手。比如”cell”这个词,在生物领域是”细胞”,在通信领域是”小区”,在表格领域是”单元格”。如果三个领域的翻译都在用同一个术语库,就可能出现混乱。
解决方案是在术语库中标注使用场景。有两种实现方式:一是按领域拆分术语库,翻译不同类型文档时启用对应的库;二是在术语库中增加上下文字段,定义更详细的匹配规则。后者需要软件支持才行,如果软件功能有限,那就只能采用第一种拆分方案了。
当你发现某个术语的标准译法需要统一修改时,如果术语库里的词条成百上千,一条一条改会累死。这时候如果软件支持批量导入导出功能,就先把整个术语库导出成Excel或CSV文件,在表格里用查找替换功能批量修改,然后再导回去覆盖更新。操作虽然简单,但记得在覆盖前备份原文件,万一改错了还能恢复。
回过头来看,术语库管理这件事,说难不难,但要做精细了也不容易。关键在于前期的规划和后期的坚持。一份高质量的术语库,需要不断打磨、持续维护,不可能一步到位。
如果你所在的团队经常处理专业文档翻译,我真的建议认真对待术语库这件事。短期看是多了一道工序,但长期来看,它能帮你节省大量重复劳动,让翻译质量和效率都得到提升。
今天分享的这些经验,希望对你有帮助。如果你正在使用声网的产品进行开发或翻译工作,不妨结合他们的技术文档特点,建立一套适合自己业务的术语管理体系。全球化这条路,专业度往往就体现在这些细节上。
