Google I/O 2026明天(5月19日)开幕。过去几年,I/O已经不太像一个发布会,更像是Google每年一次对行业说“我们接下来押哪里”的公开表态。今年的信号,在开幕前就已经很清楚了。

一. 最值得关注的硬件:Android XR眼镜
这次I/O最受期待的硬件不是手机,是眼镜。Google已官方确认,两款Android XR智能眼镜将在I/O上亮相。一款是无屏版,外观接近普通墨镜,内置摄像头、麦克风、扬声器,通过语音直接调用Gemini;另一款更有野心,镜片内置显示屏,实时翻译字幕、导航路线这些信息只有佩戴者自己能看到。合作方包括Warby Parker和Gentle Monster,泄露价格在$379至$499之间。
从语音AI的角度看,这个产品形态很有意思。它把“对话”从手机屏幕剥离出来,变成一种始终在线的环境交互。用户不需要拿出手机、不需要触摸屏幕,抬手就能接入Gemini的实时翻译和语音问答。如果这个形态被市场验证,对语音交互的需求只会进一步放大,而不是收窄。
相比之下,Meta Ray-Ban智能眼镜已经在市场上跑了一段时间,Google的入场是正面竞争。双方路线的差异很明显:Meta走的是开放生态,Google走的是深度整合自家AI服务。两者都在验证同一个判断——屏幕之外的语音交互市场,值得重注。
二. 已经落地的语音能力:Google Meet实时语音翻译
去年I/O 2025,Google发布了Google Meet实时语音翻译功能,由Google DeepMind的AudioLM模型驱动,在通话中实时把说话人的声音翻译成另一种语言,保留原声的音调、节奏和情感特征。早期只支持英语和西班牙语,2026年初正式上线,现已扩展至意大利语、葡萄牙语、德语和法语。
这个功能的技术路径值得关注。过去的语音翻译是三段式管道:先转录成文字、再翻译文字、再合成语音,延迟通常在10-20秒,根本没法支撑正常对话。Google Meet的方案绕过了文字中间层,直接做音频到音频的翻译,实时性才成为可能。
目前这个功能对用户来说还有一道门槛——需要订阅Google AI Pro或AI Ultra才能使用。但它已经说明了一件事:实时跨语言语音交互从技术可行走到了实际上线,不再是演示。
三. Android层面:语音听写的体验改善
Google在5月12日的Android Show上发布了Gboard的Rambler模式。逻辑很简单:语音听写出来的内容往往是口语化的碎片——“然后那个…嗯…我觉得应该是…”,Rambler会在听写完成后自动把这些内容整理成通顺的书面表达。
这不是什么大功能,但它指向一个方向:语音作为输入方式的门槛在持续降低。口语习惯和书面表达之间的gap一直是语音输入普及的隐性障碍,Rambler选择在输出端处理这个问题,而不是要求用户改变说话习惯。
四. 还没确认的部分
新Gemini模型几乎是板上钉钉,但版本号和能力细节Google还没公布。目前业界的说法是新模型大约在GPT-5.5水平,但这种比较很难有意义——不同的评测标准会给出完全不同的结论。明天主舞台上的实际演示会比任何提前的能力描述更有参考价值。
Gemini Live的语音交互能力是否有实质升级,现在也只有预热信号,没有具体参数。这是明天开幕后最值得盯的内容之一。
结语
把几件事放在一起看:Android XR眼镜把语音交互从手机解放出来、Google Meet实时翻译让跨语言对话成为默认能力、Gboard Rambler降低语音输入门槛——Google在系统层面、应用层面、硬件层面同步推进语音AI的基础设施,方向是让语音交互尽量“无摩擦”。
这和去年OpenAI宣布整合音频团队、准备2027年音频优先设备的方向在重叠。两家公司走的路径不同——Google靠已有的生态系统逐层渗透,OpenAI靠新设备和新模型创造入口——但都在押同一件事:语音会成为人和AI交互的主要方式之一。
明天发布后,我们会跟进实际内容的解读。