告别“翻译腔”：Gemini 3.5 实时语音翻译模型正式发布

2026年6月10日 09:466 阅读

跨语言沟通正迎来一场技术范式的重塑。近日，谷歌发布了全新的音频模型 Gemini3.5Live Translate，旨在通过先进的实时语音到语音（Speech-to-Speech）技术，打破语言沟通的地理与文化藩篱。该模型现已集成至 Google AI Studio、Google 翻译以及 Google Meet 等核心产品矩阵中。 Gemini3.5Liv

跨语言沟通正迎来一场技术范式的重塑。近日，谷歌发布了全新的音频模型 Gemini3.5Live Translate，旨在通过先进的实时语音到语音（Speech-to-Speech）技术，打破语言沟通的地理与文化藩篱。该模型现已集成至 Google AI Studio、Google 翻译以及 Google Meet 等核心产品矩阵中。

Gemini3.5Live Translate 的核心突破在于对“自然度”的极致追求。与传统翻译工具那种“说完一句、翻译一句”的轮流式滞后体验不同，该模型能够实现近乎实时的同传效果。它在持续生成译文的同时，能够精准捕捉并还原说话人的原始语调、节奏和音高。通过巧妙平衡“等待更多上下文以提升准确性”与“实时输出以保持同步”之间的关系，Gemini3.5将沟通延时压缩至仅有几秒，大幅减少了对话中的尴尬停顿。

在应用场景上，谷歌赋予了该模型极高的灵活性。它支持超过70种语言的自动识别与互译，且无需用户手动进行繁琐的语言配置。即便是在嘈杂或复杂的声学环境中，该模型依然能够保持稳定的表现。对于开发者，谷歌开放了 Gemini Live API，便于将语音同传能力嵌入多语种电话、在线教育及直播解说等多元化场景中。目前，出行平台 Grab 已率先试用，在处理每月千万量级的司乘实时沟通中，验证了模型在翻译质量与低延迟上的出色表现。

针对企业协作，Gemini3.5Live Translate 即将全面重构 Google Meet 的翻译体验。未来，会议支持的语言对组合将从有限的几种扩展至2000多种，彻底告别“仅限英语枢纽”的单一模式。此外，面向移动端用户，谷歌翻译应用在支持耳机实时翻译的基础上，还新增了“听筒聆听模式”，让用户在不便佩戴耳机的公共场合，也能通过手机听筒低调、私密地获取译文。

在追求技术高效的同时，谷歌也未忽视安全与合规。所有由 Gemini 系列模型生成的音频内容均嵌入了 SynthID 数字水印，能够以不可感知的方式标识 AI 生成属性，从而有效防范信息误导与滥用风险。随着 Gemini3.5Live Translate 的逐步铺开，跨越语言障碍的实时沟通，正在从科幻构想变为触手可及的现实。