gemini 3.1 TTS全部30 种语音实测
我测试了Gemini 3.1 Flash TTS的全部 30 种预置语音涵盖英语、中文、西班牙语和日语。我测试了从[whispers]到[laughs nervously]再到[slowly, with gravity]的各种音频标签。我还测试了原生多说话人对话系统它能让两个 AI 语音在没有后期处理的情况下进行自然对话。以下是我的发现——以及这 30 种语音中你应该为每种使用场景选择哪一种。1、Gemini 3.1 Flash TTS 到底是什么Gemini 3.1 Flash TTS 是 Google DeepMind 的专用文本转语音模型与你用于文本生成的 Gemini 3.1 Pro 和 Flash 模型是分开的。它是一个专用语音引擎能将文本转换为高保真音频同时接受两种创意指导自然语言提示词描述场景、说话者、情绪和内联音频标签直接嵌入文本中的精细控制。该模型于 2026 年 4 月 15 日发布目前可通过 Gemini API、Google AI Studio有免费额度、Vertex AI 和 Google Vids 使用。模型 ID 为gemini-3.1-flash-tts-preview。关键参数一览30 种预置语音、70 语言及地区变体、原生多说话人对话、200 音频标签、所有生成音频带有 SynthID 水印定价为每百万输入 token $1.00每百万音频输出 token $20.00批处理模式 $0.50/$10.00——五折优惠。Artificial Analysis 将 Gemini 3.1 Flash TTS 放在了最具吸引力象限——高质量语音输出与低单次请求成本的交汇区。对于大规模部署的场景这个定位比原始 Elo 排名更重要。2、200 音频标签这才是真正的重头戏每个 TTS 服务都让你选择语音。有些让你调节速度和音调。Gemini 3.1 Flash TTS 做了根本不同的事情它让你直接在文本中嵌入舞台指令模型会像演员阅读剧本一样来解读它们。这是我测试中的一个真实例子[neutral] Hello. This is an automated message from City Airways. [short pause] Your flight, [slow] C A 4 2 7, has been updated. [positive] It is now departing at 8:45 AM from Gate B 12. [fast] Please proceed to the gate immediately, as boarding will begin in five minutes.这个单一的提示词生成的音频在六句话中变换了四次语调、节奏和能量。航班号上的[slow]标签使其清晰地逐字发音这对于CA427需要毫不含糊的语音播报至关重要。紧急信息上的[fast]标签营造出与人类登机口工作人员相同的效果。我测试的标签包括情感[happy]、[sad]、[angry]、[amused]、[enthusiasm]、[curiosity]、[determination]节奏[slow]、[fast]、[short pause]、[long pause]风格[whispers]、[laughs]、[sigh]、[laughs nervously]、[slowly, with gravity]、[upbeat, fast pace]场景[neutral]、[positive]、[worried]关键洞察标签是自由格式的自然语言。你不限于固定的列表。我尝试了[speaking like a tired librarian at closing time]模型准确地呈现了那种效果——更安静、更慢、略带不耐烦的语调。Google 确认有超过 200 个已验证标签但模型能解读官方列表之外的有创意的自然语言标签。市场上没有其他 TTS API 提供这种级别的内联控制。ElevenLabs 在请求级别有风格滑块和稳定性控制——你不能在句子中间改变语调。OpenAI 的 TTS-4o 有基本的指令遵循能力但远达不到 200 精细标签的水平。这就是杀手级功能。3、我测试了全部 30 种语音以下是前 5 名Gemini 3.1 Flash TTS 附带 30 种预置语音每种都有独特的个性。名称取自神话和天文学Kore、Puck、Charon、Aoede、Zephyr、Fenrir、Enceladus、Achernar 等等。我用相同的三段测试脚本新闻广播、有声读物场景和客服电话对每种语音进行了测试评估了自然度、情感范围和标签响应性。语音 | 特点 | 最佳用途 ------------|-------------------------|--------------------------- Kore | 坚定、自信 | 商业、客服支持 Puck | 活泼、充满活力 | 营销、播客 Aoede | 轻松、自然 | 有声读物、旁白 Charon | 信息丰富、清晰 | 新闻、文档 Zephyr | 明亮、欢快 | 教育、儿童内容 Fenrir | 激昂、动态 | 游戏、娱乐 Enceladus | 平静、权威 | 企业、IVR 系统 Leda | 温暖、对话感 | 聊天机器人、陪伴 Sadachbia | 专业、克制 | 法律、医疗宣读 Vindemiatrix| 戏剧性、表现力强 | 讲故事、戏剧大多数生产场景我的首选Kore。它处理音频标签转换最自然——从[neutral]切换到[urgent]不会出现我在其他语音中注意到的语调突变。如果你在构建需要活力的产品Puck 是最好的个性语音。Aoede 是长篇旁白最安全的选择——它在 20 分钟以上的时间里不会像更具表现力的语音那样让听众感到疲劳。我测试中最弱的语音是 Gacrux即使使用表现力标签也很单调和 Umbriel在语言之间切换时节奏不一致。对于多语言场景坚持使用 Kore、Aoede 或 Charon——它们最优雅地处理了英语到中文的切换。4、多说话人对话原生且无缝大多数 TTS 系统需要你分别生成每个说话人的音频然后在后期制作中拼接音频文件。Gemini 3.1 Flash TTS 原生处理这个问题。你编写一个剧本风格的提示词带说话人标签模型在一次 API 调用中生成完整的多说话人音频文件。prompt TTS the following conversation between Joe and Jane: Joe: [enthusiastic] Hey, did you see the quarterly numbers? Jane: [surprised] Wait, we actually hit the target? Joe: [laughs] Not just hit it — crushed it by 12 percent. Jane: [impressed] OK, that calls for coffee. My treat.模型为每个说话人分配不同的语音在整个对话过程中保持一致的角色特征并独立处理每个说话人的音频标签转换。Jane 的[surprised]不会渗透到 Joe 的[laughs]中。这是开箱即用的生产级多说话人生成。对于开发者多说话人模式使用MultiSpeakerVoiceConfig对象你可以在其中为每个说话人名称分配特定的预置语音。你可以让 Joe 使用 Puck充满活力Jane 使用 Kore自信模型在整个对话中保持这些语音。5、真实成本对比以下是每月生成 10,000 小时音频的生产部署的竞争格局提供商 | 每分钟成本 | 每月1万小时 | Elo 分数 ------------------------|--------------|-----------------|---------- Gemini 3.1 Flash TTS | $0.018/分钟 | $10,800 | 1,211 OpenAI TTS-4o-mini | $0.015/分钟 | $9,000 | ~1,100 ElevenLabs v3 | $0.10/分钟 | $60,000 | ~1,280 Inworld AI TTS | 可变 | 自定义定价 | 1,236OpenAI 每分钟略便宜但缺乏音频标签和多说话人对话功能。ElevenLabs 拥有最高的原始质量Elo 1,280但在规模化时成本高 5-6 倍——而且成本差距在更高音量时会进一步拉大。Inworld AI 在一个基准测试中得分最高但专注于游戏领域需要自定义企业定价。Artificial Analysis 的定位说明了真正的情况Gemini 3.1 Flash TTS 位于最具吸引力象限——高质量、低成本。对于大多数生产部署为了 ElevenLabs 的边际 Elo 优势多付 5 倍的价格在商业上不合理尤其是 Google 提供了 ElevenLabs 在任何价格下都没有的 200 音频标签。Google 还为非实时工作负载如有声读物生成、播客预处理和训练数据创建提供 50% 的批处理折扣每百万 token $0.50/$10.00。按批处理价格生成 10,000 小时音频降至约$5,400/月。6、5 分钟快速上手安装 Google GenAI SDKpip install google-genai在 aistudio.google.com 获取免费 API 密钥然后生成你的第一段音频from google import genai from google.genai import types import wave client genai.Client(api_keyYOUR_GEMINI_API_KEY) response client.models.generate_content( modelgemini-3.1-flash-tts-preview, contents[enthusiastic] Hey developers! [short pause] Google just launched the most controllable text to speech model ever built. [whispers] And it costs less than two cents per minute., configtypes.GenerateContentConfig( response_modalities[AUDIO], speech_configtypes.SpeechConfig( voice_configtypes.VoiceConfig( prebuilt_voice_configtypes.PrebuiltVoiceConfig( voice_nameKore ) ) ) ) ) # Save the audio to a WAV file audio_data response.candidates[0].content.parts[0].inline_data.data with wave.open(output.wav, wb) as wf: wf.setnchannels(1) wf.setsampwidth(2) wf.setframerate(24000) wf.writeframes(audio_data) print(Audio saved to output.wav)要尝试多说话人对话将voice_config替换为multi_speaker_voice_configresponse client.models.generate_content( modelgemini-3.1-flash-tts-preview, contentsTTS the following conversation: Alex: [curious] So what makes this TTS model different? Sam: [confident] Two hundred audio tags. Inline. Mid-sentence. Alex: [impressed] That is actually wild., configtypes.GenerateContentConfig( response_modalities[AUDIO], speech_configtypes.SpeechConfig( multi_speaker_voice_configtypes.MultiSpeakerVoiceConfig( speaker_voice_configs[ types.SpeakerVoiceConfig( speakerAlex, voice_configtypes.VoiceConfig( prebuilt_voice_configtypes.PrebuiltVoiceConfig( voice_namePuck ) ) ), types.SpeakerVoiceConfig( speakerSam, voice_configtypes.VoiceConfig( prebuilt_voice_configtypes.PrebuiltVoiceConfig( voice_nameKore ) ) ) ] ) ) ) )就是这样。两次 API 调用。一次用于带音频标签的单说话人一次用于多说话人对话。无需拼接无需后期处理无需外部工具。7、你到底应该使用哪种语音客服支持 / IVRKore坚定、自信标签转换处理流畅或 Enceladus平静、权威有声读物 / 长篇旁白Aoede轻松、自然——在长时间会话中不会让听众疲劳播客 / 营销Puck活泼、充满活力或 Fenrir激昂、动态新闻 / 文档Charon信息丰富、清晰——“NPR 风格的语音”多语言部署Kore、Aoede 或 Charon在 70 支持语言中跨语言一致性最好游戏 / 娱乐Fenrir动态或 Vindemiatrix戏剧性、表现力强儿童内容 / 教育Zephyr明亮、欢快8、结束语Gemini 3.1 Flash TTS 不是纸面上质量最高的 TTS——ElevenLabs 以 69 分的 Elo 优势保持着这个桂冠。但通过盲测偏好测试衡量的质量排名并不能反映可控性而可控性才是将演示与生产部署区分开来的关键。200 音频标签系统是真正的范式转变。能够在文本中写入[whispers]或[laughs nervously]或[speaking like a tired librarian at closing time]并让模型正确解读这是其他任何商业 TTS 都不提供的功能。对于需要 AI 语音能够表演而不仅仅是说话的开发者来说这是第一个真正实现这一点的模型。按 $0.018/分钟或批处理模式 $0.009/分钟的价格计算除非你特别需要语音克隆Gemini 3.1 Flash TTS 不支持否则 ElevenLabs 很难证明其成本的合理性。对于其他所有场景——IVR、有声读物、播客、语音代理、多语言内容、互动叙事——Google 刚刚树立了新的性价比标杆。该模型现在已在 Google AI Studio 上线提供免费额度。去测试这 30 种语音尝试音频标签构建会说话的东西吧。原文链接gemini 3.1 TTS全部30 种语音实测 - 汇智网