跳到主要内容

语音合成(TTS)

使用 MiniMax TTS 从文本生成语音(文字转语音)。支持中文(普通话)、英文、日文的预设或自定义音色。输出 MP3 自动导入为 AudioClip,保存到 Assets/TJGenerators/History/

适合角色配音、旁白、提示语音、对话台词等。需要背景音乐请用 音频生成 的 BGM,需要音效请用音效(SFX)。

开始

从GUI开始

菜单:AI > 生成 > 生成音频,在打开的 TJGenerators 音频 窗口中,将「模型」切换为 MiniMax 语音合成,即可使用 TTS:填写要合成的文本,选择语音角色(音色),点击生成。

TJGenerators 音频窗口中选择 MiniMax 语音合成模型生成 TTS

从CLI开始

使用 generate_tts 工具从文本生成语音。生成完成后,语音自动导入为 AudioClip 并可在场景中使用。


模型

MiniMax 语音合成(唯一模型)

  • generator_id: minimax-tts
  • 适用场景: 文生语音、角色配音、旁白
  • 输出: MP3,自动导入为 AudioClip
  • 关键参数:
参数类型默认说明
promptstring必填要合成的文本
voice_idstringChinese (Mandarin)_Gentleman音色 ID(见下表,支持自定义)
output_pathstring自动生成资产保存路径(.mp3 自动添加)
play_on_awakeboolfalseAudioSource 是否进入 Play Mode 自动播放

预设音色(voice_id

value说明
Chinese (Mandarin)_Gentleman中文男声 - 绅士(默认)
Chinese (Mandarin)_Humorous_Elder中文男声 - 幽默长者
Chinese (Mandarin)_Cute_Spirit中文女声 - 可爱精灵
Chinese (Mandarin)_Warm_Bestie中文女声 - 温暖闺蜜
English_WiseScholar英文男声 - Wise Scholar
English_captivating_female1英文女声 - Captivating
Japanese_LoyalKnight日文男声 - Loyal Knight
moss_audio_f0c5494c-7c25-11f0-8d70-a2abf1fbea61日文女声

voice_id 支持自定义(allowCustom),可填入 MiniMax 提供的其他音色 ID。


优化

文本优化

  • 使用与音色匹配的语言:中文音色填中文文本,英文音色填英文文本
  • 适当加标点:逗号、句号有助于控制停顿和语气
  • 分段合成:长台词可拆成多句分别生成,便于在引擎中按需触发

音色选择

  • 角色对话:根据角色性别/性格选择对应音色(绅士/幽默长者/可爱精灵等)
  • 旁白/解说:偏沉稳的男声或女声
  • 多语言项目:分别用对应语言的音色生成

AudioSource 配置

  • 一次性台词/提示音:play_on_awake: false,由脚本或事件触发播放
  • 进入场景即播放的旁白:play_on_awake: true

注意事项

  • ⚠️ 入口:GUI 在 AI > 生成 > 生成音频 窗口中将模型切换为「MiniMax 语音合成」;CLI 通过 generate_tts 工具使用
  • ⚠️ prompt 必填:要合成的文本不能为空
  • ⚠️ 语言与音色需匹配:中文文本配中文音色,否则发音可能异常
  • ⚠️ 生成耗时 10–30 秒
  • ⚠️ 输出为 AudioClip(MP3):放入场景时按音效(AudioClip SFX)方式绑定到 AudioSource
  • ⚠️ 输出路径:默认 Assets/TJGenerators/History/
  • ⚠️ Domain Reload:生成期间不要在磁盘写入 .cs 文件,使用 execute_csharp_script 代替