在这里插入图片描述 GLM-TTS是基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于生成语音标记的大语言模型(LLM)和用于波形合成的流匹配模型。 通过引入多奖励强化学习框架,GLM-TTS显著提升了生成语音的表现力,相比传统TTS系统实现了更自然的情感控制。 核心特性 零样本语音克隆:仅需3-10秒提示音频即可克隆任意说话者音色 强化学习增强的情感控制:采用多奖励强化学习框架(GRPO)优化韵律和情感表达 高质量合成:生成语音质量媲美商业系统,同时降低字符错误率(CER) 音素级控制:支持"混合音素+文本"输入,实现精准发音控制(如多音字) 流式推理:支持实时音频生成,适用于交互式应用场景 双语支持:针对中英文混合文本进行优化
网站域名:github.com 更新日期:2025-12-12 网站简称:智谱开源GLM-TTS语音模型:3 秒复刻人声,支持多情感表达! 网站分类:影音视频 人气指数:7