影音视频
Balabolka是一个文本转语音(TTS)的程序。Balabolka可以使用计算机系统上安装的所有语音。屏幕上的文字可以被保存为一个WAV,MP3,OGG或者WMA文件。该软件可以读取剪贴板的内容,可以查看AZW,AZW3,CHM,DjVu,DOC,EML,EPUB,FB2,FB3,LIT,MD,MOBI,ODP,ODS,ODT,PDB,PDF,PPT,PRC,RTF,TCR,WPD,XLS和HTML文件中的文本,可自定义字体和背景颜色,控制从系统托盘阅读或者使用热键。 Balabolka使用微软的语音API(SAPI)的各种版本,它可以改变语音的参数,包括语度和语调。用户可以应用特殊的替代清单,以提高语音的清晰度质量。当你想改变的单词拼写时这个功能就非常有用。纠正发音规则使用regexp的语法
Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音(TTS)模型,能够以给定说话者的风格(性别、音调、说话风格等)生成高质量、自然 sounding 的语音。它是基于 Dan Lyth 和 Simon King 发表的论文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》的工作复现,两位作者分别来自 Stability AI 和爱丁堡大学。与其他TTS模型不同,Parler-TTS 完全开源发布,包括数据集、预处理、训练代码和权重。功能包括:生成高质量且自然 sounding 的语音输出、灵活的使用和部署、提供丰富的注释语音数据集。定价:免费。 项目地址:https://top.aibase.com/tool/parler-tts 模型下载:https://huggingface.co/parler-tts 在线体验:https://huggingface.co/spaces/parler-tts/parler_tts_mini 需求人群: 可用于生成自然 sounding 的语音,定制特定说话者风格,提供丰富的注释语音数据集。 使用场景示例: 用于定制化说话者风格的语音生成 快速部署并使用自然 sounding 的语音输出 训练和改进TTS模型的丰富资源 产品特色: 生成高质量且自然 sounding 的语音输出 根据给定说话者的风格进行定制 易于使用的安装和部署方法 提供开源注释语音数据集
在人工智能的浪潮中,语音技术的革新正以前所未有的速度推进。GPT-SoVITS-WebUI正引领着这一变革。它可以用非常少的声音源快速地训练出一个TTS模型。 这个强大的Web界面工具不仅提供了零次学习和少量次学习的文本到语音(TTS)功能,还支持跨语言的语音转换,为语音技术的爱好者和开发者打开了一扇新的大门。 功能亮点: 1.零次TTS:只需输入一段5秒的语音样本,GPT-SoVITS-WebUI就能立即将其转换为文本,让你体验到即时的语音到文本的转换。 2.少次TTS:通过微调模型,只需1分钟的训练数据,就能显著提升语音的相似度和真实感,这对于个性化语音合成尤为关键。 3.跨语言支持:GPT-SoVITS-WebUI能够处理与训练数据集不同语言的语音,目前支持英语、日语和中文,这大大拓宽了其应用范围。 4.WebUI工具集成:工具中集成了多种实用功能,如语音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,这些工具对于初学者来说尤其友好,可以帮助他们轻松创建训练数据集和GPT/SoVITS模型。
Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型,能够生成与人类语音难以区分的语音。它在语音上下文学习、说话人相似度和自然度方面表现出色,通过微调可进一步提升主观评分。Seed-TTS还提供了对情感等语音属性的优越控制能力,并能生成高度表达性和多样性的语音。此外,提出了一种自蒸馏方法用于语音分解,以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。还展示了Seed-TTS模型的非自回归(NAR)变体Seed-TTSDiT,它采用完全基于扩散的架构,不依赖于预先估计的音素持续时间,通过端到端处理进行语音生成。