影音视频
Balabolka是一个文本转语音(TTS)的程序。Balabolka可以使用计算机系统上安装的所有语音。屏幕上的文字可以被保存为一个WAV,MP3,OGG或者WMA文件。该软件可以读取剪贴板的内容,可以查看AZW,AZW3,CHM,DjVu,DOC,EML,EPUB,FB2,FB3,LIT,MD,MOBI,ODP,ODS,ODT,PDB,PDF,PPT,PRC,RTF,TCR,WPD,XLS和HTML文件中的文本,可自定义字体和背景颜色,控制从系统托盘阅读或者使用热键。 Balabolka使用微软的语音API(SAPI)的各种版本,它可以改变语音的参数,包括语度和语调。用户可以应用特殊的替代清单,以提高语音的清晰度质量。当你想改变的单词拼写时这个功能就非常有用。纠正发音规则使用regexp的语法

Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音(TTS)模型,能够以给定说话者的风格(性别、音调、说话风格等)生成高质量、自然 sounding 的语音。它是基于 Dan Lyth 和 Simon King 发表的论文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》的工作复现,两位作者分别来自 Stability AI 和爱丁堡大学。与其他TTS模型不同,Parler-TTS 完全开源发布,包括数据集、预处理、训练代码和权重。功能包括:生成高质量且自然 sounding 的语音输出、灵活的使用和部署、提供丰富的注释语音数据集。定价:免费。 项目地址:https://top.aibase.com/tool/parler-tts 模型下载:https://huggingface.co/parler-tts 在线体验:https://huggingface.co/spaces/parler-tts/parler_tts_mini 需求人群: 可用于生成自然 sounding 的语音,定制特定说话者风格,提供丰富的注释语音数据集。 使用场景示例: 用于定制化说话者风格的语音生成 快速部署并使用自然 sounding 的语音输出 训练和改进TTS模型的丰富资源 产品特色: 生成高质量且自然 sounding 的语音输出 根据给定说话者的风格进行定制 易于使用的安装和部署方法 提供开源注释语音数据集
Clone-voice是一款Web 界面的声音克隆工具。可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。遵守Coqui Public Model License开源协议(作者自己编写的开源协议)。Clone-voice使用简单,没有N卡GPU也可以使用,下载预编译版本,双击 app.exe 打开一个web界面,鼠标点点就能用。 支持 中、英、日、韩、法、德、意等16种语言,可在线从麦克风录制声音。 为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。 作者表示英文效果很棒,中文效果还凑合。

在人工智能的浪潮中,语音技术的革新正以前所未有的速度推进。GPT-SoVITS-WebUI正引领着这一变革。它可以用非常少的声音源快速地训练出一个TTS模型。 这个强大的Web界面工具不仅提供了零次学习和少量次学习的文本到语音(TTS)功能,还支持跨语言的语音转换,为语音技术的爱好者和开发者打开了一扇新的大门。 功能亮点: 1.零次TTS:只需输入一段5秒的语音样本,GPT-SoVITS-WebUI就能立即将其转换为文本,让你体验到即时的语音到文本的转换。 2.少次TTS:通过微调模型,只需1分钟的训练数据,就能显著提升语音的相似度和真实感,这对于个性化语音合成尤为关键。 3.跨语言支持:GPT-SoVITS-WebUI能够处理与训练数据集不同语言的语音,目前支持英语、日语和中文,这大大拓宽了其应用范围。 4.WebUI工具集成:工具中集成了多种实用功能,如语音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,这些工具对于初学者来说尤其友好,可以帮助他们轻松创建训练数据集和GPT/SoVITS模型。
Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型,能够生成与人类语音难以区分的语音。它在语音上下文学习、说话人相似度和自然度方面表现出色,通过微调可进一步提升主观评分。Seed-TTS还提供了对情感等语音属性的优越控制能力,并能生成高度表达性和多样性的语音。此外,提出了一种自蒸馏方法用于语音分解,以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。还展示了Seed-TTS模型的非自回归(NAR)变体Seed-TTSDiT,它采用完全基于扩散的架构,不依赖于预先估计的音素持续时间,通过端到端处理进行语音生成。
VPot(详情请戳 官网)是一款免费无广的文字转语音的工具,内置多语种多声音角色,可将任意文字内容转换为流畅的语音文件,完全调用微软及edge公共API接口,纯CPU处理,适用于譬如短视频配音、教学平台、有声读书等各种应用场景。如侵请删~~~ 虽然这类软件多的是,尤其是在线网页版确实不计其数,缺点都是限制字数的居多,不排除要登录及限制次数的可能。另外,某些真人克l类TTS也相当成熟,无奈老旧系统无缘,但这些均不在本帖讨论及推荐范围之内。 而此款并无以上束缚,u1s1这么多厂商的TTS当中唯有微软TTS的声音合成算是yyds,简洁而无登录接口,不限次数不限字数,实现不失真全输出,支持 win 7 – 11 64位系统 。近期更新,有需自取~~~ 软件特点: 1. 支持导入txt、srt字幕文件; 2. 实现音频文件管理,方便反复试听和对比; 3. 现可自选音频保存目录; 4. 保留超长文本转录的可行性; 5. 文件重命名不再受软件影响。 使用说明: 单文件版即开即用即删,ctrl + v 粘贴对应的文字,合成语音成功后会自动弹出输出的音频结果。常用语种识别包括但不限于普通话、粤语、港普、台语、日韩马来等等,前提是部分外语文字要相应匹配。所以一般而言公共接口已经可以满足日常的转录使用了。文本越长,合成处理自然越久。 若是使用 win 7 及精简版系统,需到微软官方安装 > > Webview2 依赖环境才能玩。不排除可能还需要常用C++运行库的加持,论坛多的是,善用搜索功能便能找到。 另外,如果想要更多语种识别多角色演绎且会折腾的,则需自行到 > > 微软Azure 申请免费api自行导入,教程在小破站随处可见,具体自行搜索即可。 况且可直接录制对应的报时声音,可用于某些语音报时工具,如 > > 自动化任务工具(选定“报时”任务,音频默认放在对应的Data——Sound目录文件夹内,直接对应替换原始音频的文件命名及格式)
vivo听说是一款免费无广由vivo大厂开发的实时语音转文字及文字播报工具,以对话方式输出呈现,支持普通话、方言及英文语种的识别,实现无障碍沟通,适合对方无法倾听或诉说以及会议记录等应用场景。原先这个功能仅开放给自家品牌系统使用,如今已经下放成为独立APP产品便于用户共享。 虽说这类语音转文字的现成软件已经到处都是,无非是会员登录制、识别字符限制及无限弹广告的各种套路居多,不仅ex特烦且体验实在一言难尽。另外PC版的也遍地都是,故这类情况的工具均不在本帖的推荐范围之内。 此版本为手机通用版,均无上述情形,即不限制机型,简洁且清爽,无登录接口,识别率较高,功能无限制(包括转录时长及字符数)。简言之,可当作一款语音转文字工具+方言翻译器。有需自取~~~ 软件特点: 1. 实时语音转文字:一键启动随录随停,AI智能语法断句加标点,实时将语音转换为文字,方便获取信息。 2. 一键语音播报:输入文本一键播报,方便传达他人及用于文字转语音。 3. 超拟人音色:选择自然真实的音色,提升语音播报效果。 4. 文字放大及镜像反转:双击文本可放大可反转,方便他人浏览。 5. 快捷短语:常用短语设置为快捷方式,轻松表达。 6. 字体大小调节:可调节字体大小,提升可读性。 7. 方言识别:目前支持包括粤语、四川话、济南话、河南话、武汉话等部分地区语种识别。 *支持Android 10 - 15的安卓系统,兼容澎湃及鸿蒙系统(至于鸿蒙Next系统侧载兼容性未知则自行测试) 使用说明: 至于无限制的文字转语音软件,可转至请戳 > > 此工具。 首次使用有详细的说明引导。可能需给予录音等权限(至于具体需要获取什么权限及相关隐私内容,软件的使用协议已经罗列得一清二楚,请自行阅读)。 底部可转录可输入,长按已转录文字可标注、复制、多选等,双击可镜像倒立放大,输入文字后点击可发声朗读;右上角齿轮可设置音色、方言语种识别等;若想要随时自由切换普通话及方言语种的,请设置为方言识别即可。其余功能自行体验~~~ PS: 1. 本软件目前已有上架部分国内市场,自然是已经通过安全检测,此处仅作分流及旧版备份之用。另因完全依赖在线且采取即录即转功能,故安装包没有很大,介意的勿下勿用,嫌弃的推荐卸载并转用其它工具~~~ 2. 可能因低版本的安卓系统处理算力环境不够(跟低版本PC无法运行部分智能产品一个道理),故基本淘汰六七年前过老的系统机型。其次,此处的音色仅为蓝厂自带提供;而此处的方言识别是对所说的方言翻译并转为通俗易懂的简明版文字,类似观看的直白口语化字幕,并非微信那种的直译(粤)式文字转录且后期还要处理的形式。目前新版本不影响旧版本的使用。 3. 另提一下,实时转录采集声音时要想识别精确的话建议保持该软件独占扬声器、语速不宜过快且处于相对安静的无过多背景音环境,即不要外放音乐或其它app上的声音。并不是不行,只是识别效果不太好而已。偏门点的语音不排除偶尔抽风的情况,清除缓存重试即可,各位自行衡量~~~
CosyVoice迎来全面升级,提供更准、更稳、更快、 更好的语音生成能力。CosyVoice is undergoing a comprehensive upgrade, providing more accurate, stable, faster, and better voice generation capabilities.精心制作的 整合包,无需繁琐配置,解压即可使用! Cosy Voice 2.0 是由阿里通义千问团队开发的开源情感语音合成项目,具备突破性的“三秒极速复刻”功能,能够精准生成与真人几乎无差别的情感音频,支持粤语、日语、韩语和英语等多种语言。 项目地址:https://github.com/FunAudioLLM/CosyVoice CosyVoiceV20 夸盘链接: https://pan.quark.cn/s/f554cc77216c 提取码:JhB5 CosyVoiceV20 度盘链接: https://pan.baidu.com/s/1ijX1LUgMYjCpYfPuzffxaQ?pwd=dmz5 提取码: dmz5 AI整合包大全 夸盘链接: https://pan.quark.cn/s/7e9a72581a2e 提取码:15aw AI整合包大全 度盘链接: https://pan.baidu.com/s/1LTRkbvIggJrcJTtg_gGJug?pwd=v47a 提取码:v47a