相遇皆是缘分

可以模拟真人声音,不过需要大量训练模型(请勿乱用)

源码及教程

AI源码 源码教程—b站up“什么都懂一点的奶糖”

基本用法

打开界面

1
python demo_toolbox.py

vEbjY9.png

界面功能

vEbGM6.png

AI 模型制作流程

videosrt(音频识别文字)

verEex.png

将多个音频识别成文字,并输出到txt文本

  1. 给所有音频生成文本 格式为 SRT文件 (语音引擎:阿里云 自己配)

verkO1.png

2.存放音频和文本

veril9.png

2.1音频

verPSJ.png

2.2文本

verFyR.png

3.生成音频文字

1
python long_file_cut_by_srt.py

verVw6.png

verZTK.png

4.听音频校对文本

文本与相应的音频不对就更改,音频不清楚导致文本差错大,可以把该行文本删除,保证几百行没大问题

verufe.png

vermFO.png

5.校对完毕,移植

vernYD.png

verMSH.png

verQld.png

6.生成模型命令

1
2
3
python pre.py <datasets_root> -d {dataset} -n {number}

python pre.py E:\制作数据集 -d aidatatang_200zh -n 6

verl6A.png

1
2
3
python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer

python synthesizer_train.py meng E:\制作数据集\SV2TTS\synthesizer

ver1OI.png

数据小,执行命令几分钟后,ctrl+c 终止

用原作者公开的已有模型,改成自己模型的名称,代替,并再次执行命令,执行几个小时后,查看plots文件是否有音频图,有,证明有效果,运行完数据量太大, 几个小时后,终止即可

verG0P.png

6.将自己的模型放入模型库

ver8mt.png

7.运用自己的模型(详细查看 基本用法)

verJTf.png