配音软件(配音软件免费版)


【点击查看】低成本上班族靠谱副业好项目 | 拼多多无货源创业7天起店爆单玩法

【点击查看】逆林创业记 | 拼多多电商店铺虚拟类项目新玩法(附完整词表&检测工具)

【点击查看】逆林创业记 | 小白ai写作一键生成爆文速成课

领300个信息差项目,见公众号【逆林创业记】(添加请备注:网站)

# 使用方法

1. 选择视频:

点击选择mp4/avi/mov/mkv/mpeg视频,可选择多个视频;

2. 保存到..:

如果不选择,则默认生成在同目录下的 `_video_out`,同时在该目录下的srt文件夹中将创建原语言和目标语言的两种字幕文件

3. 翻译渠道:

microsoft|google|baidu|tencent|chatGPT|Azure|Gemini|DeepL|DeepLX|OTT 翻译渠道

4. 代理地址:如果你所在地区无法直接访问 google/chatGPT,需要在软件界面 网络代理 中设置代理,比如若使用 v2ray ,则填写 `:10809`,若clash,则填写 `:7890`. 如果你修改了默认端口或使用的其他代理软件,则按需填写

5.原始语言:选择待翻译视频里的语言种类

6. 目标语言:选择希望翻译到的语言种类

7. TTS和配音角色:

选择翻译目标语言后,可从配音选项中,选择配音角色;

字幕设置

硬字幕:

是指始终显示字幕,不可隐藏,如果希望网页中播放时也有字幕,请选择硬字幕嵌入,硬字幕时可通过videotrans/set.ini 中 fontsize设置字体大小

硬字幕(双):

将上下两排分别显示目标语言字幕和原始语言字幕

软字幕:

如果播放器支持字幕管理,可显示或者隐藏字幕,该方式网页中播放时不会显示字幕,某些国产播放器可能不支持,需要将生成的视频同名srt文件和视频放在一个目录下才会显示

软字幕(双):

将嵌入2种语言的字幕,可通过播放器的字幕显示/隐藏功能来切换不同语言字幕

8. 语音识别模型:

选择 base/small/medium/large-v2/large-v3, 识别效果越来越好,但识别速度越来越慢,所需内存越来越大,内置base模型,其他模型请单独下载后,解压放到 `当前软件目录/models`目录下.如果GPU显存低于4G,不要使用 large-v3

整体识别:由模型自动对整个音频断句处理,多大的视频请勿选择整体识别,避免显存不足闪退

预先分割:适合很大的视频,事先切成1分钟的小片段逐次识别和断句

均等分割:按照固定秒数均等切割配音软件,每条字幕时长相等,时长由set.ini中interval_split控制

[全部模型下载地址]()

**特别注意**

faster模型:如果下载的是faster模型,下载后解压,将压缩包内的"models--Systran--faster-whisper-xx"文件夹复制到models目录内,解压复制后 models 目录下文件夹列表如下

openai模型:如果下载的是openai模型,下载后直接将里面的 .pt 文件复制到 models文件夹下即可。

9. 配音语速:

填写 -90到+90 之间的数字,同样一句话在不同语言语音下,所需时间是不同的,因此配音后可能声画字幕不同步,可以调整此处语速,负数代表降速,正数代表加速播放。

10. 声音、画面、字幕对齐:

“配音语速” “配音自动加速” “视频自动降速” “语音前后延展”

> 翻译后不同语言下发音时长不同,比如中文3s,翻译为英文可能5s,导致时长和视频不一致。

> 4种解决方式:

> 1. 设置配音语速,全局加速(某些TTS不支持)

> 2. 强制配音加速播放,以便缩短配音时长和视频对齐

> 3. 强制视频慢速播放,以便延长视频时长和配音对齐。

> 4. 如果前后有静音片段,则前后延展占据静音区n实际使用中,结合此4项效果最佳

> 实现原理请查看博文

12. **CUDA加速**:

确认你的电脑显卡为 N卡,并且已配置好CUDA环境和驱动,则开启选择此项,速度能极大提升

13. TTS: 可用 edgeTTS 和 openai TTS-1模型、Elevenlabs、clone-voice、自定义TTS,openai需要使用官方接口或者开通了tts-1模型的三方接口,也可选择clone-voice进行原音色配音。同时支持使用自己的tts服务,在设置菜单-自定义TTS-API中填写api地址

14​. 点击 开始按钮 底部会显示当前进度和日志,右侧文本框内显示字幕

15. 字幕解析完成后,将暂停等待修改字幕,如果不做任何操作,30s后将自动继续下一步。也可以在右侧字幕区编辑字幕,然后手动点击继续合成

16. 将在目标文件夹中视频同名的子目录内,分别生成两种语言的字幕srt文件、原始语音和配音后的wav文件,以方便进一步处理.

17. 设置行角色:

可对字幕中的每行设定发音角色,首先左侧选好TTS类型和角色,然后点击字幕区右下方“设置行角色”,在每个角色名后面文本中中,填写要使用该角色配音的行编号

18. 保留背景音:

如果选择该项,则会先将视频中的人声和背景伴奏分离出来,其中背景伴奏最终再和配音音频合并,最后生成的结果视频中将保留背景伴奏。**注意**:该功能基于uvr5实现,如果你没有足够的N卡GPU显存配音软件,比如8G以上,建议慎重选择,可能非常慢并非常消耗资源。如果视频比较大, 建议选择单独的视频分离工具,比如 uvr5 或 vocal-separate

19. 原音色克配音clone-voice:

首先安装部署[clone-voice]()项目, 下载配置好“文字->声音”模型,然后在本软件中TTS类型中选择“clone-voice”,配音角色选择“clone”,即可实现使用原始视频中的声音进行配音。使用此方式时,为保证效果,建议选择“保留背景音”,以剔除背景噪声。

20. 使用GPT-SoVITS配音:

首先安装部署好GPT-SoVITS项目,然后启动 GPT-SoVITS的api.py,在视频翻译配音软件-设置菜单-GPT-SoVITS API 中填写接口地址、参考音频等。

GPT-SoVITS 自带的 api.py 不支持中英混合发音,若需支持,请去下载该文件

,将该压缩包内的 api2.py 复制到 GPT-SoVITS 根目录下,启动方法与自带的api.py一样,可参考使用教程

21. 在 `videotrans/chatgpt.txt` `videotrans/azure.txt` `videotrans/gemini.txt` 文件中,可分别修改 chatGPT、AzureGPT、Gemini Pro 的提示词,必须注意里面的 `{lang}` 代表翻译到的目标语言,不要删除不要修改。提示词需要保证告知AI将按行发给它的内容翻译后按行返回,返回的行数需要同发给它的行数一致。

22. 添加背景音乐:

该功能和“保留背景音”类似,但实现方式不同,只可在“标准功能模式”和“字幕创建配音”模式下使用。

“添加背景音乐”是预先从本地计算机中选择一个作为背景声音的音频文件,文件路径显示在右侧文本框中,在处理结束输出结果视频时,将该音频混入,最终生成的视频里会播放该背景音频文件。

如果同时也选中了“保留背景音”,那么原始视频里的背景音也会保留。

添加背景音乐后,如果又不想要了,直接在右侧文本框中删掉显示的内容即可。

# 常见问题

1. 使用google翻译或者chatGPT,提示出错

国内使用google或chatGPT官方接口,都需要挂梯子

2. 已使用了全局代理,但看起来并没有走代理

需要在软件界面“网络代理”中设置具体的代理地址,格式为 :端口号

3. 提示 FFmepg 不存在

首先查看确定软件根目录下存在 ffmpeg.exe, ffprobe.exe 文件或是否存在ffmpeg目录,如果不存在,解压 ffmpeg.7z,将这2个文件放到软件根目录下

4. windows上开启了 CUDA,但是提示错误

A: 确定你已正确安装了cuda相关工具,如果仍存在错误,[下载 cuBLAS](),解压后将里面的dll文件复制到 C:/Windows/System32下

B: 若确定和A无关,那么请检查视频是否是H264编码的mp4,有些高清视频是 H265 编码的,这种不支持,可尝试在“视频工具箱”中转为H264视频

C: GPU下对视频进行硬件解码编码对数据正确性要求严格,容错率几乎为0,任何一点错误都会导致失败,加上显卡型号、驱动版本、CUDA版本、ffmpeg版本不同版本之间的差异等,导致很容易出现兼容性错误。目前加了回退,GPU上失败后自动使用CPU软件编解码。失败时logs目录下日志里会记录出错信息。

5. 提示模型不存在?

[全部模型下载地址]()

**模型分为两类:**

一类是适用于“faster模型”的。

下载解压后,会看到文件夹,类似 “models--Systran--faster-whisper-xxx”形式的,xxx代表模型名,比如 base/small/medium/large-v3等,解压后直接将该文件夹复制到此目录下即可。

如果所有faster模型下载后,当前models文件夹下应该能看到这几个文件夹

models--Systran--faster-whisper-base

models--Systran--faster-whisper-small

models--Systran--faster-whisper-medium

models--Systran--faster-whisper-large-v2

models--Systran--faster-whisper-large-v3

另一类是适用于"openai模型的",下载解压后,直接就是 xx.pt 文件,比如 base.pt/small.pt,/medium.pt/large-v3.pt, 直接将该pt文件复制到此文件夹内即可。

如果所有openai模型下载后,当前models文件夹下应该能直接看到 base.pt, small.pt, medium.pt, large-v1.pt, large-v3.pt

6. 提示目录不存在或权限错误

在sp.exe上右键使用管理员权限打开

7. 提示错误,但没有详细出错信息

打开logs目录,找到最新的log日志文件,拉到最底部,即可看到报错信息。

8. large-v3模型非常慢

如果你没有N卡GPU,或者没有配置好CUDA环境,或者显存低于8G,请不要使用这个模型,否则会非常慢和卡顿

9. 提示缺少cublasxx.dll文件

有时会遇到“cublasxx.dll不存在”的错误,此时需要下载 cuBLAS,然后将dll文件复制到系统目录下

下载cuBLAS

,解压后将里面的dll文件复制到 C:/Windows/System32下

[cuBLAS.and.cuDNN_win_v4]()

11. 怎样使用自定义音色

设置菜单-自定义TTS-API,填写自己的tts服务器接口地址。

将以POST请求向填写的API地址发送application/www-urlencode数据:

```

# 发送的请求数据:

text:需要合成的文本/字符串

language:文字所属语言代码(zh-cn,zh-tw,en,ja,ko,ru,de,fr,tr,th,vi,ar,hi,hu,es,pt,it)/字符串

voice:配音角色名称/字符串

rate:加减速值,0或者 '+数字%' '-数字%',代表在正常速度基础上进行加减速的百分比/字符串

ostype:win32或mac或linux操作系统类型/字符串

extra:额外参数/字符串

# 期待从接口返回json格式数据:

code:0=合成成功时,>0的数字代表失败

msg:ok=合成成功时,其他为失败原因

data:在合成成功时,返回mp3文件的完整url地址,用于在软件内下载。失败时为空

```

14. 字幕不显示或显示乱码

> 采用软合成字幕:字幕作为单独文件嵌入视频,可再次提取出,如果播放器支持,可在播放器字幕管理中启用或禁用字幕;

> 注意很多国内播放器必须将srt字幕文件和视频放在同一目录下且名字相同,才能加载软字幕,并且可能需要将srt文件转为GBK编码,否则显示乱码,

15. 如何切换软件界面语言/中文or英文

打开软件目录下 videotrans/set.ini 文件,然后将 `lang=` 后填写语言代码,`zh`代表中文,`en`代表英文,修改后重启软件

```

;The default interface follows the system and can also be specified manually here, zh=Chinese interface, en=English interface.

;默认界面跟随系统,也可以在此手动指定,zh=中文界面,en=英文界面

lang =

```

16. 尚未执行完毕就闪退

如果启用了cuda并且电脑已安装好了cuda环境,但没有手动安装配置过cudnn,那么会出现该问题,去安装和cuda匹配的cudnn。比如你安装了cuda12.3,那么就需要下载cudnn for cuda12.x压缩包,然后解压后里面的3个文件夹复制到cuda安装目录下。具体教程参考

如果cudnn按照教程安装好了仍闪退,那么极大概率是GPU显存不足,可以改为使用 medium模型,显存不足8G时,尽量避免使用largev-3模型,尤其是视频大于20M时,否则可能显存不足而崩溃

17. 如何调节字幕字体大小

如果嵌入硬字幕,可以通过修改 videotrans/set.ini 中的 fontsize=0为一个合适的值,来调节字体大小。0代表默认尺寸,20代表字体尺寸为20个像素

18. macos报错

OSError: ctypes.util.find_library() did not manage to locate a library called 'sndfile'

解决办法:

找到libsndfile安装位置,通过brew安装的话一般在:/opt/homebrew/Cellar/libsndfile,

然后将该路径添加到环境变量:export DYLD_LIBRARY_PATH=/opt/homebrew/Cellar/libsndfile/1.2.2/lib:$DYLD_LIBRARY_PATH

19. GPT-SoVITS API 不支持 中英 混合发音

GPT-SoVITS 自带的 api.py 不支持中英混合发音,若需支持,请 [下载该文件] ,用该压缩包内的 api.py,覆盖 GPT-SoVITS 自带的api.py

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ3361245237,本站将立刻清除。