配音软件（配音软件免费版）

用户投稿 2周前 (09-10) 22浏览

【点击查看】低成本上班族靠谱副业好项目 | 拼多多无货源创业7天起店爆单玩法

【点击查看】逆林创业记 | 拼多多电商店铺虚拟类项目新玩法（附完整词表&检测工具）

【点击查看】逆林创业记 | 小白ai写作一键生成爆文速成课

领300个信息差项目，见公众号【逆林创业记】（添加请备注:网站）

# 使用方法

1. 选择视频：

点击选择mp4/avi/mov/mkv/mpeg视频,可选择多个视频；

2. 保存到..：

如果不选择，则默认生成在同目录下的 `_video_out`，同时在该目录下的srt文件夹中将创建原语言和目标语言的两种字幕文件

3. 翻译渠道：

4. 代理地址：如果你所在地区无法直接访问 google/chatGPT，需要在软件界面网络代理中设置代理，比如若使用 v2ray ，则填写 `:10809`,若clash，则填写 `:7890`. 如果你修改了默认端口或使用的其他代理软件，则按需填写

5.原始语言：选择待翻译视频里的语言种类

6. 目标语言：选择希望翻译到的语言种类

7. TTS和配音角色：

选择翻译目标语言后，可从配音选项中，选择配音角色；

字幕设置

硬字幕:

是指始终显示字幕，不可隐藏，如果希望网页中播放时也有字幕，请选择硬字幕嵌入，硬字幕时可通过videotrans/set.ini 中 fontsize设置字体大小

硬字幕(双):

将上下两排分别显示目标语言字幕和原始语言字幕

软字幕:

如果播放器支持字幕管理，可显示或者隐藏字幕，该方式网页中播放时不会显示字幕，某些国产播放器可能不支持,需要将生成的视频同名srt文件和视频放在一个目录下才会显示

软字幕(双):

将嵌入2种语言的字幕，可通过播放器的字幕显示/隐藏功能来切换不同语言字幕

8. 语音识别模型:

选择 base/small/medium/large-v2/large-v3, 识别效果越来越好，但识别速度越来越慢，所需内存越来越大，内置base模型，其他模型请单独下载后，解压放到 `当前软件目录/models`目录下.如果GPU显存低于4G，不要使用 large-v3

整体识别:由模型自动对整个音频断句处理,多大的视频请勿选择整体识别，避免显存不足闪退

预先分割:适合很大的视频，事先切成1分钟的小片段逐次识别和断句

均等分割:按照固定秒数均等切割配音软件，每条字幕时长相等，时长由set.ini中interval_split控制

[全部模型下载地址]()

**特别注意**

faster模型：如果下载的是faster模型，下载后解压，将压缩包内的"models--Systran--faster-whisper-xx"文件夹复制到models目录内，解压复制后 models 目录下文件夹列表如下

openai模型：如果下载的是openai模型，下载后直接将里面的 .pt 文件复制到 models文件夹下即可。

9. 配音语速：

填写 -90到+90 之间的数字，同样一句话在不同语言语音下，所需时间是不同的，因此配音后可能声画字幕不同步，可以调整此处语速，负数代表降速，正数代表加速播放。

10. 声音、画面、字幕对齐:

“配音语速” “配音自动加速” “视频自动降速” “语音前后延展”

> 翻译后不同语言下发音时长不同，比如中文3s，翻译为英文可能5s，导致时长和视频不一致。

> 4种解决方式:

> 1. 设置配音语速，全局加速(某些TTS不支持)

> 2. 强制配音加速播放，以便缩短配音时长和视频对齐

> 3. 强制视频慢速播放，以便延长视频时长和配音对齐。

> 4. 如果前后有静音片段，则前后延展占据静音区n实际使用中，结合此4项效果最佳

> 实现原理请查看博文

12. **CUDA加速**：

确认你的电脑显卡为 N卡，并且已配置好CUDA环境和驱动，则开启选择此项，速度能极大提升

13. TTS: 可用 edgeTTS 和 openai TTS-1模型、Elevenlabs、clone-voice、自定义TTS，openai需要使用官方接口或者开通了tts-1模型的三方接口,也可选择clone-voice进行原音色配音。同时支持使用自己的tts服务，在设置菜单-自定义TTS-API中填写api地址

14. 点击开始按钮底部会显示当前进度和日志，右侧文本框内显示字幕

15. 字幕解析完成后，将暂停等待修改字幕，如果不做任何操作，30s后将自动继续下一步。也可以在右侧字幕区编辑字幕，然后手动点击继续合成

16. 将在目标文件夹中视频同名的子目录内，分别生成两种语言的字幕srt文件、原始语音和配音后的wav文件，以方便进一步处理.

17. 设置行角色：

可对字幕中的每行设定发音角色，首先左侧选好TTS类型和角色，然后点击字幕区右下方“设置行角色”，在每个角色名后面文本中中，填写要使用该角色配音的行编号

18. 保留背景音：

如果选择该项，则会先将视频中的人声和背景伴奏分离出来，其中背景伴奏最终再和配音音频合并，最后生成的结果视频中将保留背景伴奏。**注意**:该功能基于uvr5实现，如果你没有足够的N卡GPU显存配音软件，比如8G以上，建议慎重选择，可能非常慢并非常消耗资源。如果视频比较大，建议选择单独的视频分离工具，比如 uvr5 或 vocal-separate

19. 原音色克配音clone-voice：

首先安装部署[clone-voice]()项目，下载配置好“文字->声音”模型，然后在本软件中TTS类型中选择“clone-voice”,配音角色选择“clone”，即可实现使用原始视频中的声音进行配音。使用此方式时，为保证效果，建议选择“保留背景音”，以剔除背景噪声。

20. 使用GPT-SoVITS配音：

首先安装部署好GPT-SoVITS项目，然后启动 GPT-SoVITS的api.py，在视频翻译配音软件-设置菜单-GPT-SoVITS API 中填写接口地址、参考音频等。

GPT-SoVITS 自带的 api.py 不支持中英混合发音，若需支持，请去下载该文件

，将该压缩包内的 api2.py 复制到 GPT-SoVITS 根目录下，启动方法与自带的api.py一样，可参考使用教程

21. 在 `videotrans/chatgpt.txt` `videotrans/azure.txt` `videotrans/gemini.txt` 文件中，可分别修改 chatGPT、AzureGPT、Gemini Pro 的提示词，必须注意里面的 `{lang}` 代表翻译到的目标语言，不要删除不要修改。提示词需要保证告知AI将按行发给它的内容翻译后按行返回，返回的行数需要同发给它的行数一致。

22. 添加背景音乐：

该功能和“保留背景音”类似，但实现方式不同，只可在“标准功能模式”和“字幕创建配音”模式下使用。

“添加背景音乐”是预先从本地计算机中选择一个作为背景声音的音频文件，文件路径显示在右侧文本框中，在处理结束输出结果视频时，将该音频混入，最终生成的视频里会播放该背景音频文件。

如果同时也选中了“保留背景音”，那么原始视频里的背景音也会保留。

添加背景音乐后，如果又不想要了，直接在右侧文本框中删掉显示的内容即可。

# 常见问题

1. 使用google翻译或者chatGPT，提示出错

国内使用google或chatGPT官方接口，都需要挂梯子

2. 已使用了全局代理，但看起来并没有走代理

需要在软件界面“网络代理”中设置具体的代理地址，格式为 :端口号

3. 提示 FFmepg 不存在

首先查看确定软件根目录下存在 ffmpeg.exe, ffprobe.exe 文件或是否存在ffmpeg目录，如果不存在，解压 ffmpeg.7z，将这2个文件放到软件根目录下

4. windows上开启了 CUDA，但是提示错误

A: 确定你已正确安装了cuda相关工具，如果仍存在错误，[下载 cuBLAS]()，解压后将里面的dll文件复制到 C:/Windows/System32下

B: 若确定和A无关，那么请检查视频是否是H264编码的mp4，有些高清视频是 H265 编码的，这种不支持，可尝试在“视频工具箱”中转为H264视频

C: GPU下对视频进行硬件解码编码对数据正确性要求严格，容错率几乎为0，任何一点错误都会导致失败，加上显卡型号、驱动版本、CUDA版本、ffmpeg版本不同版本之间的差异等，导致很容易出现兼容性错误。目前加了回退，GPU上失败后自动使用CPU软件编解码。失败时logs目录下日志里会记录出错信息。

5. 提示模型不存在?

[全部模型下载地址]()

**模型分为两类：**

一类是适用于“faster模型”的。

下载解压后，会看到文件夹，类似 “models--Systran--faster-whisper-xxx”形式的，xxx代表模型名，比如 base/small/medium/large-v3等，解压后直接将该文件夹复制到此目录下即可。

如果所有faster模型下载后，当前models文件夹下应该能看到这几个文件夹

models--Systran--faster-whisper-base

models--Systran--faster-whisper-small

models--Systran--faster-whisper-medium

models--Systran--faster-whisper-large-v2

models--Systran--faster-whisper-large-v3

另一类是适用于"openai模型的"，下载解压后，直接就是 xx.pt 文件，比如 base.pt/small.pt,/medium.pt/large-v3.pt, 直接将该pt文件复制到此文件夹内即可。

如果所有openai模型下载后，当前models文件夹下应该能直接看到 base.pt, small.pt, medium.pt, large-v1.pt, large-v3.pt

6. 提示目录不存在或权限错误

在sp.exe上右键使用管理员权限打开

7. 提示错误，但没有详细出错信息

打开logs目录，找到最新的log日志文件，拉到最底部，即可看到报错信息。

8. large-v3模型非常慢

如果你没有N卡GPU，或者没有配置好CUDA环境，或者显存低于8G，请不要使用这个模型，否则会非常慢和卡顿

9. 提示缺少cublasxx.dll文件

有时会遇到“cublasxx.dll不存在”的错误，此时需要下载 cuBLAS，然后将dll文件复制到系统目录下

下载cuBLAS

，解压后将里面的dll文件复制到 C:/Windows/System32下

[cuBLAS.and.cuDNN_win_v4]()

11. 怎样使用自定义音色

设置菜单-自定义TTS-API，填写自己的tts服务器接口地址。

将以POST请求向填写的API地址发送application/www-urlencode数据：

```

# 发送的请求数据：

text:需要合成的文本/字符串

language:文字所属语言代码(zh-cn,zh-tw,en,ja,ko,ru,de,fr,tr,th,vi,ar,hi,hu,es,pt,it)/字符串

voice:配音角色名称/字符串

rate:加减速值，0或者 '+数字%' '-数字%'，代表在正常速度基础上进行加减速的百分比/字符串

ostype:win32或mac或linux操作系统类型/字符串

extra:额外参数/字符串

# 期待从接口返回json格式数据：

code:0=合成成功时，>0的数字代表失败

msg:ok=合成成功时，其他为失败原因

data:在合成成功时，返回mp3文件的完整url地址，用于在软件内下载。失败时为空

```

14. 字幕不显示或显示乱码

> 采用软合成字幕：字幕作为单独文件嵌入视频，可再次提取出，如果播放器支持，可在播放器字幕管理中启用或禁用字幕；

> 注意很多国内播放器必须将srt字幕文件和视频放在同一目录下且名字相同，才能加载软字幕，并且可能需要将srt文件转为GBK编码，否则显示乱码，

15. 如何切换软件界面语言/中文or英文

打开软件目录下 videotrans/set.ini 文件，然后将 `lang=` 后填写语言代码，`zh`代表中文,`en`代表英文，修改后重启软件

```

;The default interface follows the system and can also be specified manually here, zh=Chinese interface, en=English interface.

;默认界面跟随系统，也可以在此手动指定，zh=中文界面，en=英文界面

lang =

```

16. 尚未执行完毕就闪退

如果启用了cuda并且电脑已安装好了cuda环境，但没有手动安装配置过cudnn，那么会出现该问题，去安装和cuda匹配的cudnn。比如你安装了cuda12.3，那么就需要下载cudnn for cuda12.x压缩包，然后解压后里面的3个文件夹复制到cuda安装目录下。具体教程参考

如果cudnn按照教程安装好了仍闪退，那么极大概率是GPU显存不足，可以改为使用 medium模型，显存不足8G时，尽量避免使用largev-3模型，尤其是视频大于20M时，否则可能显存不足而崩溃

17. 如何调节字幕字体大小

如果嵌入硬字幕，可以通过修改 videotrans/set.ini 中的 fontsize=0为一个合适的值，来调节字体大小。0代表默认尺寸，20代表字体尺寸为20个像素

18. macos报错

OSError: ctypes.util.find_library() did not manage to locate a library called 'sndfile'

解决办法：

找到libsndfile安装位置，通过brew安装的话一般在：/opt/homebrew/Cellar/libsndfile，

然后将该路径添加到环境变量：export DYLD_LIBRARY_PATH=/opt/homebrew/Cellar/libsndfile/1.2.2/lib:$DYLD_LIBRARY_PATH

19. GPT-SoVITS API 不支持中英混合发音

GPT-SoVITS 自带的 api.py 不支持中英混合发音，若需支持，请 [下载该文件] ，用该压缩包内的 api.py，覆盖 GPT-SoVITS 自带的api.py

标签：配音软件

配音软件（配音软件免费版）