© 加速工具
jiasugongju#
outlook.com

Abogen文字转语音工具能在几秒内把ePub、PDF或文本文件,转化成高质量音频,并自动生成同步字幕,可用于制作有声书、Instagram、YouTube、TikTok的配音等场景,采用Kokoro-82M模型,能让生成的语音听起来更自然流畅。

Abogen功能

1、支持多种文件格式:ePub、PDF、TXT文件都能处理。

2、语音混合器:能混合不同语音模型创建自定义语音,调整各语音权重后还能保存为配置文件供以后使用。

3、章节控制:处理ePUB文件时可选择特定章节,处理PDF文件时能选择章节和页面,处理文件时会自动添加章节标记<<CHAPTER_MARKER:Chapter Title>> ,也能手动在文本文件中添加,这样可以按章节拆分音频文件,出现错误时能只重新处理特定章节,节省时间。

4、丰富的选项:可以替换文本中的单个换行符为空格;配置每个字幕条的最大单词数;创建桌面快捷方式;打开配置文件和临时文件目录;清除所有临时文件;启动时自动检查更新。

Abogen安装方法

1、Windows系统:先去espeak-ng的最新发布页面下载并运行.msi文件。如果使用NVIDIA GPU,运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128 。然后pip install abogen安装Abogen,也可以下载代码库,解压ZIP文件后,双击运行WINDOWS_INSTALL.bat,会自动安装所有依赖,包括在独立环境中安装CUDA,不过还是需要手动安装espeak-ng。

2、Mac系统:在终端运行brew install espeak-ng安装espeak-ng,接着pip install abogen安装Abogen,该方法未经过全面测试。

3、Linux系统:不同的Linux发行版安装espeak-ng的命令不同,Ubuntu/Debian系统用sudo apt install espeak-ng ,Arch Linux用sudo pacman -S espeak-ng,Fedora用sudo dnf install espeak-ng。安装好espeak-ng后,pip install abogen安装Abogen,要是遇到 “No matching distribution found” 错误,试试在支持的Python 3.10到3.12版本上安装,可以用pyenv轻松管理多个Python版本。

4、Docker安装:下载并解压代码库,或者用git克隆。进入abogen文件夹,里面有Dockerfile文件。在该目录下打开终端,运行docker build --progress plain -t abogen .构建Docker镜像,构建过程可能需要一些时间,构建完成后,根据不同系统运行相应命令启动容器:

Windows:docker run --name abogen -v %cd%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen

Linux:docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen

MacOS:docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen

可以通过http://localhost:5800在浏览器访问,或者用VNC客户端连接localhost:5900 。使用/shared目录在主机和容器间共享文件,之后启动容器用docker start abogen ,停止用docker stop abogen。在容器内存在一些问题,比如音频预览无法使用(ALSA错误) ,设置中的“打开临时目录”和“打开配置目录”选项也无法正常工作。

Abogen使用方法

打开Abogen后,把ePub、PDF或文本文件拖放到指定区域,或者点击浏览选择文件,也能使用内置文本编辑器输入内容,接着设置各项参数:

1、语速:可以在0.1x2.0x之间调整。

2、语音选择:通过语言代码首字母选择语言,如“a”代表美式英语,“b”代表英式英语等;第二个字母“m”代表男性声音,“f”代表女性声音,能使用语音混合器创建自定义语音。

3、字幕生成样式:有“Disabled”、“Sentence”、“Sentence + Comma”、“1 word”、“2 words”、“3 words”等多种选择,代表每个字幕条包含的单词数。目前字幕生成仅支持英文,因为Kokoro仅为英文文本提供时间戳标记,若需要其他语言的字幕,得在Kokoro项目中提出该需求。

4、输出格式:支持.WAV.FLAC.MP3.M4B(含章节)等格式。

5、保存位置:可以选择“Save next to input file”、“Save to desktop”或“Choose output folder”。

设置好后,点击“Start”开始转换。转换完成后,有“Open file”、“Go to folder”、“New conversion”、“Go back”等选项。

Abogen支持语言

Abogen支持多种语言,包括美式英语(代码“a”)、英式英语(代码“b”)、西班牙语(代码“e”)、法语(代码“f”)、印地语(代码“h”)、意大利语(代码“i”)、日语(安装misaki[ja])、巴西葡萄牙语(代码“p”)、中文(安装misaki[zh])。

MPV配置

推荐用MPV播放生成的音频文件,MPV能在没有视频轨道的情况下显示字幕,可以参考下面的mpv.conf配置:

save-position-on-quit
keep-open=yes
--audio-device=openal
--sub-margin-x=235
--sub-pos=60
# --- 音频质量 ---
audio-spdif=ac3,dts,eac3,truehd,dts-hd
audio-channels=auto
audio-samplerate=48000
volume-max=200

常见问题和解决办法

如果运行Abogen时遇到问题,可以在命令行输入abogen-cli ,以命令行模式启动,能看到详细的错误信息,之后在项目的Issues页面提交新问题,附上错误信息和问题描述。