Abogen文本转语音工具，能将文档转为带字幕有声书

5月9日发布在语音工具

Abogen文字转语音工具能在几秒内把ePub、PDF或文本文件，转化成高质量音频，并自动生成同步字幕，可用于制作有声书、Instagram、YouTube、TikTok的配音等场景，采用Kokoro-82M模型，能让生成的语音听起来更自然流畅。

Abogen功能

1、支持多种文件格式：ePub、PDF、TXT文件都能处理。

2、语音混合器：能混合不同语音模型创建自定义语音，调整各语音权重后还能保存为配置文件供以后使用。

3、章节控制：处理ePUB文件时可选择特定章节，处理PDF文件时能选择章节和页面，处理文件时会自动添加章节标记<<CHAPTER_MARKER:Chapter Title>> ，也能手动在文本文件中添加，这样可以按章节拆分音频文件，出现错误时能只重新处理特定章节，节省时间。

4、丰富的选项：可以替换文本中的单个换行符为空格；配置每个字幕条的最大单词数；创建桌面快捷方式；打开配置文件和临时文件目录；清除所有临时文件；启动时自动检查更新。

Abogen安装方法

1、Windows系统：先去espeak-ng的最新发布页面下载并运行.msi文件。如果使用NVIDIA GPU，运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128 。然后pip install abogen安装Abogen，也可以下载代码库，解压ZIP文件后，双击运行WINDOWS_INSTALL.bat，会自动安装所有依赖，包括在独立环境中安装CUDA，不过还是需要手动安装espeak-ng。

2、Mac系统：在终端运行brew install espeak-ng安装espeak-ng，接着pip install abogen安装Abogen，该方法未经过全面测试。

3、Linux系统：不同的Linux发行版安装espeak-ng的命令不同，Ubuntu/Debian系统用sudo apt install espeak-ng ，Arch Linux用sudo pacman -S espeak-ng，Fedora用sudo dnf install espeak-ng。安装好espeak-ng后，pip install abogen安装Abogen，要是遇到 “No matching distribution found” 错误，试试在支持的Python 3.10到3.12版本上安装，可以用pyenv轻松管理多个Python版本。

4、Docker安装：下载并解压代码库，或者用git克隆。进入abogen文件夹，里面有Dockerfile文件。在该目录下打开终端，运行docker build --progress plain -t abogen .构建Docker镜像，构建过程可能需要一些时间，构建完成后，根据不同系统运行相应命令启动容器：

Windows：docker run --name abogen -v %cd%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen

Linux：docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen

MacOS：docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen

可以通过http://localhost:5800在浏览器访问，或者用VNC客户端连接localhost:5900 。使用/shared目录在主机和容器间共享文件，之后启动容器用docker start abogen ，停止用docker stop abogen。在容器内存在一些问题，比如音频预览无法使用（ALSA错误），设置中的“打开临时目录”和“打开配置目录”选项也无法正常工作。

Abogen使用方法

打开Abogen后，把ePub、PDF或文本文件拖放到指定区域，或者点击浏览选择文件，也能使用内置文本编辑器输入内容，接着设置各项参数：

1、语速：可以在0.1x到2.0x之间调整。

2、语音选择：通过语言代码首字母选择语言，如“a”代表美式英语，“b”代表英式英语等；第二个字母“m”代表男性声音，“f”代表女性声音，能使用语音混合器创建自定义语音。

3、字幕生成样式：有“Disabled”、“Sentence”、“Sentence + Comma”、“1 word”、“2 words”、“3 words”等多种选择，代表每个字幕条包含的单词数。目前字幕生成仅支持英文，因为Kokoro仅为英文文本提供时间戳标记，若需要其他语言的字幕，得在Kokoro项目中提出该需求。

4、输出格式：支持.WAV、.FLAC、.MP3和.M4B（含章节）等格式。

5、保存位置：可以选择“Save next to input file”、“Save to desktop”或“Choose output folder”。

设置好后，点击“Start”开始转换。转换完成后，有“Open file”、“Go to folder”、“New conversion”、“Go back”等选项。

Abogen支持语言

Abogen支持多种语言，包括美式英语（代码“a”）、英式英语（代码“b”）、西班牙语（代码“e”）、法语（代码“f”）、印地语（代码“h”）、意大利语（代码“i”）、日语（安装misaki[ja]）、巴西葡萄牙语（代码“p”）、中文（安装misaki[zh]）。

MPV配置

推荐用MPV播放生成的音频文件，MPV能在没有视频轨道的情况下显示字幕，可以参考下面的mpv.conf配置：

save-position-on-quit
keep-open=yes
--audio-device=openal
--sub-margin-x=235
--sub-pos=60
# --- 音频质量 ---
audio-spdif=ac3,dts,eac3,truehd,dts-hd
audio-channels=auto
audio-samplerate=48000
volume-max=200