Abogen文字转语音工具能在几秒内把ePub、PDF或文本文件,转化成高质量音频,并自动生成同步字幕,可用于制作有声书、Instagram、YouTube、TikTok的配音等场景,采用Kokoro-82M模型,能让生成的语音听起来更自然流畅。
1、支持多种文件格式:ePub、PDF、TXT文件都能处理。
2、语音混合器:能混合不同语音模型创建自定义语音,调整各语音权重后还能保存为配置文件供以后使用。
3、章节控制:处理ePUB文件时可选择特定章节,处理PDF文件时能选择章节和页面,处理文件时会自动添加章节标记<<CHAPTER_MARKER:Chapter Title>>
,也能手动在文本文件中添加,这样可以按章节拆分音频文件,出现错误时能只重新处理特定章节,节省时间。
4、丰富的选项:可以替换文本中的单个换行符为空格;配置每个字幕条的最大单词数;创建桌面快捷方式;打开配置文件和临时文件目录;清除所有临时文件;启动时自动检查更新。
1、Windows系统:先去espeak-ng的最新发布页面下载并运行.msi
文件。如果使用NVIDIA GPU,运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
。然后pip install abogen
安装Abogen,也可以下载代码库,解压ZIP文件后,双击运行WINDOWS_INSTALL.bat
,会自动安装所有依赖,包括在独立环境中安装CUDA,不过还是需要手动安装espeak-ng。
2、Mac系统:在终端运行brew install espeak-ng
安装espeak-ng,接着pip install abogen
安装Abogen,该方法未经过全面测试。
3、Linux系统:不同的Linux发行版安装espeak-ng的命令不同,Ubuntu/Debian系统用sudo apt install espeak-ng
,Arch Linux用sudo pacman -S espeak-ng
,Fedora用sudo dnf install espeak-ng
。安装好espeak-ng后,pip install abogen
安装Abogen,要是遇到 “No matching distribution found” 错误,试试在支持的Python 3.10到3.12版本上安装,可以用pyenv轻松管理多个Python版本。
4、Docker安装:下载并解压代码库,或者用git克隆。进入abogen
文件夹,里面有Dockerfile
文件。在该目录下打开终端,运行docker build --progress plain -t abogen .
构建Docker镜像,构建过程可能需要一些时间,构建完成后,根据不同系统运行相应命令启动容器:
Windows:docker run --name abogen -v %cd%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
Linux:docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
MacOS:docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
可以通过http://localhost:5800
在浏览器访问,或者用VNC客户端连接localhost:5900
。使用/shared
目录在主机和容器间共享文件,之后启动容器用docker start abogen
,停止用docker stop abogen
。在容器内存在一些问题,比如音频预览无法使用(ALSA错误) ,设置中的“打开临时目录”和“打开配置目录”选项也无法正常工作。
打开Abogen后,把ePub、PDF或文本文件拖放到指定区域,或者点击浏览选择文件,也能使用内置文本编辑器输入内容,接着设置各项参数:
1、语速:可以在0.1x
到2.0x
之间调整。
2、语音选择:通过语言代码首字母选择语言,如“a”代表美式英语,“b”代表英式英语等;第二个字母“m”代表男性声音,“f”代表女性声音,能使用语音混合器创建自定义语音。
3、字幕生成样式:有“Disabled”、“Sentence”、“Sentence + Comma”、“1 word”、“2 words”、“3 words”等多种选择,代表每个字幕条包含的单词数。目前字幕生成仅支持英文,因为Kokoro仅为英文文本提供时间戳标记,若需要其他语言的字幕,得在Kokoro项目中提出该需求。
4、输出格式:支持.WAV
、.FLAC
、.MP3
和.M4B(含章节)
等格式。
5、保存位置:可以选择“Save next to input file”、“Save to desktop”或“Choose output folder”。
设置好后,点击“Start”开始转换。转换完成后,有“Open file”、“Go to folder”、“New conversion”、“Go back”等选项。
Abogen支持多种语言,包括美式英语(代码“a”)、英式英语(代码“b”)、西班牙语(代码“e”)、法语(代码“f”)、印地语(代码“h”)、意大利语(代码“i”)、日语(安装misaki[ja]
)、巴西葡萄牙语(代码“p”)、中文(安装misaki[zh]
)。
推荐用MPV播放生成的音频文件,MPV能在没有视频轨道的情况下显示字幕,可以参考下面的mpv.conf
配置:
save-position-on-quit
keep-open=yes
--audio-device=openal
--sub-margin-x=235
--sub-pos=60
# --- 音频质量 ---
audio-spdif=ac3,dts,eac3,truehd,dts-hd
audio-channels=auto
audio-samplerate=48000
volume-max=200
如果运行Abogen时遇到问题,可以在命令行输入abogen-cli
,以命令行模式启动,能看到详细的错误信息,之后在项目的Issues页面提交新问题,附上错误信息和问题描述。