这是一个 Python 脚本,用于将 EPUB 文件转换为 HTML 格式。
本工具主要适用于以下场景:
- EPUB 内容提取与转换:当您需要将 EPUB 格式的电子书内容提取出来,并转换为更通用的 HTML 格式时,例如用于网页展示、内容存档或进一步处理。
- 长内容分段阅读:对于较长的 EPUB 文件,本工具可以将其按大致的阅读时长(例如5-10分钟的阅读量)分割成多个小的 HTML 文件,方便用户分段阅读,避免一次性加载过多内容导致阅读疲劳或浏览器性能问题。
- 自定义阅读体验:转换后的 HTML 文件可以方便地在各种设备和浏览器上打开,用户也可以根据自己的需求进一步自定义 HTML 的样式和布局。
- 内容二次开发:如果您需要基于 EPUB 的内容进行二次开发,例如构建个人知识库、教学材料等,将 EPUB 转换为 HTML 可以提供一个更易于处理和集成的基础格式。
- Python 3
- pip (Python 包安装器)
-
克隆仓库(或下载文件):
# 如果您安装了 git # git clone <repository_url> # cd epub-to-html
或者,将
epub_to_html.py
和requirements.txt
下载到您的项目目录中。 -
安装依赖: 导航到包含这些文件的目录,并运行:
pip install -r requirements.txt
-
放置您的 EPUB 文件: 将您想要转换的 EPUB 文件放到与脚本相同的目录中,或者在运行时提供 EPUB 文件的完整路径。
-
运行脚本: 从您的终端执行脚本。您可以通过命令行参数指定 EPUB 文件、输出目录以及输出格式(单个文件或多个文件)。
基本用法(将 EPUB 拆分为多个 HTML 文件):
python epub_to_html.py <您的EPUB文件路径> <可选的输出目录路径>
例如:
python epub_to_html.py my_ebook.epub # 或者指定输出目录 python epub_to_html.py my_ebook.epub ./converted_html
输出为单个 HTML 文件: 添加
--single-file
标志:python epub_to_html.py <您的EPUB文件路径> --single-file <可选的输出目录路径>
例如:
python epub_to_html.py my_ebook.epub --single-file # 或者指定输出目录 python epub_to_html.py my_ebook.epub --single-file ./converted_html
参数说明:
<您的EPUB文件路径>
:必需,指定要转换的 EPUB 文件的路径。--single-file
:可选,如果设置此标志,脚本会将整个 EPUB 内容输出到一个 HTML 文件中。如果未设置,则会根据内容长度将 EPUB 拆分为多个 HTML 文件。<可选的输出目录路径>
:可选,指定保存转换后的 HTML 文件的目录。如果未提供,默认为output_html
。
-
查找输出: 脚本将在指定的输出目录(默认为
output_html
)中创建并保存转换后的 HTML 文件。
该脚本使用 EbookLib
库来解析 EPUB 文件。它遍历 EPUB 文件中的文档项目(章节),提取其内容。
- 多文件输出(默认): 脚本会根据内容的字符数(大约1500-3000字符,旨在提供5-10分钟的阅读量)将提取的内容分割成多个部分,每个部分保存为一个单独的 HTML 文件。
- 单文件输出: 如果使用了
--single-file
标志,脚本会将所有提取的内容合并到一个 HTML 文件中。
BeautifulSoup
库用于基本的 HTML 解析和美化输出。
仓库中包含一个 test.epub
文件。您可以直接运行脚本来查看其效果:
转换为多个 HTML 文件:
python epub_to_html.py test.epub
转换为单个 HTML 文件:
python epub_to_html.py test.epub --single-file
转换后的文件将保存在 output_html
目录中。
- 作者: 小华同学AI团队
- 邮箱: shawn@leepm.com
- 官网: https://www.leepm.com
您是否曾为 EPUB 文件在不同设备上的兼容性烦恼?是否想将珍贵的电子书内容转换为更通用、更易于分享和编辑的 HTML 格式?现在,我们为您带来了完美的解决方案——EPUB 转 HTML 转换器!
这款强大而易用的 Python 工具,旨在帮助您轻松解锁 EPUB 内容,将其无缝转换为结构清晰、阅读友好的 HTML 文件。
- 📚 一键转换,简单高效:无论是技术文档、小说还是研究报告,只需一条命令,即可将您的 EPUB 文件快速转换为 HTML。
- 📄 灵活输出,随心选择:
- 单文件模式:将整本电子书合并为一个完整的 HTML 文件,方便整体浏览和存档。
- 多文件模式(智能分段):自动将长篇内容按约 5-10 分钟的阅读量分割成多个小 HTML 文件,优化阅读体验,减轻浏览器负担,非常适合移动设备阅读!
- 🧹 智能目录管理:自动创建
output_html
目录存放转换结果,并在每次运行时清理旧文件,确保输出内容始终是最新的。 - ⚙️ 命令行驱动,专业便捷:通过简洁的命令行参数,您可以轻松指定输入文件、输出目录以及输出模式,满足您的个性化需求。
- 📖 双语文档,清晰指引:提供详尽的中文 (
README.md
) 和英文 (README_en.md
) 使用说明,从安装到高级用法,一应俱全。 - 📦 依赖明确,轻松部署:通过
requirements.txt
文件管理依赖,确保在不同环境中都能顺利运行。 - G Git 友好,版本无忧:贴心包含
.gitignore
文件,帮助您更好地管理项目版本,忽略不必要的文件。
- 解放您的内容:将 EPUB 内容转换为 HTML,意味着您可以在任何支持 HTML 的设备和浏览器上自由阅读,不再受特定阅读器的限制。
- 提升阅读体验:特别是对于长篇内容,智能分段功能能显著提升阅读的舒适度和效率。
- 便于二次开发:转换后的 HTML 文件结构清晰,非常适合进行内容提取、样式自定义、知识库构建等二次开发工作。
- 开源免费,持续迭代:我们致力于提供一个稳定、高效且不断完善的工具。
- 需要将 EPUB 电子书内容用于网页展示或在线分享。
- 希望将大量 EPUB 资料转换为易于存档和检索的 HTML 格式。
- 开发者需要从 EPUB 中提取文本或结构化数据进行进一步处理。
- 教育工作者希望将 EPUB 教材转换为更灵活的在线学习资源。
访问我们的项目仓库,下载脚本,按照 README.md
中的指引,几分钟内即可开始您的 EPUB 转换之旅!
我们相信,这款精心打造的 EPUB 转 HTML 转换器将成为您处理电子书内容的得力助手!