AI 小说推文自动化工作流

项目结构

.
├── app
├── data
│   │─ book
├── README.md
└── requirements.txt

项目使用到的大模型

DeepSeek-V3
gemini-2.0-flash
硅基智能-FunAudioLLM/CosyVoice2-0.5B
秋葉 aaaki forge 整合包

项目流程

文件名	功能	模型/库
main.py	获取书籍内容	无
board.py	生成章节分镜	gemini-2.0-flash
prompt.py	润色分镜提示词	deepseek-v3
image.py	生成图片	秋葉 aaaki forge 版
audio.py	生成音频	CosyVoice2-0.5B:benjamin
tts.py	生成字幕	本地运行 whisper
video.py	生成视频	ffmpeg-gpu 加速版
video_end.py	生成完整视频	ffmpeg-gpu 加速版

本地运行

本项目使用的是uv来管理依赖,建议 python 版本>=3.10

安装uv

pip install uv

创建虚拟环境

uv venv --python 3.12

    .\.venv\Scripts\activate

安装包

uv add -r requirements.txt

安装 torch 环境

torch 环境请根据你系统的 cuda 版本来安装 torch 官网

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

可以通过nvidia-smi来查询你的显卡支持的最高cuda版本

nvidia-smi
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.94                 Driver Version: 560.94         CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute 
7844
M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4070 Ti   WDDM  |   00000000:01:00.0  On |                  N/A |
|  0%   28C    P8              4W /  285W |    2157MiB /  12282MiB |      2%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

通过 nvcc 来查询你电脑已安装的cuda版本

其实是你环境变量中配置的版本而已，一个电脑上可以安装多个 cuda

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:41:10_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

环境配置

复制 .env.example 文件，改名为 .env
配置其缺少的 APIKey
其中 AUDIO_API_KEY 是可以支持多 Key 轮询的，用,分割
(做到这一步我才意识到可以多 Key 支持高并发 😂 如果需 Gemini 需要高并发的话，可能需要手动去 copy 多 key 的处理的代码到board.py中了)
配置起点达人中心的 Cookie 用来抓取小说起点达人中心
安装ffmpeg最好安装GPU加速版，否则生成的很慢(好像新一点的版本都已经支持gpu加速了) Github
使用 ffmpeg -hwaccels 来列出硬件加速选项

Hardware acceleration methods:
cuda
vaapi
dxva2
qsv
d3d11va
opencl
vulkan

运行项目

我是直接按照项目流程来逐个运行文件的

uv run app/main.py     # 获取小说内容
uv run board.py    # 生成分镜
uv run prompt.py   # 优化提示词
uv run image.py    # 生成图片
uv run audio.py    # 合成音频  
uv run tts.py      # 生成字幕
uv run video.py    # 制作分镜视频
uv run video_end.py # 最终合成

如果你想要直接运行也可以直接运行 main.py

uv run main.py

Whisper 模型规格概览

Whisper 模型规格

模型规格	参数量	最低显存要求
Tiny	39M	~1GB
Base	74M	~1GB
Small	244M	~2GB
Medium	769M	~5GB
Large	1550M	~10GB
Large-v2	1550M	~10GB
Large-v3	1550M	~10GB

运行示例代码 可以先写个测试，运行示例代码来下载 Whisper

import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# 选择适合您显存的模型大小，例如"medium"
model_id = "openai/whisper-medium"

# 启用半精度以节省显存
processor = WhisperProcessor.from_pretrained(model_id)
model = WhisperForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 确保模型在GPU上运行
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
app		app
models		models
.env.example		.env.example
.gitignore		8000 .gitignore
.python-version		.python-version
LICENSE		LICENSE
README.md		README.md
main.py		main.py
prompt.txt		prompt.txt
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AI 小说推文自动化工作流

项目结构

项目使用到的大模型

项目流程

本地运行

环境配置

运行项目

Whisper 模型规格概览

About

Releases

Packages

Languages

License

zqq-nuli/TaleStreamAI

Folders and files

Latest commit

History

Repository files navigation

AI 小说推文自动化工作流

项目结构

项目使用到的大模型

项目流程

本地运行

环境配置

运行项目

Whisper 模型规格概览

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages