8000 GitHub - zqq-nuli/TaleStreamAI: AI小说推文全自动工作流,自动从ID到视频
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

zqq-nuli/TaleStreamAI

Repository files navigation

AI 小说推文自动化工作流

成片-6小时 爱发电

项目结构

.
├── app
├── data
│   │─ book
├── README.md
└── requirements.txt

项目使用到的大模型

  • DeepSeek-V3
  • gemini-2.0-flash
  • 硅基智能-FunAudioLLM/CosyVoice2-0.5B
  • 秋葉 aaaki forge 整合包

项目流程

文件名 功能 模型/库
main.py 获取书籍内容
board.py 生成章节分镜 gemini-2.0-flash
prompt.py 润色分镜提示词 deepseek-v3
image.py 生成图片 秋葉 aaaki forge 版
audio.py 生成音频 CosyVoice2-0.5B:benjamin
tts.py 生成字幕 本地运行 whisper
video.py 生成视频 ffmpeg-gpu 加速版
video_end.py 生成完整视频 ffmpeg-gpu 加速版

本地运行

本项目使用的是uv来管理依赖,建议 python 版本>=3.10

  1. 安装uv
pip install uv
  1. 创建虚拟环境
uv venv --python 3.12
    .\.venv\Scripts\activate
  1. 安装包
uv add -r requirements.txt
  1. 安装 torch 环境

    torch 环境请根据你系统的 cuda 版本来安装 torch 官网

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

可以通过nvidia-smi来查询你的显卡支持的最高cuda版本

nvidia-smi
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.94                 Driver Version: 560.94         CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute 
7844
M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4070 Ti   WDDM  |   00000000:01:00.0  On |                  N/A |
|  0%   28C    P8              4W /  285W |    2157MiB /  12282MiB |      2%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

通过 nvcc 来查询你电脑已安装的cuda版本

其实是你环境变量中配置的版本而已,一个电脑上可以安装多个 cuda

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:41:10_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

环境配置

复制 .env.example 文件,改名为 .env
配置其缺少的 APIKey
其中 AUDIO_API_KEY 是可以支持多 Key 轮询的,用,分割
(做到这一步我才意识到可以多 Key 支持高并发 😂 如果需 Gemini 需要高并发的话,可能需要手动去 copy 多 key 的处理的代码到board.py中了)
配置起点达人中心的 Cookie 用来抓取小说 起点达人中心
安装ffmpeg最好安装GPU加速版,否则生成的很慢(好像新一点的版本都已经支持gpu加速了) Github
使用 ffmpeg -hwaccels 来列出硬件加速选项

Hardware acceleration methods:
cuda
vaapi
dxva2
qsv
d3d11va
opencl
vulkan

运行项目

我是直接按照项目流程来逐个运行文件的

uv run app/main.py     # 获取小说内容
uv run board.py    # 生成分镜
uv run prompt.py   # 优化提示词
uv run image.py    # 生成图片
uv run audio.py    # 合成音频  
uv run tts.py      # 生成字幕
uv run video.py    # 制作分镜视频
uv run video_end.py # 最终合成

如果你想要直接运行 也可以直接运行 main.py

uv run main.py

Whisper 模型规格概览

Whisper 模型规格

模型规格 参数量 最低显存要求
Tiny 39M ~1GB
Base 74M ~1GB
Small 244M ~2GB
Medium 769M ~5GB
Large 1550M ~10GB
Large-v2 1550M ~10GB
Large-v3 1550M ~10GB
  1. 运行示例代码 可以先写个测试,运行示例代码来下载 Whisper
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# 选择适合您显存的模型大小,例如"medium"
model_id = "openai/whisper-medium"

# 启用半精度以节省显存
processor = WhisperProcessor.from_pretrained(model_id)
model = WhisperForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 确保模型在GPU上运行
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

About

AI小说推文全自动工作流,自动从ID到视频

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

0