PodcastVox

Gemini と VOICEVOX を使用して、Web ページからポッドキャスト音声を自動生成する WebUI

概要

PodcastVoxは、Web ページや学術論文、ドキュメントなどの PDF 等の URL を入力として、以下の処理を自動で行います：

Web ページ解析: URL からテキストコンテンツを抽出
ブログ記事生成: AIが Web ページの内容を分かりやすく解説する記事を作成
対話台本生成: ポッドキャスト形式の会話台本を生成
音声合成: VOICEVOX API を使用して自然な音声ファイルを生成

主な機能

📄 URL から自動でコンテンツを取得
🤖 Gemini による内容の理解と解説生成
🎭 スピーカーとサポーターの二人による自然な対話形式
🎤 VOICEVOX API 対応の音声合成
🌐 直感的な Gradio Web UI
🔄 音声話者の変更・再録音機能

必要な環境

uv
VOICEVOX の API に対応した音声合成エンドポイント (Aivis Speech など)
Gemini API キー

インストール

リポジトリをクローン:

git clone github.com/p1atdev/podcastvox
cd podcastvox

仮想環境の作成:

uv sync

セットアップ

1. 音声合成エンジンの準備

VOICEVOXの場合:

VOICEVOX公式サイトからダウンロード
アプリケーションを起動 (API: http://127.0.0.1:50021)

Aivis Speechの場合 (推奨):

Aivis Speech公式サイトからダウンロード
アプリケーションを起動 (API: http://127.0.0.1:10101)

2. API キーの設定

.envファイルを作成し、Gemini API キーを設定:

GEMINI_API_KEY=your_gemini_api_key_here

Gemini API キーはGoogle AI Studioで取得できます。

使用方法

Web UI の起動

source .venv/bin/activate
python webui.py
# または
# ./scripts/webui.sh
# または
# ./scripts/webui.bat

ブラウザで表示されるURLにアクセスし、以下の手順で使用：

VOICEVOXエンドポイントを確認（通常は http://127.0.0.1:50021）
話者を選択（メイン話者とサポーター話者）
Gemini API Keyを入力（環境変数で設定済みの場合は不要）
PDFのURLを入力（例: https://arxiv.org/pdf/2308.06721）
Synthesizeボタンをクリック

サンプル生成物

./sample では生成された解説記事や対話台本、構造化された対話の JSON ファイルを置いているので、どんな感じになるのか確認できます。

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.vscode		.vscode
assets		assets
sample		sample
scripts		scripts
src		src
tests		tests
.env.example		.env.example
.gitignore		.gitignore
.python-version		.python-version
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml
uv.lock		uv.lock
webui.py		webui.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

PodcastVox

概要

主な機能

必要な環境

インストール

セットアップ

1. 音声合成エンジンの準備

2. API キーの設定

使用方法

Web UI の起動

サンプル生成物

About

Uh oh!

Releases

Packages

Languages

License

p1atdev/podcastvox

Folders and files

Latest commit

History

Repository files navigation

PodcastVox

概要

主な機能

必要な環境

インストール

セットアップ

1. 音声合成エンジンの準備

2. API キーの設定

使用方法

Web UI の起動

サンプル生成物

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages