Gemini と VOICEVOX を使用して、Web ページからポッドキャスト音声を自動生成する WebUI
PodcastVoxは、Web ページや学術論文、ドキュメントなどの PDF 等の URL を入力として、以下の処理を自動で行います:
- Web ページ解析: URL からテキストコンテンツを抽出
- ブログ記事生成: AIが Web ページの内容を分かりやすく解説する記事を作成
- 対話台本生成: ポッドキャスト形式の会話台本を生成
- 音声合成: VOICEVOX API を使用して自然な音声ファイルを生成
- 📄 URL から自動でコンテンツを取得
- 🤖 Gemini による内容の理解と解説生成
- 🎭 スピーカーとサポーターの二人による自然な対話形式
- 🎤 VOICEVOX API 対応の音声合成
- 🌐 直感的な Gradio Web UI
- 🔄 音声話者の変更・再録音機能
- uv
- VOICEVOX の API に対応した音声合成エンドポイント (Aivis Speech など)
- Gemini API キー
- リポジトリをクローン:
git clone github.com/p1atdev/podcastvox
cd podcastvox
- 仮想環境の作成:
uv sync
VOICEVOXの場合:
- VOICEVOX公式サイトからダウンロード
- アプリケーションを起動 (API:
http://127.0.0.1:50021
)
Aivis Speechの場合 (推奨):
- Aivis Speech公式サイトからダウンロード
- アプリケーションを起動 (API:
http://127.0.0.1:10101
)
.env
ファイルを作成し、Gemini API キーを設定:
GEMINI_API_KEY=your_gemini_api_key_here
Gemini API キーはGoogle AI Studioで取得できます。
source .venv/bin/activate
python webui.py
# または
# ./scripts/webui.sh
# または
# ./scripts/webui.bat
ブラウザで表示されるURLにアクセスし、以下の手順で使用:
- VOICEVOXエンドポイントを確認(通常は http://127.0.0.1:50021)
- 話者を選択(メイン話者とサポーター話者)
- Gemini API Keyを入力(環境変数で設定済みの場合は不要)
- PDFのURLを入力(例: https://arxiv.org/pdf/2308.06721)
- Synthesizeボタンをクリック
./sample
では生成された解説記事や対話台本、構造化された対話の JSON ファイルを置いているので、どんな感じになるのか確認できます。