DiffRhythm (谛韵) egy mesterséges intelligencia alapú dallamgeneráló rendszer, amely időzített dalszövegekből (LRC formátum) és referencia hanganyagból képes teljes dalokat létrehozni.
- Teljes dalok generálása időzített dalszövegek (LRC formátum) alapján
- Hangstílus meghatározása referencia hanganyag segítségével
- LLM-vezérelt dalszöveg időzítés generálása
- Alacsony memóriaigényű üzemmód korlátozott GPU erőforrásokkal rendelkező rendszerekhez
- Többnyelvű támogatás (angol, kínai és egyéb nyelvek)
- Rugalmas kimeneti formátumok (WAV, MP3, OGG)
- Python 3.8 vagy újabb
- CUDA 11.7 vagy újabb (GPU használatához)
- FFmpeg (hang kódoláshoz)
A DiffRhythm rendszer felhőben is futtatható RunPod használatával:
Ajánlott konfiguráció:
- GPU: Nvidia A40 48 GByte VRAM
- Template: RunPod PyTorch 2.4.0
Telepítési lépések RunPod környezetben:
git clone https://github.com/mp3pintyo/DiffRhythm.git
cd DiffRhythm
pip install -r requirements.txt
pip install openai spaces
apt-get update && apt-get install -y espeak
# A modellek automatikusan letöltődnek az első futtatáskor
python app.py
-
Zenegenerálás fül:
- Illessze be az időzített dalszöveget LRC formátumban
- Töltsön fel egy referencia hanganyagot (legalább 10 másodperc)
- Állítsa be a generálási paramétereket (lépések száma, kimeneti formátum)
- Kattintson a "Submit" gombra a dal generálásához
-
LLM-vezérelt LRC generálás fül:
- Téma alapú generálás: Adjon meg egy témát és stílusjelzőket
- Időzítés hozzáadása: Adjon meg egyszerű dalszöveget időzítés nélkül, és a rendszer automatikusan hozzáadja a megfelelő időzítést
- Hiányzó modellfájlok: Az első futtatáskor automatikusan letöltődnek
- Espeak nyelvi hibák: A program automatikusan angol nyelvű feldolgozásra vált nem támogatott nyelvek esetén
- Rövid hanganyagok: A rendszer automatikusan ismétli a rövid hanganyagokat a minimális 10 másodperces hossz eléréséhez
- Architektúra: Diffúziós modell zenei generáláshoz
- Audio kódolás: VAE alapú audio dekóder
- Nyelvfeldolgozás: Grapheme-to-Phoneme konverzió különböző nyelveken
- Stílus embedding: Zenei stílusok reprezentálása MuLan embeddinggel
- Hosszabb dalok generálása (jelenleg maximum 95 másodperc)
- Több referencia hanganyag kombinálása
- Valós idejű generálás
- Finomhangolási lehetőségek a generált zenében
Ez a projekt az Apache License 2.0 alatt áll, módosítva az eredeti ASLP-lab/DiffRhythm projektből.
- Alapja a DiffRhythm: Modeling and Generating Musical Rhythms with Conditional Latent Diffusion kutatási tanulmány
- Az eredeti implementáció forrása: ASLP-lab/DiffRhythm
- MuQ-MuLan modellek: OpenMuQ