DiffRhythm - AI dallamgeneráló rendszer

DiffRhythm (谛韵) egy mesterséges intelligencia alapú dallamgeneráló rendszer, amely időzített dalszövegekből (LRC formátum) és referencia hanganyagból képes teljes dalokat létrehozni.

Főbb jellemzők

Teljes dalok generálása időzített dalszövegek (LRC formátum) alapján
Hangstílus meghatározása referencia hanganyag segítségével
LLM-vezérelt dalszöveg időzítés generálása
Alacsony memóriaigényű üzemmód korlátozott GPU erőforrásokkal rendelkező rendszerekhez
Többnyelvű támogatás (angol, kínai és egyéb nyelvek)
Rugalmas kimeneti formátumok (WAV, MP3, OGG)

Telepítés

Előfeltételek

Python 3.8 vagy újabb
CUDA 11.7 vagy újabb (GPU használatához)
FFmpeg (hang kódoláshoz)

RunPod telepítés

A DiffRhythm rendszer felhőben is futtatható RunPod használatával:

Ajánlott konfiguráció:

GPU: Nvidia A40 48 GByte VRAM
Template: RunPod PyTorch 2.4.0

Telepítési lépések RunPod környezetben:

git clone https://github.com/mp3pintyo/DiffRhythm.git
cd DiffRhythm
pip install -r requirements.txt
pip install openai spaces
apt-get update && apt-get install -y espeak

Használat

Webes felület indítása

# A modellek automatikusan letöltődnek az első futtatáskor
python app.py

Főbb funkciók

Zenegenerálás fül:
- Illessze be az időzített dalszöveget LRC formátumban
- Töltsön fel egy referencia hanganyagot (legalább 10 másodperc)
- Állítsa be a generálási paramétereket (lépések száma, kimeneti formátum)
- Kattintson a "Submit" gombra a dal generálásához
LLM-vezérelt LRC generálás fül:
- Téma alapú generálás: Adjon meg egy témát és stílusjelzőket
- Időzítés hozzáadása: Adjon meg egyszerű dalszöveget időzítés nélkül, és a rendszer automatikusan hozzáadja a megfelelő időzítést

Hibaelhárítás

Hiányzó modellfájlok: Az első futtatáskor automatikusan letöltődnek
Espeak nyelvi hibák: A program automatikusan angol nyelvű feldolgozásra vált nem támogatott nyelvek esetén
Rövid hanganyagok: A rendszer automatikusan ismétli a rövid hanganyagokat a minimális 10 másodperces hossz eléréséhez

Technikai részletek

Architektúra: Diffúziós modell zenei generáláshoz
Audio kódolás: VAE alapú audio dekóder
Nyelvfeldolgozás: Grapheme-to-Phoneme konverzió különböző nyelveken
Stílus embedding: Zenei stílusok reprezentálása MuLan embeddinggel

További fejlesztési irányok

Hosszabb dalok generálása (jelenleg maximum 95 másodperc)
Több referencia hanganyag kombinálása
Valós idejű generálás
Finomhangolási lehetőségek a generált zenében

Licensz

Ez a projekt az Apache License 2.0 alatt áll, módosítva az eredeti ASLP-lab/DiffRhythm projektből.

Elismerések

Alapja a DiffRhythm: Modeling and Generating Musical Rhythms with Conditional Latent Diffusion kutatási tanulmány
Az eredeti implementáció forrása: ASLP-lab/DiffRhythm
MuQ-MuLan modellek: OpenMuQ

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
config		config
dataset		dataset
g2p		g2p
infer		infer
model		model
scripts		scripts
train		train
.gitignore		.gitignore
README.md		README.md
README_EN.md		README_EN.md
app.py		app.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

DiffRhythm - AI dallamgeneráló rendszer

Főbb jellemzők

Telepítés

Előfeltételek

RunPod telepítés

Használat

Webes felület indítása

Főbb funkciók

Hibaelhárítás

Technikai részletek

További fejlesztési irányok

Licensz

Elismerések

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

mp3pintyo/DiffRhythm

Folders and files

Latest commit

History

Repository files navigation

DiffRhythm - AI dallamgeneráló rendszer

Főbb jellemzők

Telepítés

Előfeltételek

RunPod telepítés

Használat

Webes felület indítása

Főbb funkciók

Hibaelhárítás

Technikai részletek

További fejlesztési irányok

Licensz

Elismerések

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages