Polski model językowy inspirowany PLLuM - demokratyzacja AI dla języka polskiego
WronAI to open-source projekt mający na celu stworzenie efektywnego polskiego modelu językowego, który można trenować i uruchamiać na sprzęcie konsumenckim. Projekt wykorzystuje najnowsze techniki optymalizacji jak QLoRA, gradient checkpointing i kwantyzację do osiągnięcia maksymalnej wydajności przy minimalnych wymaganiach sprzętowych.
- Dostępność: Model możliwy do uruchomienia na GPU 8GB+
- Język polski: Specjalizacja w przetwarzaniu języka polskiego
- Open Source: Pełna otwartość kodu i danych treningowych
- Społeczność: Budowa ekosystemu wokół polskich modeli AI
WronAI bazuje na sprawdzonych rozwiązaniach:
- Model bazowy: Mistral-7B z QLoRA fine-tuningiem
- Kwantyzacja: 4-bitowa NF4 dla optymalizacji pamięci
- Corpus: ~50GB polskich tekstów wysokiej jakości
- Alignment: Polski dataset preferencji dla RLHF
# Klonowanie repozytorium
git clone https://github.com/wronai/llm.git
cd llm
# Utworzenie i aktywacja wirtualnego środowiska (zalecane)
python -m venv wronai-env
source wronai-env/bin/activate # Linux/Mac
# wronai-env\Scripts\activate # Windows
# Instalacja dependencies
pip install -r requirements.txt
# Alternatywna instalacja w przypadku problemów (instalacja pakietów pojedynczo)
# pip install torch transformers accelerate peft datasets evaluate
# pip install bitsandbytes scipy tokenizers sentencepiece regex spacy
# pip install beautifulsoup4 requests aiohttp scrapy
# pip install pyyaml omegaconf loguru rich
# pip install wandb
# Przygotowanie danych
python scripts/prepare_data.py
# Trening modelu
python scripts/train.py --config configs/default.yaml
# Inferencja
python scripts/inference.py --model checkpoints/wronai-7b --prompt "Opowiedz o Polsce"
Uwaga: Jeśli napotkasz problem z instalacją modelu języka polskiego (
pl_core_news_sm
), możesz kontynuować pracę z projektem. Model ten jest opcjonalny i używany tylko do niektórych zaawansowanych funkcji przetwarzania tekstu.
Model | Parametry | VRAM | Polish Score | Licensing |
---|---|---|---|---|
WronAI-7B | 7B | 8GB | 7.2/10 | Apache 2.0 |
PLLuM-8x7B | 46.7B | 40GB+ | 8.5/10 | Custom |
Bielik-7B | 7B | 14GB | 7.8/10 | Apache 2.0 |
- GPU: NVIDIA RTX 3070/4060 Ti (8GB VRAM)
- RAM: 16GB DDR4
- Storage: 100GB wolnego miejsca
- OS: Linux/Windows + CUDA 11.8+
- GPU: NVIDIA RTX 4080/4090 (16GB+ VRAM)
- RAM: 32GB DDR4/DDR5
- Storage: 500GB NVMe SSD
- OS: Ubuntu 22.04 LTS
- GPU: 6GB VRAM (z kwantyzacją)
- RAM: 8GB
- Storage: 4GB dla modelu
WronAI/
├── configs/ # Konfiguracje treningowe
├── data/ # Skrypty do obsługi danych
├── docs/ # Dokumentacja
├── models/ # Definicje architektur
├── scripts/ # Skrypty treningowe i inferencji
├── tests/ # Testy jednostkowe
├── notebooks/ # Jupyter notebooks z przykładami
├── checkpoints/ # Wytrenowane modele
└── requirements.txt # Zależności Python
Zapraszamy do współpracy! Zobacz CONTRIBUTING.md aby dowiedzieć się jak możesz pomóc:
- 🐛 Zgłaszanie błędów
- 💡 Propozycje nowych funkcji
- 📝 Poprawa dokumentacji
- 🔧 Implementacja nowych features
- 📊 Dodawanie benchmarków
- ✅ Model trenowany na <8GB VRAM
- ✅ Polski corpus 50GB+ wysokiej jakości
- ✅ RLHF alignment dla języka polskiego
- ✅ Integracja z Hugging Face Hub
- ✅ Docker containers dla łatwego wdrożenia
- 🔄 Web interface (w trakcie)
- 🔄 Mobile app (planowane)
- Podstawowy QLoRA fine-tuning
- Polski corpus przygotowanie
- Baseline benchmarki
- RLHF implementation
- Multi-GPU training support
- Web interface
- API endpoints
- Mixture of Experts (MoE)
- Retrieval Augmented Generation (RAG)
- Mobile deployment
- Enterprise features
- Production-ready release
- Full documentation
- Commercial support
- Community ecosystem
- Główny developer: @tom-sapletta-com
- Lingwista komputacyjny: Potrzebny volunteer
- DevOps: Potrzebny volunteer
- Community manager: Potrzebny volunteer
Ten projekt jest dostępny na licencji Apache 2.0. Zobacz LICENSE po szczegóły.
- Otwarte dane: Apache 2.0, CC-BY-SA (komercyjne OK)
- Dane badawcze: Tylko do celów niekomercyjnych
- Model weights: Apache 2.0
- Bielik Team za inspirację i wsparcie
- Mistral AI za model bazowy
- Hugging Face za infrastrukturę
- Polish NLP Community za wsparcie
- CLARIN-PL za resources
- Issues: GitHub Issues
- Discussions: GitHub Discussions
- Email: info@softreck.dev
- Discord: WronAI Community
WronAI - Demokratyzacja polskiej sztucznej inteligencji 🇵🇱🤖