8000 GitHub - hoadm-net/FTVPLM: Tinh chỉnh mô hình ngôn ngữ lớn tiếng Việt cho một số tác vụ xử lý ngôn ngữ tự nhiên.
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

Tinh chỉnh mô hình ngôn ngữ lớn tiếng Việt cho một số tác vụ xử lý ngôn ngữ tự nhiên.

Notifications You must be signed in to change notification settings

hoadm-net/FTVPLM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tinh chỉnh mô hình ngôn ngữ lớn tiếng Việt cho một số tác vụ xử lý ngôn ngữ tự nhiên.

1. Mục tiêu

  • Tìm hiểu, so sánh 2 kỹ thuật tinh chỉnh phổ biến trong thời điểm hiện tại:
    • Tinh chỉnh toàn phần (full fine-tune - FFT)
    • LoRA (Low-Rank Adaptation of Large Language Models)
  • Sử dụng nhiều GPUs để hỗ trợ tinh chỉnh các mô hình ngôn ngữ lớn đồng thời
  • Tinh chỉnh mô hình ngôn ngữ lớn cho 2 tác vụ xử lý ngôn ngữ tự nhiên
    • Phân tích cảm xúc (Sentiment Analysis - SA)
    • Nhận dạng thực thể có tên (Named Entity Recognition - NER)

2. Datasets

3. Các mô hình ngôn ngữ lớn cho tiếng Việt

4. Fine-tuning Techniques

  1. Full Model Fine-tuning
  2. LoRA (Low-Rank Adaptation)

5. Cài đặt các gói phụ thuộc

  • Pytorch
  • Jupyter Notebook (Nếu cần)
  • Cài đặt Transformer phiên bản mới nhất cho bài toán SA trên tập UIT-VSFC (để chạy ViT5 cho bài toán SequenceClassification)
  • Cài đặt Transformer phiên bản có thể sử dụng Fast text cho PhoBERT theo hướng dẫn tại Repo PhoBERT để chạy bài toán NER
pip install pandas
pip install datasets adapters peft bitsandbytes
pip install lightning torchmetrics
pip install underthesea
pip install matplotlib seaborn
pip install peft==0.5.0

About

Tinh chỉnh mô hình ngôn ngữ lớn tiếng Việt cho một số tác vụ xử lý ngôn ngữ tự nhiên.

Topics

Resources

Stars

Watchers

Forks

Languages

0