- Bước 1: Cài đặt python 3.12.1
- Bước 2: Clone source này về
- Bước 3: Mở terminal và chạy các lệnh sau để tạo môi trường ảo: py -3.12.1 -m pip install virtualenv py -3.12.1 -m virtualenv venv
- Bước 4: Kích hoạt môi trường ảo bằng lệnh sau: venv\Scripts\activate
- Bước 5: Chạy các lệnh sau để cài các thư viện cần thiết: pip install opencv-python pip install numpy pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu pip install easyocr
- Bước 6: Cài các extension sau:
- Bước 7: Bỏ ảnh đúng format của table vào thư mục images:
- Bước 8: Đặt giá trị đường dẫn của ảnh vào biến path_to_image trong file main.py:
- Bước 9: Chạy file main.py dựa vào nút sau hoặc có thể sử dụng cmd để chạy:
- Bước 10: Kiểm tra output trong file output.txt:
- CHÚ THÍCH:
- Các ảnh bên trong folder process_images là các ảnh ghi lại quá trình chuyển đổi của ảnh:
- Các ảnh bên trong folder ocr_slices là các ảnh được cắt nhỏ ra từ bảng để thực hiện việc đưa vào model ocr để detect text
- LƯU Ý:
- Format đúng của ảnh phải là một bảng hình chữ nhật gồm N hàng x M cột và các đoạn text, trong mỗi ô nhỏ hình chữ nhật không được quá sát nhau để tránh gây ra vấn đề khi lọc ô:
-
Dưới đây là 2 mẫu chuẩn có thể sử dụng:
-
Dưới đây là mẫu không được:
Lý do là vì các text trong ô của 2 cột sau quá sát nhau:
- Ngoài ra có thể sử dụng những model ocr tiếng việt khác để thay thế khi detect text trong từng ô.