8000 GitHub - toibaonguyen/Demo-fpt
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

toibaonguyen/Demo-fpt

Repository files navigation

  • Bước 1: Cài đặt python 3.12.1
  • Bước 2: Clone source này về
  • Bước 3: Mở terminal và chạy các lệnh sau để tạo môi trường ảo: py -3.12.1 -m pip install virtualenv py -3.12.1 -m virtualenv venv
  • Bước 4: Kích hoạt môi trường ảo bằng lệnh sau: venv\Scripts\activate
  • Bước 5: Chạy các lệnh sau để cài các thư viện cần thiết: pip install opencv-python pip install numpy pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu pip install easyocr
  • Bước 6: Cài các extension sau:

image

  • Bước 7: Bỏ ảnh đúng format của table vào thư mục images:

image

  • Bước 8: Đặt giá trị đường dẫn của ảnh vào biến path_to_image trong file main.py:

image

  • Bước 9: Chạy file main.py dựa vào nút sau hoặc có thể sử dụng cmd để chạy:

image

  • Bước 10: Kiểm tra output trong file output.txt:

image

  • CHÚ THÍCH:
  • Các ảnh bên trong folder process_images là các ảnh ghi lại quá trình chuyển đổi của ảnh:

image

  • Các ảnh bên trong folder ocr_slices là các ảnh được cắt nhỏ ra từ bảng để thực hiện việc đưa vào model ocr để detect text

image

  • LƯU Ý:
  • Format đúng của ảnh phải là một bảng hình chữ nhật gồm N hàng x M cột và các đoạn text, trong mỗi ô nhỏ hình chữ nhật không được quá sát nhau để tránh gây ra vấn đề khi lọc ô:
  • Dưới đây là 2 mẫu chuẩn có thể sử dụng:

    image

    image

  • Dưới đây là mẫu không được:

    image

    Lý do là vì các text trong ô của 2 cột sau quá sát nhau:

    image

  • Ngoài ra có thể sử dụng những model ocr tiếng việt khác để thay thế khi detect text trong từng ô.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

0