8000 GitHub - dringu/docKeyword
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

dringu/docKeyword

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 

Repository files navigation

docKeyword

Script python untuk mencari bagian tertentu dari file pdf besar berdasarkan suatu keyword. Script ini dimaksudkan untuk membantu menemukan informasi penting dari sebuah dokumen yang panjang.
Kode dibuat setelah mata lelah membaca Perbup Penjabaran APBD yang panjang.

Alur

  • Ekstraksi teks dari PDF
  • Pencarian keyword pilihan
  • Memberikan konteks hasil

ekstrak.py

Memberi konteks pencarian dengan mengambil beberapa baris atau paragraf di sekitar kata kunci yang ditemukan (100 karakter sebelum dan sesudah kata kunci)

konteks.py

Kesamaan alur dengan ekstrak.py namun dengan penyempurnaan konteks hasil.

  • Penanganan tabel menggunakan tabula-py
  • Menambahkan deteksi kata kunci yang berdekatan (dalam jarak 5 kata, bisa diubah)
  • Mencatat nomor paragraf di mana kata kunci ditemukan
  • Mendeteksi apakah kata kunci ditemukan dalam tabel
  • Menggunakan tqdm untuk menampilkan progress bar saat memproses halaman PDF (waktu ekstrak jauh lebih lama)

llama2.py

Analisa tambahan dari model llama 2. Retrieval berdasarkan kata kunci, bukan vektor.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

0