Open
Description
Добрый день!
При извлечении таблицы из PDF-документа, оформленного с рамками ГОСТ, последняя строка таблицы распознаётся неправильно как обычный текст (raw_text). Рамки таблицы ровные и чёткие.
Неверно распознанный фрагмент:
Приложение Л
id = 0.1 ; type = raw_text
Технические условия от 04.12.2023 №15 МКУ
([table 0](https://dedoc-readme.hf.space/upload#6d365674-5230-4254-a488-9b6bd14ffd8c))«Благоустройства и жилищно-коммунальное хозяй-
ство Беловского городского округа» на пересечение и
сближение с автомобильными дорогами (2 листа)
97
id = 0.2 ; type = raw_text_
Параметры запроса:
data = {
"document_type": "other",
"structure_type": "tree",
"with_attachments": "true",
"need_content_analysis": "true",
"return_base64": "false",
"need_pdf_table_analysis": "true",
"pdf_with_text_layer": "auto_tabby",
"fast_textual_layer_detection": "false",
"need_gost_frame_analysis": "true",
"language": "rus",
"is_one_column_document": "auto",
"document_orientation": "auto",
"need_header_footer_analysis": "true",
"need_binarization": "false",
"pages": ":",
"return_format": 'html'
}
Version: 2.3.2
Аналогичная проблема воспроизводится в демо-версии.
Файл PDF для воспроизведения проблемы:
test1.pdf
Metadata
Metadata
Assignees
Labels
No labels