Extracting tables from pdf

Добрый день!

При извлечении таблицы из PDF-документа, оформленного с рамками ГОСТ, последняя строка таблицы распознаётся неправильно как обычный текст (raw_text). Рамки таблицы ровные и чёткие.

Неверно распознанный фрагмент:

Приложение Л
     id = 0.1 ; type = raw_text
     Технические условия от 04.12.2023 №15 МКУ
     ([table 0](https://dedoc-readme.hf.space/upload#6d365674-5230-4254-a488-9b6bd14ffd8c))«Благоустройства и жилищно-коммунальное хозяй-
    ство Беловского городского округа» на пересечение и
    сближение с автомобильными дорогами (2 листа)
    97
     id = 0.2 ; type = raw_text_

Параметры запроса:

data = {
    "document_type": "other",
    "structure_type": "tree",
    "with_attachments": "true",
    "need_content_analysis": "true",
    "return_base64": "false",
    "need_pdf_table_analysis": "true",
    "pdf_with_text_layer": "auto_tabby",
    "fast_textual_layer_detection": "false",
    "need_gost_frame_analysis": "true",
    "language": "rus",
    "is_one_column_document": "auto",
    "document_orientation": "auto",
    "need_header_footer_analysis": "true",
    "need_binarization": "false",
    "pages": ":",
    "return_format": 'html'
}

Version: 2.3.2
Аналогичная проблема воспроизводится в демо-версии.

Файл PDF для воспроизведения проблемы:
test1.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions