Текстовый формат PDF становится стандартом электронного документооборота во всем мире. Поэтому у программистов регулярно возникает задача извлечения текста из таких файлов. Вместе с ней появляются и более сложные задачи, например, получение текстовой структуры документа. Чтобы подружиться с PDF и решать эти задачи, изучим формат данных. После этого познакомимся с C# библиотекой iTextSharp — инструментом для работы с PDF-файлами.
PDF — текстовый формат, но имеет достаточно сложную структуру. Он может содержать мультимедиа, ссылки и многое другое. Для примера возьмем простой тестовый документ. Изучать формат начнем со структуры файла. Он включает четыре раздела.
Заголовок. Заголовком называется первая строка файла. Она содержит информацию о версии PDF. В нашем тестовом документе заголовок выглядит так:
PDF начал свою историю с версии 1.0. Последняя на текущий момент версия — 1.7. Символ % обозначает комментарий в языке PostScript, который лег в основу формата.
Тело. Все содержимое документа находится в теле файла. Типы данных, которые встречаются в теле, рассмотрим в следующем разделе.
Таблица xref. Эта таблица содержит ссылки на все объекты документа. Благодаря ей, не нужно читать весь документ, чтобы найти нужный объект. Таблица xref состоит из секций. Каждая секция соответствует новой версии документа.
Таблица ссылок начинается со слова xref. Каждая секция начинается с двух чисел: идентификатора первого объекта и количества объектов в секции. Объекты представляются двумя последовательностями байтов. Первая соответствует позиции первого байта объекта в файле, а вторая — номеру поколения. О поколениях и метках f и n будет немного позже.
Хвост. Этот раздел дает информацию о расположении ключевых объектов в файле. Например, в нем прописано смещение таблицы xref от начала файла. Поэтому любое программное чтение PDF-документа начинается с хвоста. В нашем примере:
Хвост начинается с ключевого слова trailer. Он включает в себя словарь с мета-информацией о документе и позицию начала таблицы ссылок. Конец файла отмечается строкой %%EOF. В словарь хвоста входят данные о количестве объектов (/Size), ссылки на каталог документа (/Root — об этом немного позже) и информационный словарь (/Info), а также идентификатор файла (/ID).
В теле документа содержится вся информация, которая отображается пользователю. Она может быть представлена восемью типами данных:
Любой PDF-объект может быть помечен уникальным идентификатором и использоваться как ссылка. Такие объекты называются косвенными. Они начинаются с идентификатора, номера поколения и ключевого слова obj. Заканчивается косвенный объект словом endobj. На эти объекты можно ссылаться в таблице xref и любом другом объекте (для этого используется символ R). Так как они содержатся в таблице ссылок, доступ к ним осуществляется очень быстро.
Формат PDF спроектирован с идеей инкрементальных обновлений документа. То есть, при изменении содержимого, файл не перезаписывается заново. В его конец добавляются новый заголовок, xref таблица и хвост. В новых таблицах ссылок будут записаны только те объекты, которые были добавлены, изменены или удалены. Удаленные объекты помечаются символом f, а новые символом n. Каждый хвост содержит запись /Prev, которая указывает на предыдущую таблицу xref.
Содержимое документа составляют объекты из тела файла. Как мы уже выяснили, они могут содержать ссылки друг на друга. На деле ссылочная структура объектов представляет собой дерево. В корне находится объект, который называется каталог документа. Его потомки — важные структурные элементы, одним из которых является дерево страниц. Рассмотрим подробнее, что оно из себя представляет.
Каталог документа ссылается на корень дерева страниц. Листья дерева являются страницами. Каждый узел дерева содержит информацию о родителе, детях и количестве листьев среди потомков. Каждую страницу документа можно найти по записи /Page, корень дерева страниц — по записи /Pages, а каталог документа — по /Catalog.
Теперь, когда мы получили общее представление о формате данных PDF, мы можем перейти к связанным с ним задачам. Структура PDF-документов сложна, поэтому даже задача извлечения текста не является тривиальной. Текст содержится в объектах, где есть потоки. Обычно он сжат, возможно, несколькими способами. Об этом скажут те самые фильтры из мета-информации потока. Кроме того, каждый символ в потоке зашифрован в соответствии с таблицей символов, которая также хранится в PDF-документе.
Мы не будем самостоятельно реализовывать алгоритм извлечения текста. Если вы используете язык C# для решения своих задач, подходящим инструментом для работы с PDF-документами будет библиотека iTextSharp. Она предоставляет интерфейс к той структуре, что мы обсудили, и реализует решения стандартных задач.
Для работы с существующим PDF-документом создадим экземпляр класса PdfReader.
PdfReader содержит информацию о всех тех объектах, которые были рассмотрены. Например, мы можем просмотреть мета-информацию каталога документа:
Результат:
Для извлечения текста из документа используется статический класс PdfTextExtractor. Помимо PdfReader’а он принимает на вход номер страницы.
Задачи, связанные со структурой текста, такие как выделение параграфов, заголовков и тому подобные вообще не имеют общего решения. Это связано с тем, что в PDF-файле не хранится этой информации, только лишь потоки текста. Но PdfTextExtractor может принимать третий параметр – реализацию интерфейса ITextExtractionStrategy. Вы можете написать свою стратегию обработки текста, которая будет учитывать специфичные для вашего случая параметры (позицию на странице, шрифт и т.д.). В результате вы получите не только текст, но и структурные элементы.
Формат PDF был тщательно спроектирован и имеет достаточно замысловатую структуру. Он имеет механизмы для инкрементального обновления, что позволяет рационально сохранять новые версии файла и хранить историю документа. Кроме того, PDF-файл может включать сложные мультимедийные элементы. Однако работа с текстом документа тоже усложняется. iTextSharp – вариант C# разработчиков для взаимодействия с PDF-документами.
Written on February 2nd , 2018 by Alexey Kalina