Этот инструмент предоставляет набор инструментов для извлечения информации из PDF-файлов, а также экспорта её во внешний текстовый или CSV-файл, или в их поля информации метаданных.
Существует два инструмента, которые используют силу регулярных выражений для поиска и извлечения из текстового содержания документов и один, который извлекает информацию о размере страниц документов медиа.
Иструмент Поиск в текстовом содержании запускается определяемым пользователем регулярным выражением из текстового содержимого документа, экспортируя текст, проверяемый правилами регулярных выражений, в определяемые пользователем поля метаданных документа или во внешний текстовый, или CSV-файл.
Регулярные выражения очень продвинутая техника поиска текста, которая применяет метод проверки определяемыми пользователем шаблонными правилами для обработки текста, чтобы изолировать и извлечь текст с требуемыми характеристиками. Синтаксис регулярных выражений является предметом весьма исчерпывающим и здесь не обсуждается. Тем не менее, в интернете имеется много информации на эту тему.
Так как эта техника работает с текстовыми моделями, этот инструмент полезен при наличии более одного документа с одинаковыми характеристиками текстового содержания, что позволяет определить регулярное выражение действительное для всех документов. Определение регулярного выражения способного извлечь заданную текстовую модель - сложная задача, а в некоторых случаях и невозможная. И нелёгкая для неопытных пользователей.
Заключённая в красный прямоугольник кнопка библиотеки обеспечивает доступ к некоторым регулярным выражениям по умолчанию для извлечения номеров ISBN и DOI и адресов email и URL. Это может быть полезно тем, кто не начал изучать регулярные выражения.
Другой инструмент Получить размеры страниц используется для извлечения информации о размере страниц документов PDF медиа. Страница документа в формате PDF может быть определена набором различных границ страницы, используемым для определения размера и некоторыми другими, более техничными используемыми границами, соответствующими содержимому страницы.
Так как документ в формате PDF может быть больше размера одной страницы, инструмент будет извлекать минимальные, максимальные и средние значения переменных ширины и высоты окна, а также общей площади, чтобы выбрать и извлечь границы окна. Существует также возможность определить использованные единицы и куда извлечь эти значения (в поля метаданных документа, во внешний текст или CSV-файл).