Создание корпуса из PDF [в режиме ожидания]

Я пытаюсь построить решение, которое принесет статистику и анализ по большому количеству контрактов. Все мои контракты соответствуют той же структуре или таксономии. Мой подход состоит в том, чтобы прочитать все контракты из каталога и использовать PlaintextCorpusReader из nltk.corpus для последующего семантического анализа. Моя конечная цель - использовать файлы PDF с NLTK. Во время работы с txt-файлами результат анализа кажется неплохим, однако я изо всех сил пытаюсь создать корпус из файлов pdf.

Как вы можете заметить, я только начал это путешествие, и мне нужно немного советов.

1 - Какой был бы наиболее эффективный способ создания корпуса и какой библиотеки вы бы использовали? 2 - Можно ли разобрать PDF в тексте, или есть какой-либо другой осмысленный способ создания корпуса для извлечения данных

0
задан 13 August 2018 в 15:30

0 ответов

Другие вопросы по тегам:

Похожие вопросы: