Я пытаюсь построить решение, которое принесет статистику и анализ по большому количеству контрактов. Все мои контракты соответствуют той же структуре или таксономии. Мой подход состоит в том, чтобы прочитать все контракты из каталога и использовать PlaintextCorpusReader из nltk.corpus для последующего семантического анализа. Моя конечная цель - использовать файлы PDF с NLTK. Во время работы с txt-файлами результат анализа кажется неплохим, однако я изо всех сил пытаюсь создать корпус из файлов pdf.
Как вы можете заметить, я только начал это путешествие, и мне нужно немного советов.
1 - Какой был бы наиболее эффективный способ создания корпуса и какой библиотеки вы бы использовали? 2 - Можно ли разобрать PDF в тексте, или есть какой-либо другой осмысленный способ создания корпуса для извлечения данных