У меня есть отсканированный файл, текст которого уже распознан, но его вес составляет 80 мегабайт. В процессе сканирования я делал глупые вещи, такие как сканирование в оттенках серого. Теперь у PDF есть огромный рой штрихов и штрихов. Я считаю, что размер обусловлен тем, что все эти пятна.
Простое преобразование с помощью, кажется, не является решением здесь
ps -dPDFSETTINGS=/screen
Это приводит к тому, что шрифты становятся неровными и неприятными для чтения. Практически каждый второй вопрос об уменьшении размера решается с помощью понижающей дискретизации, включающей одно или другое преобразование, которое наносит вред тексту больше, чем что-либо еще.
Есть ли способ отказаться от этой исходной информации и сохранить фактический текст?
Если требуется иметь только текст без большого форматирования, Вы могли бы попробовать эту команду:
less yourfile.pdf >> output.txt
, Если документ не имел "роя тире и перечеркивал метки" на исходном сканировании, у меня обычно есть большие результаты с этот сайт для сокращения размера PDF.
"index_files": false
? – thumbtackthief 19 August 2017 в 03:13