Уменьшить размер pdf файла с помощью ocr и таблиц

У меня есть отсканированный файл, текст которого уже распознан, но его вес составляет 80 мегабайт. В процессе сканирования я делал глупые вещи, такие как сканирование в оттенках серого. Теперь у PDF есть огромный рой штрихов и штрихов. Я считаю, что размер обусловлен тем, что все эти пятна.

Простое преобразование с помощью, кажется, не является решением здесь

ps -dPDFSETTINGS=/screen    

Это приводит к тому, что шрифты становятся неровными и неприятными для чтения. Практически каждый второй вопрос об уменьшении размера решается с помощью понижающей дискретизации, включающей одно или другое преобразование, которое наносит вред тексту больше, чем что-либо еще.

Есть ли способ отказаться от этой исходной информации и сохранить фактический текст?

0
задан 8 April 2016 в 16:59

1 ответ

Если требуется иметь только текст без большого форматирования, Вы могли бы попробовать эту команду:

less yourfile.pdf >> output.txt

, Если документ не имел "роя тире и перечеркивал метки" на исходном сканировании, у меня обычно есть большие результаты с этот сайт для сокращения размера PDF.

1
ответ дан 9 April 2016 в 02:59
  • 1
    К сожалению, этот didn' t справка - для будущих ищущих, тем не менее, Вы имели в виду "index_files": false? – thumbtackthief 19 August 2017 в 03:13

Другие вопросы по тегам:

Похожие вопросы: