У меня есть французский тезис, который я пытаюсь прочитать, чтобы лучше понять некоторые части, я пытаюсь скопировать некоторый текст и использовать его в гугл-переводчике, однако, если я копирую текст, я получаю только мусор как вставленный текст. Скорее всего, есть проблема с кодировкой. И что еще более странно, я могу правильно скопировать текст с первой титульной страницы документа, который также написан на французском языке, но с остальных я просто получаю полный мусор из текста, который я вставил из буфера обмена. Любые идеи о том, как читать части этого тезиса?
Является ли этим PDF-файлом?
Я попробовал несколько вещей, таких как изменение кодирования, конвертирование и перекодирование, но я думаю, что вы находитесь в ситуации, описанной здесь :
Лучше всего сохранить PDF-файл в виде изображений (TIFF или PNG), а затем объединить их вместе и OCR.
BLOCKQUOTE>