Как удалить всю метадату из файла (например, PDF)?

Для проблем конфиденциальности я хочу удалить все метаданные из документа (например, PDF, jpg, docx, …). Метаданные в целом являются дополнительной информацией, хранившей так или иначе независимо фактическое содержание как:

  • Используемое программное обеспечение
  • Используемая операционная система
  • Время и иногда помещает
  • Модель камеры, используемый механизм … (фотографии, видят Exif),

“Как я надежно разделяю все метаданные от своего PDF, jpg, docx и т.д.?”

2
задан 11 March 2019 в 23:09

2 ответа

ЦИНОВКА

Взгляните на ЦИНОВКУ (Метаданные Инструментарий Anonymisation)! Это прибывает от людей TOR и как стандарт на Хвостах — конфиденциальность и анонимность сфокусированная живая ОС.

Так как это - своего рода обертка вокруг exiftool, это поддерживает больше форматов файлов это exiftool один.

К настоящему времени они:

  • Переносимая сетевая графика (.png)
  • JPEG (.jpg, .jpeg, …)
  • TIFF (.tif, tiff, …)
  • Откройте Documents (.odt, .odx, .ods, …)
  • Office OpenXml (.docx, .pptx, .xlsx, …)
  • Формат файла переносимого документа (.pdf)
  • Ленточные архивы (.tar, .tar.bz2, …)
  • Аудио MPEG (.mp3, .mp2, .mp1, …)
  • Ogg Vorbis (.ogg, …)
  • Бесплатный кодек без потерь (.flac)
  • Поток (.torrent)

Еще для некоторых деталей взгляните на данную статью.

Остерегайтесь

“Циновка только удаляет стандартные метаданные из Ваших файлов, это не делает:

  • анонимизируйте их содержание
  • создание водяных знаков дескриптора
  • стеганография дескриптора
  • любое чрезмерно специализированное поле метаданных / система (→jpg, zip)

Если Вы действительно хотите быть анонимными, используйте форматы, которые не содержат метаданных, или лучше: используйте простой текст.

И самый важный, быть осторожным: на каждом формате можно делать водяные знаки, даже простой текст (например, проект СНЕГА)!

Можно также распечатать копию документов, повторно просканировать их и передать ее ЦИНОВКЕ; но старайтесь надежно уничтожить свою распечатку и не трассировки отпуска в памяти Вашего принтера/сканера”. (взятый с МАТОВОГО веб-сайта)

JPEG

Комментарии и стандарт Exif-/IPTC-/XMP-tags удаляются. Могли бы быть собственные нестандартные теги (как теги Сырых данных Canon), ЦИНОВКА не затрагивает. Они могли быть включены, например, собственные СЫРЫЕ ДАННЫЕ → инструменты преобразования JPEG.

ZIP

ЦИНОВКА не изменяет содержание архива. Если инструмент создаст дополнительные файлы, содержащие метаданные в архиве, то они не будут тронуты.

Установка

Ubuntu 12.10 и выше

Начиная с Ubuntu 12.10 это находится в стандартной вселенной репозитория.

sudo способная циновка установки

Ниже Ubuntu 12.10

Для более старых версий Ubuntu это должно быть установлено вручную. Зависимости:

  • gir1.2-poppler-0.18
  • libimage-exiftool-perl (вселенная)
  • python2.7
  • python-gi-cairo
  • мутаген Python
  • python-pdfrw (вселенная)

Установите их через:

sudo apt-get install gir1.2-poppler-0.18 libimage-exiftool-perl python2.7 python-gi-cairo python-mutagen python-pdfrw

Затем получите ЦИНОВКУ здесь (например, циновку-0.6.1.tar.xz). Если Вы хотите, проверяют Вашу загрузку с GnuPG, получают .asc файл также.

Для проверки его импортируйте ключ, данный внизу страницы, например, через

gpg --search-keys 0x04D041E8171901CC

и сверьтесь:

gpg --verify mat-0.6.1.tar.xz.asc  mat-0.6.1.tar.xz

Вывод должен быть чем-то как

gpg: Signature made Sun 03 Jan 2016 09:02:29 PM CET using RSA key ID 171901CC
gpg: Good signature from "Julien (jvoisin) Voisin <julien.voisin@dustri.org>" [unknown]
gpg:                 aka "Julien (jvoisin) Voisin <jvoisin@riseup.net>" [unknown]
gpg:                 aka "Julien (jvoisin) Voisin <jvoisin@openmailbox.net>" [unknown]
gpg: WARNING: This key is not certified with a trusted signature!
gpg:          There is no indication that the signature belongs to the owner.
Primary key fingerprint: 9FCD EE9E 1A38 1F31 1EA6  2A74 04D0 41E8 1719 01CC

Извлечение и установка через

tar xvfJ mat-0.6.1.tar.xz
cd mat-0.6.1
sudo python2 setup.py install

Пользователи Debian находят его в тестировании-repo, пользователей Arch в АУРЕ.

Если все пошло прекрасное, у Вас есть консольный инструмент mat а также gui mat-gui.

5
ответ дан 2 December 2019 в 01:57

Поскольку мне пришлось искать это несколько раз, вот решение, которое сработало для меня для pdf:

pdftk myfile.pdf cat 1-end output clean-myfile.pdf

Это здесь также выглядит разумным (но я не проверял):

qpdf --pages myfile.pdf 1-z -- --empty clean-myfile.pdf

оба ответа взяты из https://gist.github.com/hubgit/6078384#gistcomment-2004771.

1
ответ дан 15 December 2020 в 11:10

Другие вопросы по тегам:

Похожие вопросы: