Дедупликация с использованием файловой системы SDFS

Я пытаюсь дедупликации с sdfs. (Ubuntu 13.10 на Vm).

( http://opendedup.org/quickstart ) выполнили те же действия, что и

, когда смонтировали файловую систему в / media / pool0 /

при копировании каталог, содержащий несколько аналогичных файлов PDF, но не удаляет дубликаты, а размер папки остается таким же, как и в оригинале.

Оригинальный размер каталога 1.6G / Рабочий лист / всего 1.6G

Размер каталога Sdfs 1.7G / media / pool0 / Worksheet / 1.7G tota

Существуют ли какие-либо конкретные команды для включение функции дедупликации в томе SDFS. Или дедупликация будет применена к файлам, которые мы копируем в том?

Может ли кто-нибудь1 также объяснить, как работает файловая система sdfs?

Заранее спасибо

2
задан 27 January 2014 в 09:22

1 ответ

В sdfs используются два способа дедупликации : :

  • Дедупликация с фиксированным блоком

    • Требует, чтобы выровненных блоков из 4096 байт были одинаковыми
    • , что просто не часто случается с вашими данными.
  • Дедупликация блока переменных

    • Также требуется, чтобы блоки по 4096 байт были одинаковыми, но они делают не нужно выравнивать .
    • Я предполагаю, что ваши тестовые файлы («Подобные файлы PDF») имеют только очень несколько одинаковых диапазонов из 4096 байт или более.

Так что для вашего вида данных ,
просто нет дедупликации !
Тем не менее, я ожидаю, что он будет действительно хорошо работать с данными, которые они намеревались поддерживать:


Из Руководство администратора по версии 2.0 :

Дедупликация фиксированных и переменных блоков

SDFS Может выполнять дедупликацию как фиксированных, так и переменных блоков. Фиксированная дедупликация блоков берет фиксированные блоки данных и хэширует эти блоки. Дедупликация блоков переменных пытается найти естественные разрывы в потоке данных и создает переменные блоки в этих точках останова.

Фиксированная дедупликация блоков выполняется в объеме, определенном фиксированными байтовыми буферами в SDFS. Эти фиксированные блоки определяются при создании тома и по умолчанию установлены на 4 КБ, но может быть установлено максимальное значение 128 КБ. Фиксированная дедупликация блоков очень полезна для активных структурированных данных, таких как VMDK или базы данных. Фиксированная дедупликация блоков проста для выполнения и поэтому может быть очень быстрой для большинства приложений.

Дедупликация переменных блоков выполняется с использованием границ окна Рабина ( http://en.wikipedia.org/wiki/Rabin_fingerprint ). SDFS использует фиксированные буферы размером 128 КБ, а затем запускает скользящий хеш по этому буферу, чтобы найти естественные разрывы. Минимальный размер переменного блока составляет 4 КБ, а максимальный - 128 КБ. Дедупликация переменных блоков очень хороша при обнаружении дедуплицирующих блоков в неструктурированных данных, таких как несжатые tar-файлы и документы. Дедупликация переменных блоков обычно создает блоки размером от 10 до 16 тысяч. Это делает дедупликацию переменных блоков более масштабируемой, чем дедупликация фиксированных блоков, когда она выполняется с размерами блоков 4k. Недостатком дедупликации блока переменных является то, что он может быть вычислительно интенсивным и иногда медленнее для обработки записи.

Дедупликация переменных блоков может быть включена только при создании тома с использованием --hash-type = VARIABLE_MURMUR3.

0
ответ дан 27 January 2014 в 09:22

Другие вопросы по тегам:

Похожие вопросы: