Я пытаюсь дедупликации с sdfs. (Ubuntu 13.10 на Vm).
( http://opendedup.org/quickstart ) выполнили те же действия, что и
, когда смонтировали файловую систему в / media / pool0 /
при копировании каталог, содержащий несколько аналогичных файлов PDF, но не удаляет дубликаты, а размер папки остается таким же, как и в оригинале.
Оригинальный размер каталога 1.6G / Рабочий лист / всего 1.6G
Размер каталога Sdfs 1.7G / media / pool0 / Worksheet / 1.7G tota
Существуют ли какие-либо конкретные команды для включение функции дедупликации в томе SDFS. Или дедупликация будет применена к файлам, которые мы копируем в том?
Может ли кто-нибудь1 также объяснить, как работает файловая система sdfs?
Заранее спасибо
В sdfs
используются два способа дедупликации : :
Дедупликация с фиксированным блоком
Дедупликация блока переменных
Так что для вашего вида данных ,
просто нет дедупликации !
Тем не менее, я ожидаю, что он будет действительно хорошо работать с данными, которые они намеревались поддерживать:
Из Руководство администратора по версии 2.0 :
Дедупликация фиксированных и переменных блоков
SDFS Может выполнять дедупликацию как фиксированных, так и переменных блоков. Фиксированная дедупликация блоков берет фиксированные блоки данных и хэширует эти блоки. Дедупликация блоков переменных пытается найти естественные разрывы в потоке данных и создает переменные блоки в этих точках останова.
Фиксированная дедупликация блоков выполняется в объеме, определенном фиксированными байтовыми буферами в SDFS. Эти фиксированные блоки определяются при создании тома и по умолчанию установлены на 4 КБ, но может быть установлено максимальное значение 128 КБ. Фиксированная дедупликация блоков очень полезна для активных структурированных данных, таких как VMDK или базы данных. Фиксированная дедупликация блоков проста для выполнения и поэтому может быть очень быстрой для большинства приложений.
Дедупликация переменных блоков выполняется с использованием границ окна Рабина ( http://en.wikipedia.org/wiki/Rabin_fingerprint ). SDFS использует фиксированные буферы размером 128 КБ, а затем запускает скользящий хеш по этому буферу, чтобы найти естественные разрывы. Минимальный размер переменного блока составляет 4 КБ, а максимальный - 128 КБ. Дедупликация переменных блоков очень хороша при обнаружении дедуплицирующих блоков в неструктурированных данных, таких как несжатые tar-файлы и документы. Дедупликация переменных блоков обычно создает блоки размером от 10 до 16 тысяч. Это делает дедупликацию переменных блоков более масштабируемой, чем дедупликация фиксированных блоков, когда она выполняется с размерами блоков 4k. Недостатком дедупликации блока переменных является то, что он может быть вычислительно интенсивным и иногда медленнее для обработки записи.
Дедупликация переменных блоков может быть включена только при создании тома с использованием --hash-type = VARIABLE_MURMUR3.