У меня возникла аналогичная проблема, когда у меня было множество дубликатов файлов изображений. В моем случае я просто использовал md5sum в файлах и отсортировал результаты:
for file in $(find $rootdir -name "*.jpg"); do echo $(md5sum $file); done | sort
Файлы с тем же содержимым генерировали один и тот же хэш, поэтому дубликаты можно было легко найти. Я вручную удалил обманы оттуда, хотя я мог бы расширить скрипт, чтобы удалить все, кроме первого, но я всегда параноик об этом в ad-hoc-скрипте.
Обратите внимание, что это работает только для дубликатов файлов с одинаковым содержимым.