У меня есть два списка файлов. backup.txt
и backup2.txt
Некоторые записи не точны, таким образом, это мешает находить дубликаты с diff
или uniq
.
Пример:
:::backup.txt:::
auser_backup
auser_backup2
buser_backup
cuser_backup
:::backup2.txt:::
auser.backup
auser.backup.2
buser
cuser
Я задавался вопросом, существует ли способ сравнить эти неопределенно подобные списки файлов, где auser_backup
и auser.backup
наряду с auser_backup2
и auser.backup.2
считался бы как дубликаты.
Возможно, существует другой шаг для переименования всех записей так, чтобы форматы были правильны? Я отчасти в недоумении.
Вы оказываетесь перед необходимостью предварительно обрабатывать файлы для "зафиксированного" неисправностей:
fixfile() { sed -r 's/([[:alpha:]])([[:digit:]]+)$/\1.\2/; s/\./_/g' "$1"; }
comm -12 <(fixfile backup.txt | sort) <(fixfile backup2.txt | sort)
auser_backup
auser_backup_2