Таким образом, я использую команду следующим образом:
sort file1.txt | uniq > cleared.txt
Однако файл cleared.txt имеет точно тот же размер, и все дубликаты все еще там. Вы могли объяснить что не так в способе, которым я пытаюсь сделать и возможно дать альтернативы также?
Спасибо!
Обновление: Я пытался использовать следующую команду awk, но дубликаты все еще там.
awk '!seen[$0]++'
Возможно, может быть полезно упомянуть, что файл, который я пытаюсь убрать, собран из различных файлов, которые могли бы происходить из различных стран/разметок. Обратите внимание на то, что я хочу сохранить одну копию дублированных слов.
Скорее всего, у Вас есть конечные пробелы, которые вызывают групповое обозначение. Попытайтесь разделить их с xargs, как:
sort file1 | xargs -n 1 |uniq