Подсчет дублированных слов в текстовом файле

Question 1

У меня есть 20 МБ файл с текстом и идентификаторами. Мне нужен grep или что-то еще, чтобы посчитать и показать дубликаты идентификаторов.

Question 2

awk '{print $2}' file_name | sort | uniq -c | sort -n | awk '$1>1 {print $2}' > duplicates
for x in $(< duplicates); do grep -n $x file;
done

, так что, если у вас есть идентификаторы во втором столбце, он напечатает идентификаторы дубликатов

Примечание. В file_name укажите имя вашего файла.

rɑːdʒɑ · Answer 1 · 7 June 2012 в 11:22

awk '{print $2}' file_name | sort | uniq -c | sort -n | awk '$1>1 {print $2}' > duplicates
for x in $(< duplicates); do grep -n $x file;
done

, так что, если у вас есть идентификаторы во втором столбце, он напечатает идентификаторы дубликатов

Примечание. В file_name укажите имя вашего файла.

1 ответ