Как считать случаи текста в файле?

Question 1

Мне отсортировали файл журнала по IP-адреса, я хочу найти количество случаев каждого уникального IP-адреса. Как я могу сделать это с ударом? Возможно перечисляя количество случаев рядом с IP, таких как:

5.135.134.16 count: 5
13.57.220.172: count 30
18.206.226 count:2

и так далее.

Вот образец журнала:

5.135.134.16 - - [23/Mar/2019:08:42:54 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "POST /wp-login.php HTTP/1.1" 200 3836 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "POST /wp-login.php HTTP/1.1" 200 3988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:56 -0400] "POST /xmlrpc.php HTTP/1.1" 200 413 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:05 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:06 -0400] "POST /wp-login.php HTTP/1.1" 200 3985 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:07 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:08 -0400] "POST /wp-login.php HTTP/1.1" 200 3833 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:09 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:11 -0400] "POST /wp-login.php HTTP/1.1" 200 3836 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:12 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:15 -0400] "POST /wp-login.php HTTP/1.1" 200 3837 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:17 -0400] "POST /xmlrpc.php HTTP/1.1" 200 413 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.233.99 - - [23/Mar/2019:04:17:45 -0400] "GET / HTTP/1.1" 200 25160 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "https://www.google.com/url?3a622303df89920683e4421b2cf28977" "Mozilla/5.0 (Windows NT 6.2; rv:33.0) Gecko/20100101 Firefox/33.0"
18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] "POST /wp-login.php HTTP/1.1" 200 3988 "https://www.google.com/url?3a622303df89920683e4421b2cf28977" "Mozilla/5.0 (Windows NT 6.2; rv:33.0) Gecko/20100101 Firefox/33.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"

Question 2

Можно использовать grep и uniq для списка адресов, цикла по ним и grep снова для количества:

for i in $(<log grep -o '^[^ ]*' | uniq); do
  printf '%s count %d\n' "$i" $(<log grep -c "$i")
done

grep -o '^[^ ]*' производит каждый символ с начала (^) до первого пространства каждой строки, uniq удаляет повторенные строки, таким образом оставляя Вас со списком IP-адресов. Благодаря замене команды, for циклы цикла по этому списку, печатающему в настоящее время обрабатываемый IP, сопровождаемый “количеством” и количеством. Последний вычисляется grep -c, который считает количество строк по крайней мере с одним соответствием.

Пример выполняется

$ for i in $(<log grep -o '^[^ ]*'|uniq);do printf '%s count %d\n' "$i" $(<log grep -c "$i");done
5.135.134.16 count 5
13.57.220.172 count 9
13.57.233.99 count 1
18.206.226.75 count 2
18.213.10.181 count 3

Question 3

Question 4

Можно использовать cut и uniq инструменты:

cut -d ' ' -f1 test.txt  | uniq -c
      5 5.135.134.16
      9 13.57.220.172
      1 13.57.233.99
      2 18.206.226.75
      3 18.213.10.181

Объяснение:

cut -d ' ' -f1 : извлеките первое поле (IP-адрес)
uniq -c : сообщите о повторенных строках и отобразите количество происшествий

Question 5

Если бы Вы конкретно не требуете данного выходного формата, то я уже рекомендовал бы отправленный cut + uniq основанный ответ

При реальной необходимости в данном выходном формате однопроходный способ сделать это в Awk был бы

awk '{c[$1]++} END{for(i in c) print i, "count: " c[i]}' log

Это несколько неидеально, когда вход уже отсортирован, так как он излишне хранит всего дюйм/с в память - лучшее, хотя более сложный, способ сделать это в предварительно отсортированном случае (более непосредственно эквивалентный uniq -c) был бы:

awk '
  NR==1 {last=$1} 
  $1 != last {print last, "count: " c[last]; last = $1} 
  {c[$1]++} 
  END {print last, "count: " c[last]}
'

Напр.

$ awk 'NR==1 {last=$1} $1 != last {print last, "count: " c[last]; last = $1} {c[$1]++} END{print last, "count: " c[last]}' log
5.135.134.16 count: 5
13.57.220.172 count: 9
13.57.233.99 count: 1
18.206.226.75 count: 2
18.213.10.181 count: 3

Question 6

Вот одно возможное решение:

IN_FILE="file.log"
for IP in $(awk '{print $1}' "$IN_FILE" | sort -u)
do
    echo -en "${IP}\tcount: "
    grep -c "$IP" "$IN_FILE"
done

замена file.log с фактическим именем файла.
выражение замены команды $(awk '{print $1}' "$IN_FILE" | sort -u) предоставит список уникальных значений первого столбца.
затем grep -c будет считать каждое из этих значений в файле.

$ IN_FILE="file.log"; for IP in $(awk '{print $1}' "$IN_FILE" | sort -u); do echo -en "${IP}\tcount: "; grep -c "$IP" "$IN_FILE"; done
13.57.220.172   count: 9
13.57.233.99    count: 1
18.206.226.75   count: 2
18.213.10.181   count: 3
5.135.134.16    count: 5

Question 7

Question 8

Некоторый Perl:

$ perl -lae '$k{$F[0]}++; }{ print "$_ count: $k{$_}" for keys(%k)' log 
13.57.233.99 count: 1
18.206.226.75 count: 2
13.57.220.172 count: 9
5.135.134.16 count: 5
18.213.10.181 count: 3

Это - та же идея как подход awk Steeldriver, но в Perl. -a жемчуг причин для автоматического разделения каждой входной строки на массив @F, чей первый элемент (IP) $F[0]. Так, $k{$F[0]}++ создаст хеш %k, чьими ключами является дюйм/с и чьи значения являются количеством раз, каждый IP был замечен. }{ броский perlspeak для, "делают остальных в самом конце, после обработки всего входа". Так, в конце сценарий выполнит итерации по ключам хеша и распечатает текущий ключ ($_) наряду с его значением ($k{$_}).

И, просто таким образом, люди не думают, что жемчуг вынуждает Вас записать сценарий, которые похожи на загадочные наброски, это - то же самое в менее сжатой форме:

perl -e '
  while (my $line=<STDIN>){
    @fields = split(/ /, $line);
    $ip = $fields[0];
    $counts{$ip}++;
  }
  foreach $ip (keys(%counts)){
    print "$ip count: $counts{$ip}\n"
  }' < log

Question 9

Возможно, это не то, что хотят OP; однако, если мы знаем, что длина IP-адреса будет ограничена 15 символами, более быстрый способ отобразить количества с уникальным дюйм/с от огромного файла журнала может быть достигнут с помощью uniq одна только команда:

$ uniq -w 15 -c log

5 5.135.134.16 - - [23/Mar/2019:08:42:54 -0400] ...
9 13.57.220.172 - - [23/Mar/2019:11:01:05 -0400] ...
1 13.57.233.99 - - [23/Mar/2019:04:17:45 -0400] ...
2 18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] ...
3 18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] ...

Опции:

-w N выдерживает сравнение не больше, чем N символы в строках

-c снабдит префиксом строки количеством случаев

С другой стороны, Для точного отформатированного вывода я предпочитаю awk (должен также работать на адреса IPv6), ymmv.

$ awk 'NF { print $1 }' log | sort -h | uniq -c | awk '{printf "%s count: %d\n", $2,$1 }'

5.135.134.16 count: 5
13.57.220.172 count: 9
13.57.233.99 count: 1
18.206.226.75 count: 2
18.213.10.181 count: 3

Отметьте это uniq не обнаружит повторенные строки во входном файле, если они не будут смежны, таким образом, это может быть необходимо для sort файл.

Question 10

FWIW, Python 3:

from collections import Counter

with open('sample.log') as file:
    counts = Counter(line.split()[0] for line in file)

for ip_address, count in counts.items():
    print('%-15s  count: %d' % (ip_address, count))

Вывод:

13.57.233.99     count: 1
18.213.10.181    count: 3
5.135.134.16     count: 5
18.206.226.75    count: 2
13.57.220.172    count: 9

Question 11

cut -f1 -d- my.log | sort | uniq -c

Объяснение: Возьмите первое поле разделения my.log на тире - и вид это. uniq потребности отсортировали вход. -c говорит этому считать случаи.

dessert · Accepted Answer · 23 November 2019 в 01:55

Можно использовать grep и uniq для списка адресов, цикла по ним и grep снова для количества:

for i in $(<log grep -o '^[^ ]*' | uniq); do
  printf '%s count %d\n' "$i" $(<log grep -c "$i")
done

grep -o '^[^ ]*' производит каждый символ с начала (^) до первого пространства каждой строки, uniq удаляет повторенные строки, таким образом оставляя Вас со списком IP-адресов. Благодаря замене команды, for циклы цикла по этому списку, печатающему в настоящее время обрабатываемый IP, сопровождаемый “количеством” и количеством. Последний вычисляется grep -c, который считает количество строк по крайней мере с одним соответствием.

Пример выполняется

$ for i in $(<log grep -o '^[^ ]*'|uniq);do printf '%s count %d\n' "$i" $(<log grep -c "$i");done
5.135.134.16 count 5
13.57.220.172 count 9
13.57.233.99 count 1
18.206.226.75 count 2
18.213.10.181 count 3

Mikael Flora · Answer 2 · 23 November 2019 в 01:55

Можно использовать cut и uniq инструменты:

cut -d ' ' -f1 test.txt  | uniq -c
      5 5.135.134.16
      9 13.57.220.172
      1 13.57.233.99
      2 18.206.226.75
      3 18.213.10.181

Объяснение:

cut -d ' ' -f1 : извлеките первое поле (IP-адрес)
uniq -c : сообщите о повторенных строках и отобразите количество происшествий

steeldriver · Answer 3 · 23 November 2019 в 01:55

Если бы Вы конкретно не требуете данного выходного формата, то я уже рекомендовал бы отправленный cut + uniq основанный ответ

При реальной необходимости в данном выходном формате однопроходный способ сделать это в Awk был бы

awk '{c[$1]++} END{for(i in c) print i, "count: " c[i]}' log

Это несколько неидеально, когда вход уже отсортирован, так как он излишне хранит всего дюйм/с в память - лучшее, хотя более сложный, способ сделать это в предварительно отсортированном случае (более непосредственно эквивалентный uniq -c) был бы:

awk '
  NR==1 {last=$1} 
  $1 != last {print last, "count: " c[last]; last = $1} 
  {c[$1]++} 
  END {print last, "count: " c[last]}
'

Напр.

$ awk 'NR==1 {last=$1} $1 != last {print last, "count: " c[last]; last = $1} {c[$1]++} END{print last, "count: " c[last]}' log
5.135.134.16 count: 5
13.57.220.172 count: 9
13.57.233.99 count: 1
18.206.226.75 count: 2
18.213.10.181 count: 3

pa4080 · Answer 4 · 23 November 2019 в 01:55

Вот одно возможное решение:

IN_FILE="file.log"
for IP in $(awk '{print $1}' "$IN_FILE" | sort -u)
do
    echo -en "${IP}\tcount: "
    grep -c "$IP" "$IN_FILE"
done

замена file.log с фактическим именем файла.
выражение замены команды $(awk '{print $1}' "$IN_FILE" | sort -u) предоставит список уникальных значений первого столбца.
затем grep -c будет считать каждое из этих значений в файле.

$ IN_FILE="file.log"; for IP in $(awk '{print $1}' "$IN_FILE" | sort -u); do echo -en "${IP}\tcount: "; grep -c "$IP" "$IN_FILE"; done
13.57.220.172   count: 9
13.57.233.99    count: 1
18.206.226.75   count: 2
18.213.10.181   count: 3
5.135.134.16    count: 5

terdon · Answer 5 · 23 November 2019 в 01:55

Некоторый Perl:

$ perl -lae '$k{$F[0]}++; }{ print "$_ count: $k{$_}" for keys(%k)' log 
13.57.233.99 count: 1
18.206.226.75 count: 2
13.57.220.172 count: 9
5.135.134.16 count: 5
18.213.10.181 count: 3

Это - та же идея как подход awk Steeldriver, но в Perl. -a жемчуг причин для автоматического разделения каждой входной строки на массив @F, чей первый элемент (IP) $F[0]. Так, $k{$F[0]}++ создаст хеш %k, чьими ключами является дюйм/с и чьи значения являются количеством раз, каждый IP был замечен. }{ броский perlspeak для, "делают остальных в самом конце, после обработки всего входа". Так, в конце сценарий выполнит итерации по ключам хеша и распечатает текущий ключ ($_) наряду с его значением ($k{$_}).

И, просто таким образом, люди не думают, что жемчуг вынуждает Вас записать сценарий, которые похожи на загадочные наброски, это - то же самое в менее сжатой форме:

perl -e '
  while (my $line=<STDIN>){
    @fields = split(/ /, $line);
    $ip = $fields[0];
    $counts{$ip}++;
  }
  foreach $ip (keys(%counts)){
    print "$ip count: $counts{$ip}\n"
  }' < log

Y. Pradhan · Answer 6 · 23 November 2019 в 01:55

Возможно, это не то, что хотят OP; однако, если мы знаем, что длина IP-адреса будет ограничена 15 символами, более быстрый способ отобразить количества с уникальным дюйм/с от огромного файла журнала может быть достигнут с помощью uniq одна только команда:

$ uniq -w 15 -c log

5 5.135.134.16 - - [23/Mar/2019:08:42:54 -0400] ...
9 13.57.220.172 - - [23/Mar/2019:11:01:05 -0400] ...
1 13.57.233.99 - - [23/Mar/2019:04:17:45 -0400] ...
2 18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] ...
3 18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] ...

Опции:

-w N выдерживает сравнение не больше, чем N символы в строках

-c снабдит префиксом строки количеством случаев

С другой стороны, Для точного отформатированного вывода я предпочитаю awk (должен также работать на адреса IPv6), ymmv.

$ awk 'NF { print $1 }' log | sort -h | uniq -c | awk '{printf "%s count: %d\n", $2,$1 }'

5.135.134.16 count: 5
13.57.220.172 count: 9
13.57.233.99 count: 1
18.206.226.75 count: 2
18.213.10.181 count: 3

Отметьте это uniq не обнаружит повторенные строки во входном файле, если они не будут смежны, таким образом, это может быть необходимо для sort файл.

wjandrea · Answer 7 · 23 November 2019 в 01:55

FWIW, Python 3:

from collections import Counter

with open('sample.log') as file:
    counts = Counter(line.split()[0] for line in file)

for ip_address, count in counts.items():
    print('%-15s  count: %d' % (ip_address, count))

Вывод:

13.57.233.99     count: 1
18.213.10.181    count: 3
5.135.134.16     count: 5
18.206.226.75    count: 2
13.57.220.172    count: 9

wjandrea · Answer 8 · 23 November 2019 в 01:55

cut -f1 -d- my.log | sort | uniq -c

Объяснение: Возьмите первое поле разделения my.log на тире - и вид это. uniq потребности отсортировали вход. -c говорит этому считать случаи.

Как считать случаи текста в файле?

8 ответов

Пример выполняется

Другие вопросы по тегам:

Похожие вопросы: