Извлечение определенных значений из текста

Question 1

У меня есть текстовый файл:

[31/May/2016:11:58:29-0500]/segment?city=london&language=en&x=12345&y=6789&z=1
[31/May/2016:11:59:15-0500]/segment?language=en&city=madrid&x=4589.4583&y=4865.5465&z=3
[31/May/2016:12:05:13-0500]/segment?city=london&language=en&x=12345&y=6789&z=1
[31/May/2016:12:15:13-0500]/segment?city=london&language=en&x=12345&y=6789&z=1
[31/May/2016:12:26:53-0500]/segment?language=en&city=newyork&x=45724.75575&y=424424.77474&z=3

Я должен извлечь определенные значения: дата, название города, языка, x, y, z в том порядке. Заметьте, что в некоторых строках существует другой порядок, и в будущих файлах порядок мог бы также отличаться затем это.

Вывод должен быть похожим:

31/May/2016:11:58:29-0500 london en 12345 6789 1
31/May/2016:11:59:15-0500 madrid en 589.4583 4865.5465 3
31/May/2016:12:05:13-0500 london en 12345 6789 1
31/May/2016:12:15:13-0500 london en 12345 6789 1
31/May/2016:12:26:53-0500 newyork en 45724.75575 424424.77474 3

или еще лучше если запятая может быть отредактирована, как определенный csv стандартный вывод был бы, был похож на это:

31/May/2016:11:58:29-0500,london,en,12345,6789,1
31/May/2016:11:59:15-0500,madrid,en,589.4583,4865.5465,3
31/May/2016:12:05:13-0500,london,en,12345,6789,1
31/May/2016:12:15:13-0500,london,en,12345,6789,1
31/May/2016:12:26:53-0500,newyork,en,45724.75575,424424.77474,3

Question 2

Так как они, кажется, по существу структурированы, поскольку URL запрашивает, Вы могли бы хотеть посмотреть на использование специализированного анализатора запроса - такого как тот из Python urlparse модуль. Например,

#!/usr/bin/python2

import sys,re
from urlparse import urlparse,parse_qs

keys = ['city', 'language', 'x', 'y', 'z']

with open(sys.argv[1],'r') as f:
        for line in f:
                u = urlparse(line.strip('\n'))
                q = parse_qs(u.query)

                # extract the strings we want from the dict-of-lists
                values = ','.join(['-'.join(q[key]) for key in keys])

                # extract the timestamp portion of the path (between `[` and `]`)
                m = re.search('(?<=\[).*?(?=\])', u.path)
                ts = m.group(0)

                # print as a comma-separated list
                print '{},{}'.format(ts, values)

Затем

$ ./queryparse.py queries.txt
31/May/2016:11:58:29-0500,london,en,12345,6789,1
31/May/2016:11:59:15-0500,madrid,en,4589.4583,4865.5465,3
31/May/2016:12:05:13-0500,london,en,12345,6789,1
31/May/2016:12:15:13-0500,london,en,12345,6789,1
31/May/2016:12:26:53-0500,newyork,en,45724.75575,424424.77474,3

Примечание: parse_qs метод возвращает dict списков, т.е. он допускает несколько значений для каждого ключа запроса: '-'.join(q[key]) умозрительно превращает каждый список значения в разделенную от дефиса строку, однако в этом случае мы ожидаем только единственное значение для каждого ключа.

Question 3

Question 4

Так как порядок может измениться, это немного более твердо, но sed может обработать его:

s/\[(.*)\](\/segment\?)(.*)/\3,\1/ #Match text between [], append to end of line and remove /segmennt?
s/city=([^&,]*)[&,](.*)/\2,\1/     #Match city= followed by any character
s/language=([^&,]*)[&,](.*)/\2,\1/ #except & and , which are the separators and append to end of line
s/x=([^&,]*)[&,](.*)/\2,\1/
s/\by=([^&,]*)[&,](.*)/\2,\1/      #Avoid matching city again by making sure y is at a word boundary 
s/z=([^&,]*)[&,](.*)/\2,\1/

Выполнение как: sed-rnf scriptfile inputfile

Question 5

Так как порядок может измениться, это возьмет определенные сценарии. Вот версия Perl:

#!/usr/bin/perl -nl

my $time = $1 if /\[(.+?)\]/; 
my $city = $1 if /city=(.*?)(&|$)/;
my $lang = $1 if /language=(.*?)(&|$)/;
my $x = $1 if /\bx=(.*?)(&|$)/; 
my $y = $1 if /\by=(.*?)(&|$)/; 
my $z = $1 if /\bz=(.*?)(&|$)/;
print join ",", ($time, $city, $lang, $x, $y, $z)

Сохраните это как foo.pl, сделайте это исполняемым файлом (chmod +x foo.pl) и выполненный это как это:

./foo.pl file.txt

Вы могли также сжать это в "остроту":

perl -lne '$t=$1if/\[(.+?)\]/;$c=$1if/city=(.*?)(&|$)/;$l=$1if/language=(.*?)(&|$)/;$x=$1if/\bx=(.*?)(&|$)/;$y=$1if/\by=(.*?)(&|$)/;$z=$1if/\bz=(.*?)(&|$)/;print join",",($t,$c,$l,$x,$y,$z)' file

Объяснение

-n означает, "читает входной файл линию за линией и применяют сценарий к каждой строке. -l добавляет новая строка к каждому print звоните и разделяет новые строки от каждой входной строки.

В каждом случае мы используем регулярное выражение, чтобы найти целевую строку и присвоить его переменной, если соответствие было найдено. Первый regex, \[(.+?)\] соответствия что-либо между a [ и первое ]. Круглые скобки вокруг .+ группы фиксации и позволяют нам обратиться к тому, что было получено как $1. Так, $time будет тем, что было в [ ].

Другие regexes следуют за той же идеей. \b означает "несловесный символ" и гарантирует это y= не будет соответствовать city и т.д. (&|$) средства любой a & или конец строки ($) и необходим для получения шаблонов в самом конце строки.

Наконец, мы join они с запятыми и печатают их.

steeldriver · Accepted Answer · 23 November 2019 в 11:39

Так как они, кажется, по существу структурированы, поскольку URL запрашивает, Вы могли бы хотеть посмотреть на использование специализированного анализатора запроса - такого как тот из Python urlparse модуль. Например,

#!/usr/bin/python2

import sys,re
from urlparse import urlparse,parse_qs

keys = ['city', 'language', 'x', 'y', 'z']

with open(sys.argv[1],'r') as f:
        for line in f:
                u = urlparse(line.strip('\n'))
                q = parse_qs(u.query)

                # extract the strings we want from the dict-of-lists
                values = ','.join(['-'.join(q[key]) for key in keys])

                # extract the timestamp portion of the path (between `[` and `]`)
                m = re.search('(?<=\[).*?(?=\])', u.path)
                ts = m.group(0)

                # print as a comma-separated list
                print '{},{}'.format(ts, values)

Затем

$ ./queryparse.py queries.txt
31/May/2016:11:58:29-0500,london,en,12345,6789,1
31/May/2016:11:59:15-0500,madrid,en,4589.4583,4865.5465,3
31/May/2016:12:05:13-0500,london,en,12345,6789,1
31/May/2016:12:15:13-0500,london,en,12345,6789,1
31/May/2016:12:26:53-0500,newyork,en,45724.75575,424424.77474,3

Примечание: parse_qs метод возвращает dict списков, т.е. он допускает несколько значений для каждого ключа запроса: '-'.join(q[key]) умозрительно превращает каждый список значения в разделенную от дефиса строку, однако в этом случае мы ожидаем только единственное значение для каждого ключа.

someonewithpc · Answer 2 · 23 November 2019 в 11:39

Так как порядок может измениться, это немного более твердо, но sed может обработать его:

s/\[(.*)\](\/segment\?)(.*)/\3,\1/ #Match text between [], append to end of line and remove /segmennt?
s/city=([^&,]*)[&,](.*)/\2,\1/     #Match city= followed by any character
s/language=([^&,]*)[&,](.*)/\2,\1/ #except & and , which are the separators and append to end of line
s/x=([^&,]*)[&,](.*)/\2,\1/
s/\by=([^&,]*)[&,](.*)/\2,\1/      #Avoid matching city again by making sure y is at a word boundary 
s/z=([^&,]*)[&,](.*)/\2,\1/

Выполнение как: sed-rnf scriptfile inputfile

terdon · Answer 3 · 23 November 2019 в 11:39

Так как порядок может измениться, это возьмет определенные сценарии. Вот версия Perl:

#!/usr/bin/perl -nl

my $time = $1 if /\[(.+?)\]/; 
my $city = $1 if /city=(.*?)(&|$)/;
my $lang = $1 if /language=(.*?)(&|$)/;
my $x = $1 if /\bx=(.*?)(&|$)/; 
my $y = $1 if /\by=(.*?)(&|$)/; 
my $z = $1 if /\bz=(.*?)(&|$)/;
print join ",", ($time, $city, $lang, $x, $y, $z)

Сохраните это как foo.pl, сделайте это исполняемым файлом (chmod +x foo.pl) и выполненный это как это:

./foo.pl file.txt

Вы могли также сжать это в "остроту":

perl -lne '$t=$1if/\[(.+?)\]/;$c=$1if/city=(.*?)(&|$)/;$l=$1if/language=(.*?)(&|$)/;$x=$1if/\bx=(.*?)(&|$)/;$y=$1if/\by=(.*?)(&|$)/;$z=$1if/\bz=(.*?)(&|$)/;print join",",($t,$c,$l,$x,$y,$z)' file

Объяснение

-n означает, "читает входной файл линию за линией и применяют сценарий к каждой строке. -l добавляет новая строка к каждому print звоните и разделяет новые строки от каждой входной строки.

В каждом случае мы используем регулярное выражение, чтобы найти целевую строку и присвоить его переменной, если соответствие было найдено. Первый regex, \[(.+?)\] соответствия что-либо между a [ и первое ]. Круглые скобки вокруг .+ группы фиксации и позволяют нам обратиться к тому, что было получено как $1. Так, $time будет тем, что было в [ ].

Другие regexes следуют за той же идеей. \b означает "несловесный символ" и гарантирует это y= не будет соответствовать city и т.д. (&|$) средства любой a & или конец строки ($) и необходим для получения шаблонов в самом конце строки.

Наконец, мы join они с запятыми и печатают их.

Извлечение определенных значений из текста

3 ответа

Объяснение

Другие вопросы по тегам:

Похожие вопросы: