Как я могу разделить результат на 2 разделителя?

Делясь на символы «·» и «», я хотел бы включить это:

Hel·lo my name is E·ric

К этому:

Hel·lo my name is E·ric
Hel·lo my name is E·
Hel·lo my name is
Hel·lo my name
Hel·lo my
Hel·lo
Hel·

Следующий код почти это, но я не слишком уверен, что мне нужно настроить, чтобы сохранить слоговые слова.

sentence="Hel·lo my name is E·ric"
echo $sentence | awk -F'[· ]' -v OFS=" " '{print;for (i=NF;i>1;i--){$i="";print;NF--} }'
1
задан 25 July 2015 в 07:48

2 ответа

В python:

Поскольку определение разделения не является точно таким же для обоих разделителей (точка должна быть включена, а в пробеле нет), вам нужно выполнить два шага:

В длинном однострочном файле:

python3 -c "s = open('f').read().strip(); [print(s[:n]) for n in reversed(sorted([i+1 for i, c in enumerate(s) if s[i] == '·']+[i for i, c in enumerate(s) if s[i] == ' ']+[len(s)]))]"

, где 'f' - путь к вашему файлу, между (одиночными) кавычками.

Или еще читаемый в сценарии:

#!/usr/bin/env python3

# read the file
s = open("f").read().strip()
# find the indexes of the character "·" in the line, add 1 to include the dot
n1 = [i+1 for i, c in enumerate(s) if s[i] == "·"]
# find the indexes of spaces in the line
n2 = [i for i, c in enumerate(s) if s[i] == " "]
# combine and sort the found indexes, print the line up to each of the indexes
[print(s[:n]) for n in reversed(sorted(n1+n2)+[len(s)])]

Чтобы точно соответствовать вашему примеру, найденные индексы отсортированы по порядку, от последнего к первому индексу.

В обоих случаях (как и ожидалось) результат:

Hel·lo my name is E·ric
Hel·lo my name is E·
Hel·lo my name is
Hel·lo my name
Hel·lo my
Hel·lo
Hel·

EDIT

Немного более сложным (и более гибким) будет:

#!/usr/bin/env python3
# read the file
s = open('f').read().strip()
#--- set your delimiter(s) + the split rules below in the format rules = [(<character>, <additional_index>)]
rules = [('·', 1), (' ', 0)]
#---
[print(s[:n]) for n in [len(s)]+sorted(sum([[i+r[1] for i, c in enumerate(s) if s[i] == r[0]] for r in rules], []))[::-1]]
[d10 ], который дает вам «свободу», чтобы легко добавлять больше разделителей и устанавливать правила, чтобы либо включать символ, либо не в разделенную строку.

например

s = 'This|is|a|string'

icw:

rules = [('|', 0)]

выведет:

This|is|a|string
This|is|a
This|is
This

но

s = 'This|is|a|string'

icw:

rules = [('|', 1)]

выведет: [!d17 ]

This|is|a|string
This|is|a|
This|is|
This|

Примечание

Дополнительный len(s) к списку должен включать начальную строку на выходе.

2
ответ дан 23 May 2018 в 18:47
  • 1
    Вам также необходимо включить первую строку. – prakharsingh95 25 July 2015 в 13:34
  • 2
    @ prakharsingh95 Не уверен, что OP действительно означает включить исходную строку, но вы можете быть правы. Починил это. – Jacob Vlijm 25 July 2015 в 15:18
  • 3
    Да, оригинальная линия была желательна. Хороший материал, который мне очень нравится "свобода" чтобы легко добавить дополнительный вариант разделителей, который вы предоставили! – TuxForLife 26 July 2015 в 01:04

Я знаю, что у вас уже есть очень хорошие ответы, но мне нравится этот вопрос, и я не могу сопротивляться:

echo $sentence |
perl -C -ne 'do {print} while(s/(.*)[ ·].*/$1/)'
2
ответ дан 23 May 2018 в 18:47

Другие вопросы по тегам:

Похожие вопросы: