Я только начинаю изучать sed и awk. Я должен представить домашнее задание завтра, которое является копией из Википедии. Просто возможность попрактиковаться в сценариях sed!
Итак, у меня есть документ в формате html. Теперь мне нужно заменить [<number>]
ни на что. Как бы я это сделал?
Это то, что я пытался, но я думаю, что это даже не соответствует шаблону, который я хочу:
cat content.xml | sed 's/\[\d+\]/ /g' > content2.xml
На следующем этапе я буду реализовывать замена этих шаблонов, которые являются гиперссылками, но даже вышеупомянутый простой шаблон не сопоставляется:
<a href="https://en.wikipedia.org/wiki/Immune_system">immune system</a>
, а затем удалить цитаты:
<a name="cite_ref-Gleeson2007_27-0"/><a href="https://en.wikipedia.org/wiki/Physical_exercise#cite_note-Gleeson2007-27">[27]</a>
Вы пошли Неправильное направление, необходимо изучить XML/XSLT вместо этого :) (Таблица стилей XML). Или для использования с ODT или для XHTML. Для ODT макрос может быть быть лучше, но я не знаю это.
Делают взгляд на этот принятый ответ: соответствие RegEx открытые теги кроме автономных тегов XHTML
решение в этот ответ для того, Как заменить все изображения в Libreoffice с их описанием , должен работать на Вас также с небольшой модификацией.