Попытка извлечь поле из HTML-страницы

Question 1

Я пытаюсь извлечь одно поле для моего локального ПК из онлайн-формы.

Я могу сохранить страницу локально как текстовый документ, а затем искать текст, но это кажется довольно громоздким. Есть ли другой более эффективный метод?

Мой опыт работы на Mac, но компания пробует использовать ПК с Ubuntu 12.04, поэтому, пожалуйста, будьте терпимы к моему незнанию.

Question 2

Вы ищете такие инструменты, как

wget -q -O - 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

curl -s 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

lynx -dump 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

И тогда вы можете извлечь то, что вы хочу с обычным, sed, awk ..

Было бы полезно, если бы вы сказали, какую страницу и что извлечь.

Question 3

Question 4

Я не уверен на 100%, что понимаю, что вам действительно нужно, но вы можете получить исходный код HTML прямо в браузере.

Если вы используете Firefox, вы можете делать много интересных вещей прямо в браузере.

Щелкните правой кнопкой мыши на странице -> Просмотр источника страницы (в качестве альтернативы можно нажать ALT и выполнить поиск источника в HDU)
Выделить часть страницы, для которой вы хотите источник -> Щелкните правой кнопкой мыши -> Просмотреть источник выбора

Если этого недостаточно, у вас есть много дополнений для Firefox, которые позволяют вам дурачиться с HTML =)

Если это однако, для большого объема работы вам может понадобиться некоторый скрипт, чтобы выполнить работу (скачать, использовать perl или что-то, поддерживающее регулярные выражения для поиска, извлечения). Но если вам просто нужно делать это время от времени, методов firefox может быть достаточно?

Правильно ли я понял вопрос?

user55822 · Answer 1 · 22 October 2012 в 17:11