Как получить полный набор текстовых данных в wget?

У меня Ubuntu 18.4. Недавно я узнал о wget и попробовал его на удаленном файле моих данных, который я пытался загрузить на свой компьютер в течение нескольких месяцев. не повезло.

Я запустил wget, и он получил "главную страницу", которая устанавливает формат отображения текста, который я писал на протяжении многих лет на этом удаленном новостном сайте. Но дальше дальше дело не пошло. посмотрел на код, который сайт использует для отображения всех этих текстовых данных, и это комбинация html и java. Я не программист и плохо понимаю весь их код, который очень длинный. Этот сайт не был немного полезно получить все эти старые комментарии и мои тексты.

Я хочу получить свои текстовые данные и иметь возможность переформатировать их для книги, которую я хотел бы написать.

Есть ли способ заставить wget захватить все моих данных? Иногда на сайте возникает сбой связи, и соединение разрывается с сообщением об ошибке "error-connection-retry", которое может восстановить подключение и быть в порядке или может быть подключено повторно но начать смешивать данные за разные годы для отображения, или может просто зависнуть и не продолжать, и мне пришлось начинать все сначала.

Я скопировал код сайта в документ WordPad, но это много страниц долго. Если это поможет, я могу скопировать отображение нескольких страниц моих текстовых данных в том виде, в каком они отображаются, чтобы показать, что сайт настроил для отображения, что может или не может потребоваться, если wget действительно сможет с этим справиться.

Благодаря, Пэт

1
задан 2 November 2020 в 19:56

1 ответ

Одним из вариантов может быть использование lynx, как описано в этом ответе на аналогичный вопрос.

Возможно, вам придется установить lynx и включить репозиторий Universe:

sudo add-apt-repository universe
sudo apt update
sudo apt install lynx

, а затем запустить его с параметром дампа следующим образом:

lynx -dump https://example.com

Чтобы сохранить этот текст в файл, вы можете направить вывод на tee следующим образом:

lynx -dump https://example.com | tee filename.txt

Это должно вывести весь текст страницы. Хотя может быть какой-то несвязанный текст, текст, который вы хотите, должен быть включен без всего причудливого кода.


Еще один вариант:

  • перейти на веб-страницу в браузере
  • дважды щелкнуть любое слово в текстовой части страницы
  • нажать CTRL+a чтобы выделить весь текст
  • нажмите CTRL+c чтобы скопировать текст
  • затем вставьте текст в текстовый редактор или текстовый документ или везде

Одна вещь, чтобы сделать эту опцию более простой, - это просмотреть веб-кеш Google, «только текстовую» версию страницы.

Оттуда вы можете использовать метод копирования и вставки, как описано выше.

Для поиска версии страницы в веб-кэше Google (если она существует) используйте следующий синтаксис URL:

http://webcache.googleusercontent.com/search?q=cache:URL&strip=1&vwsrc=0

и замените «URL» фактическим URL-адресом страницы.

Например, для просмотра текстовой версии страницы example.com используйте следующий URL-адрес:

http://webcache.googleusercontent.com/search?q=cache:https://example.com&strip=1&vwsrc=0
0
ответ дан 3 November 2020 в 00:30

Другие вопросы по тегам:

Похожие вопросы: