У меня Ubuntu 18.4. Недавно я узнал о wget и попробовал его на удаленном файле моих данных, который я пытался загрузить на свой компьютер в течение нескольких месяцев. не повезло.
Я запустил wget, и он получил "главную страницу", которая устанавливает формат отображения текста, который я писал на протяжении многих лет на этом удаленном новостном сайте. Но дальше дальше дело не пошло. посмотрел на код, который сайт использует для отображения всех этих текстовых данных, и это комбинация html и java. Я не программист и плохо понимаю весь их код, который очень длинный. Этот сайт не был немного полезно получить все эти старые комментарии и мои тексты.
Я хочу получить свои текстовые данные и иметь возможность переформатировать их для книги, которую я хотел бы написать.
Есть ли способ заставить wget захватить все моих данных? Иногда на сайте возникает сбой связи, и соединение разрывается с сообщением об ошибке "error-connection-retry", которое может восстановить подключение и быть в порядке или может быть подключено повторно но начать смешивать данные за разные годы для отображения, или может просто зависнуть и не продолжать, и мне пришлось начинать все сначала.
Я скопировал код сайта в документ WordPad, но это много страниц долго. Если это поможет, я могу скопировать отображение нескольких страниц моих текстовых данных в том виде, в каком они отображаются, чтобы показать, что сайт настроил для отображения, что может или не может потребоваться, если wget действительно сможет с этим справиться.
Благодаря, Пэт
Одним из вариантов может быть использование lynx, как описано в этом ответе на аналогичный вопрос.
Возможно, вам придется установить lynx и включить репозиторий Universe:
sudo add-apt-repository universe
sudo apt update
sudo apt install lynx
, а затем запустить его с параметром дампа следующим образом:
lynx -dump https://example.com
Чтобы сохранить этот текст в файл, вы можете направить вывод на tee
следующим образом:
lynx -dump https://example.com | tee filename.txt
Это должно вывести весь текст страницы. Хотя может быть какой-то несвязанный текст, текст, который вы хотите, должен быть включен без всего причудливого кода.
Еще один вариант:
Одна вещь, чтобы сделать эту опцию более простой, - это просмотреть веб-кеш Google, «только текстовую» версию страницы.
Оттуда вы можете использовать метод копирования и вставки, как описано выше.
Для поиска версии страницы в веб-кэше Google (если она существует) используйте следующий синтаксис URL:
http://webcache.googleusercontent.com/search?q=cache:URL&strip=1&vwsrc=0
и замените «URL» фактическим URL-адресом страницы.
Например, для просмотра текстовой версии страницы example.com используйте следующий URL-адрес:
http://webcache.googleusercontent.com/search?q=cache:https://example.com&strip=1&vwsrc=0