Предположим, что у меня есть определенные страницы, например, www.abc.def/ghi/a.html; как я могу загрузить все страницы под www.abc.def/ghi, использующим httrack? (т.е. www.abc.def/ghi/a.html, www.abc.def/ghi/b...)? Прямо сейчас я использую простое httrack http://www.abc.def/ghi/ -O <output-folder>
команда, но это перестало работать с некоторыми сайтами.
Например, когда я пробую его http://www.getsidekick.com/blog/, это ничего не загружает. Однако, если я использую http://www.getsidekick.com/blog (отметьте недостающую заключительную наклонную черту), она загружает все содержание в соответствии с http://www.getsidekick.com/blog/, но в то же время даже содержание в соответствии с http://www.getsidekick.com/. Я не знаю то, чем могла быть проблема (возможно, то, что они не имеют .html
расширение?? например, http://www.getsidekick.com/blog/ultradian-rhythm-pomodoro-technique) и я не нашел рабочее решение в руководстве или на их официальном форуме.
Кроме того, я уже знаю, как сделать это с wget
, но я хотел бы выполнить то же самое с httrack
. Так, есть ли стандартный способ сделать это?
Это переходит по каждой ссылке на странице, и существует ссылка назад на верхний уровень.
Попытка с помощью wget
с рекурсивными и опциями без родителей.
wget -r --no-parent http://www.getsidekick.com/blog