Как загрузить wget или завихрением?

С простым wget -c или curl -O никакая загрузка (тайм-аут!), но я вижу как нормальная страница в моем браузере,

http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm

таким образом, как загрузить, это по основному стандарту управляет на терминале?

Время для загрузки и содержание (большой файл HTML) ДОЛЖНО совпасть с, я вижу в своем браузере.


PS: этот URL является типичным случаем, где ответ на "необычный запрос агента" не является тем же tham популярный запрос браузера... Но страница является официальным текстом закона, так доступ потребностей без барьеров, потребность быть лишенной трения: существует RFC (или W3C recomendarion, или подобен) предложение или классификация, что, "HTTP лишенный трения доступ"?

0
задан 24 January 2018 в 01:50

1 ответ

Я попробовал многими альтернативами... "Минимальный дополнительный заголовок" (требуемый сервером предложить корректное содержание) User-Agent. С ним хорошо работает:

curl -O -H "User-Agent: Mozilla/5.0 (Linux)" \
   http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm 

... Это - официальный старый сервис и "плохой HTML", никакой источник HTML никакой HTTP-заголовки (-v опция), показывает enconding (который не является стандартным UTF-8). Полное решение

curl -H "User-Agent: Mozilla/5.0 (Linux)" \
   http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm \
   | iconv -c  -t UTF-8  -f ISO-8859-1 > L10406compilada.htm
1
ответ дан 31 October 2019 в 03:36

Другие вопросы по тегам:

Похожие вопросы: