С простым wget -c
или curl -O
никакая загрузка (тайм-аут!), но я вижу как нормальная страница в моем браузере,
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm
таким образом, как загрузить, это по основному стандарту управляет на терминале?
Время для загрузки и содержание (большой файл HTML) ДОЛЖНО совпасть с, я вижу в своем браузере.
PS: этот URL является типичным случаем, где ответ на "необычный запрос агента" не является тем же tham популярный запрос браузера... Но страница является официальным текстом закона, так доступ потребностей без барьеров, потребность быть лишенной трения: существует RFC (или W3C recomendarion, или подобен) предложение или классификация, что, "HTTP лишенный трения доступ"?
Я попробовал многими альтернативами... "Минимальный дополнительный заголовок" (требуемый сервером предложить корректное содержание) User-Agent
. С ним хорошо работает:
curl -O -H "User-Agent: Mozilla/5.0 (Linux)" \
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm
... Это - официальный старый сервис и "плохой HTML", никакой источник HTML никакой HTTP-заголовки (-v
опция), показывает enconding (который не является стандартным UTF-8). Полное решение
curl -H "User-Agent: Mozilla/5.0 (Linux)" \
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm \
| iconv -c -t UTF-8 -f ISO-8859-1 > L10406compilada.htm