Ir al contenido

Diferencia entre revisiones de «GNU Wget»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
VARGUX (discusión · contribs.)
VARGUX (discusión · contribs.)
Línea 41: Línea 41:
* Archivos más grandes a 2 [[Gb]] son soportados en sistemas de [[32 bits]] que incluyan los interfaces apropiados.
* Archivos más grandes a 2 [[Gb]] son soportados en sistemas de [[32 bits]] que incluyan los interfaces apropiados.
* La velocidad de descarga puede ser limitada para evitar consumir toda el [[ancho de banda]] disponible.
* La velocidad de descarga puede ser limitada para evitar consumir toda el [[ancho de banda]] disponible.

==Usando Wget==
El uso típico de '''GNU Wget''' consiste en ''invocar'' desde la [[línea de comandos]] una o más [[URL]]s como argumentos.
<pre>
# Descarga del título de página ejemplo.com a un archivo
# llamado "index.html".
wget http://www.ejemplo.com/
</pre>
<pre>
# Descarga desde el código fuente con Wget de un sitio GNU ftp.
wget ftp://ftp.gnu.org/pub/gnu/wget/wget-1.10.2.tar.gz
</pre>

El uso más complejo incluye descargas automáticas desde múltiples URLs en un directorio con jerarquía
<pre>
# Descarga del título de página ejemplo.com , acompañado con
# las imágenes y el ''estilo de cascada'' (css) necesario para mostrar la página, y convertir las
# URLs dentro para referirse a los contenidos disponibles a nivel local.
wget -p -k http://www.ejemplo.com/
</pre>
<pre>
# Descarga de todo el contenido de ejemplo.com
wget -r -l 0 http://www.example.com/
</pre>

'''Avanzado'''
<pre>
# Descargar un espejo de las erratas (errores) para un libro que usted/tú justo compró.
# Seguir todos los enlaces locales recursivamente y hacer apropiados los archivos
# para verlos desconectado.
# Usar una espera arbitraria (al azar) de 0 a 5 segundos entre los archivos.
# Cuando hay un fracaso, reintentar hasta 7 veces con 14 segundos
# entre cada reintento.
# Poner al agente de usuario a Firefox en Windows XP e ignorar exclusiones.
# Recoger resultados de acceso al archivo local "myLog.log"
wget -t 7 -w 5 --waitretry=14 --random-wait --user-agent="Mozilla/5.0
(Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111
Firefox/1.5.0.1" -m -k -K -e robots=off
http://www.oreilly.com/catalog/upt3/errata/ -o ./myLog.log
</pre>
<pre>
# Collect only the specific links listed line by line in
# the local file "my_movies.txt"
# Use a random wait of 0 to 33 seconds between files.
# When there is a failure, retry for up to 22 times with 48 seconds
# between each retry. Send no user-agent at all. Ignore robot exclusions.
# Place all the captured files in the "/movies" directory
# and collect the access results to the local file "my_movies.log"
# Good for just downloading specific known images or other files.

* Recoger sólo los enlaces específicos listados en
* el archivo local "my_movies.txt"
* Usar una espera arbitraria de 0 a 33 segundos entre archivos.
* Cuando hay un fracaso, reintente para hasta 22 veces con 48 segundos
* entre cada reintento. No envíe a ningún agente-usuario en absoluto. No haga caso de exclusiones de robot.
* Colocar todos los archivos capturados en el directorio "/movies"
* y recoger los resultados de acceso al archivo local "my_movies.log"
* Bueno sólo para descargar imágenes específicas conocidas u otros archivos.
wget -t 22 --waitretry=48 --wait=33 --random-wait --user-agent=""
-e robots=off -o ./my_movies.log -P/movies -i ./my_movies.txt
</pre>

<pre>
#Using wget to download content protected by referer and cookies.
#1. get base url and save its cookies in file
#2. get protected content using stored cookies

*Usando wget para descargar contenido protegido por referer y cookies.
*1. conseguir url base y guardas sus cookies en el archivo
*2. poner el contenido protegido usando cookies almacenadas
wget --cookies=on --keep-session-cookies --save-cookies=cookie.txt http://first_page
wget --referer=http://first_page --cookies=on --load-cookies=cookie.txt --keep-session-cookies --save-cookies=cookie.txt http://second_page
</pre>

<pre>
#Sitio web espejo a una copia estática para un navegador local.
#Esto quiere decir que todos los enlaces serán cambiados para apuntar a los archivos locales.
#Nota --html-extension convertirá cualquier archivo CGI, ASP O PHP generado a HTML (o algo más no .html).
wget --mirror -w 2 -p --html-extension --convert-links -P <dir> http://www.yourdomain.com
</pre>



==Referencias==
==Referencias==

Revisión del 03:19 16 nov 2007

GNU Wget
GNU Wget 1.10.2
GNU Wget 1.10.2 resumiendo una descarga en Konsole
Información general
Tipo de programa cliente HTTP
Desarrollador Micah Cowan
Lanzamiento inicial enero de 1996
Licencia GPL
Información técnica
Programado en C
Versiones
Última versión estable 1.24.510 de marzo de 2024
Lanzamientos
GNU Wget
Wget2
Archivos editables
Web ARChive
Enlaces

GNU Wget es una herramienta de Software Libre que permite la descarga de contenidos desde servidores web de una forma simple. Su nombre deriva de World Wide Web (w), y de «obtener» (en inglés get), esto quiere decir: obtener desde WWW.

Actualmente soporta descargas mediante los protocolos HTTP, HTTPS y FTP.

Entre las características más destacadas que ofrece wget está la posibilidad de fácil descarga de mirrors (espejos) complejos de forma recursiva, conversión de enlaces para la visualización de contenidos HTML localmente, soporte para proxies...

Su primera versión se lanzó en 1996, coincidiendo con el boom de popularidad de la web. Es un programa utilizado a través de línea de comandos, principalmente en sistemas de UNIX/Linux. Escrito en el lenguaje de programación C, Wget puede ser fácilmente instalado en sistemas derivados de UNIX, y ha sido portado a muchas interfáces gráficas de usuario (GUI) y aplicaciones gráficas de descarga como Gwget[1]​ para GNOME, wGetGUI[2]​ para Microsoft Windows, wGet 1.10 para Mac OS X[3]​.

Características

Robustez

Wget ha sido diseñado para la robustez en conexiones de red lentas o inestables. Si una descarga no se completa debido a un problema en la red, Wget automáticamente tratará de seguir descargado desde donde acabó, y repetir el proceso hasta que el archivo completo haya sido recuperado. Fue uno de los primeros clientes que hizo uso de la entonces nueva Gama HTTP de cabecera (header), para soportar está característica.

Descarga recurrente

Wget opcionalmente puede trabajar como un web crawler extrayendo recursos enlaces de las páginas web HTML y descargárlas en la secuencia, repitiendo el proceso recursivamente hasta que todas las páginas hayan sido descargadas o hasta que halla sido alcanzada una profundidad de repetición máxima especificada por el usuario. Las páginas descargadas son guardadas en una estructura de directorio que se parece a jun servidor remoto. Esta descarga recurrente permite hacer una copia exacta de cualquier sistema de archivos parcial o completamente de un sitio web vía HTTP. Los enlaces de sitios web HTML descargados pueden ser ajustadas para indicar el punto o zona de descarga. Cuando se realiza esta clase de copia exacta del sistema de archivos (en inglés mirroring) automática de un sitio web, Wget soporta el estándar de exclusión de robots.

Portabilidad

Escrito en una forma que permita la portabilidad, en lenguaje C y con la menor cantidad posible de librerías de terceras partes, Wget requiere no mucho más que un compilador C y una interfaz tipo BSD para usar la red con TCP/IP. Diseñado como un programa Unix invocado desde un Unix shell, el programa ha sido portado a numerosos sistemas y ambientes tipo Unix, tal como Cygwin y Mac OS X, así como también a sistemas Microsoft Windows.

Otras características

  • Wget soporta descargas a través de proxies, los cuales son ampliamente desplegados para proporcionar acceso web dentro de cortafuegos de empresas y al cache y rápidamente entregar contenido de frecuencia de acceso.
  • Hace uso de conexiones persistentes de HTTP donde están disponibles.
  • Soporte de IPv6 en sistemas que incluyen los interfaces apropiados.
  • SSL/TLS es soportado para cifrado de descarga usando la biblioteca OpenSSL.
  • Archivos más grandes a 2 Gb son soportados en sistemas de 32 bits que incluyan los interfaces apropiados.
  • La velocidad de descarga puede ser limitada para evitar consumir toda el ancho de banda disponible.

Usando Wget

El uso típico de GNU Wget consiste en invocar desde la línea de comandos una o más URLs como argumentos.

# Descarga del título de página ejemplo.com a un archivo
# llamado "index.html".
wget http://www.ejemplo.com/
# Descarga desde el código fuente con Wget de un sitio GNU ftp.
wget ftp://ftp.gnu.org/pub/gnu/wget/wget-1.10.2.tar.gz

El uso más complejo incluye descargas automáticas desde múltiples URLs en un directorio con jerarquía

# Descarga del título de página ejemplo.com , acompañado con
# las imágenes y el ''estilo de cascada'' (css) necesario para mostrar la página, y convertir las
# URLs dentro para referirse a los contenidos disponibles a nivel local.
wget -p -k http://www.ejemplo.com/
# Descarga de todo el contenido de ejemplo.com
wget -r -l 0 http://www.example.com/

Avanzado

# Descargar un espejo de las erratas (errores) para un libro que usted/tú justo compró.
# Seguir todos los enlaces locales recursivamente y hacer apropiados los archivos
# para verlos desconectado.
# Usar una espera arbitraria (al azar) de 0 a 5 segundos entre los archivos.
# Cuando hay un fracaso, reintentar hasta 7 veces con 14 segundos 
# entre cada reintento.
# Poner al agente de usuario a Firefox en Windows XP e ignorar exclusiones.
# Recoger resultados de acceso al archivo local "myLog.log"
wget -t 7 -w 5 --waitretry=14 --random-wait --user-agent="Mozilla/5.0 
     (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 
      Firefox/1.5.0.1" -m -k -K -e robots=off 
      http://www.oreilly.com/catalog/upt3/errata/ -o ./myLog.log
# Collect only the specific links listed line by line in 
# the local file "my_movies.txt" 
# Use a random wait of 0 to 33 seconds between files.
# When there is a failure, retry for up to 22 times with 48 seconds 
# between each retry.  Send no user-agent at all. Ignore robot exclusions.
# Place all the captured files in the "/movies" directory
# and collect the access results to the local file "my_movies.log"
# Good for just downloading specific known images or other files.

* Recoger sólo los enlaces específicos listados en 
* el archivo local "my_movies.txt" 
* Usar una espera arbitraria de 0 a 33 segundos entre archivos.
* Cuando hay un fracaso, reintente para hasta 22 veces con 48 segundos 
* entre cada reintento. No envíe a ningún agente-usuario en absoluto. No haga caso de exclusiones de robot.
* Colocar todos los archivos capturados en el directorio "/movies" 
* y recoger los resultados de acceso al archivo local "my_movies.log"
* Bueno sólo para descargar imágenes específicas conocidas u otros archivos.
wget -t 22 --waitretry=48 --wait=33 --random-wait --user-agent=""
     -e robots=off -o ./my_movies.log -P/movies -i ./my_movies.txt
#Using wget to download content protected by referer and cookies.
#1. get base url and save its cookies in file
#2. get protected content using stored cookies

*Usando wget para descargar contenido protegido por referer y cookies.
*1. conseguir url base y guardas sus cookies en el archivo 
*2. poner el contenido protegido usando cookies almacenadas 
wget --cookies=on --keep-session-cookies --save-cookies=cookie.txt http://first_page
wget --referer=http://first_page --cookies=on --load-cookies=cookie.txt --keep-session-cookies --save-cookies=cookie.txt http://second_page
#Sitio web espejo a una copia estática para un navegador local.
#Esto quiere decir que todos los enlaces serán cambiados para apuntar a los archivos locales.
#Nota --html-extension convertirá cualquier archivo CGI, ASP O PHP generado a HTML (o algo más no .html).
wget --mirror -w 2 -p --html-extension --convert-links -P <dir> http://www.yourdomain.com


Referencias

  1. Gwget (en inglés).
  2. wGetGUI (en inglés).
  3. wGet 1.10 (en inglés).

Enlaces externos