home
***
CD-ROM
|
disk
|
FTP
|
other
***
search
/
OS/2 Shareware BBS: 35 Internet
/
35-Internet.zip
/
w3grab15.zip
/
wwwgrab2.spa
< prev
Wrap
Text File
|
1997-12-14
|
51KB
|
1,241 lines
Bienvenido a WWWGrab/2 v1.5
---------------------------
<Czech>
¼esk∞ návod je v souboru WWWGrab.CZE.
</Czech>
<Spanish>
La versión en castellano es WWWGrab.SPA
</Spanish>
<French>
La documentation en français est dans le fichier WWWGRAB.FRA.
</French>
<German>
To Jochen: Please add German text "German documentation is in WWWGRAB.DEU" here.
thank you
</German>
Indice del contenido
--------------------
Introducción
Requisitos
Copyright y limitación de responsabilidades
Cargando WWWGrab/2
Expresiones Regulares
Usando archivos `@'
Formato del Archivo de Configuración
Lista de Comandos - en detalle
Lista de Comandos - guía rápida
Guía de Referencia Rápida
Variables pre-definidas
Ejemplos
Reconocimientos y Agradecimientos
Introducción
------------
WWWGrab/2 es un utilitario que permite copiar un sitio web remoto (o parte
de él). WWWGrab/2 hace una copia local, en su disco rígido (o unidad de
red), de los archivos remotos de un server WWW, incluyendo archivos HTML,
imágenes y más.
Usted necesita WWWGrab/2 si:
* Usted es el administrador de un sitio web y necesita tener copias de
su site en diferentes máquinas. Puede configurar WWWGrab/2 para que
corra periódicamente (usando un utilitario tipo "cron") y
automaticamente tener su sitio "espejado".
* Usted tiene problemas para obtener una conexión eficiente o rápida a
un determinado sitio web. Deje a WWWGrab/2 trabajando para bajar
las páginas de su interés y podrá verlas más tarde.
* Usted está trabajando en su propia página y quiere ver el código HTML
de la página de otra persona para ver cómo la hicieron.
* Usted quiere tener una copia local de un sitio web como material de
referencia rápida.
* Usted quiere hacer una copia de una página o sitio web porque esta
puede desaparecer a largo plazo.
* Usted tiene una conexion lenta a la Internet, o simplemente no le
gusta que WWW signifique "World Wide Wait".
* Usted paga una tarifa de acceso a Internet por tiempo de uso.
* Usted hace referencia frecuente a los datos de un sitio web, pero
no quiere tener que conectarse a la red cada vez que necesita ver
la página.
WWWGrab/2 ofrece muchas opciones que lo convierten en una herramienta muy
poderosa y flexible para la copia y "espejado" de sitios web, incluyendo:
* Casi 50 comandos y opciones que proveen un máximo control y flexibilidad
en la operación del programa. (No obstante, sólo unos pocos comandos son
necesarios en la mayoría de los casos).
* Archivos de configuración fáciles de usar que permiten controlar cada
opción y comando en detalle. Los archivos de configuración pueden ser
enlazados entre si, permitiendo que los comandos y opciones comunes
sean automáticamente incluídos, y usted puede tener archivos de
configuración separados para un sólo sitio web.
* Comodines e identificadores tipo U*IX para una máxima flexibilidad y
control sobre los nombres de archivo.
* Se puede chequear si un sitio web ha sufrido modificaciones si este
ha sido previamente copiado o "espejado".
* Permite correr programas externos por cada archivo exitosamente
copiado, permitiendo ilimitadas acciones personalizadas.
* Registro de los archivos exitosamente bajados y copiados.
Requisitos
-----------
Los requisitos de WWWGrab/2 son simples y pocos:
* OS/2 Versión 2.11 o superior. Se sugiere Warp 4.0 ("Merlin") para
una mejor performance.
* Uno de los siguientes paquetes TCP/IP para OS/2 (listados en orden
de preferencia):
* IBM TCP/IP incluído en OS/2 Warp 4.0 ("Merlin").
* IBM TCP/IP 3.0 incluído en OS/2 Warp Connect.
* IBM TCP/IP 2.0 Kit Base con el CSD64092 o superior aplicado.
* El Internet Access Kit del BonusPak de OS/2 Warp 3.0.
* Un disco rígido formateado con un sistema que soporte nombres largos
de archivos (OS/2 o NT HPFS, ext2fs, etc.) no es un requisito pero es
muy recomendable.
* Aproximadamente 100K para archivos de programa y documentación.
* Suficiente espacio en disco para el "espejado" del sitio que ud elija.
Dependiendo de cómo utiliza WWWGrab/2, esto puede ser tan sólo unos
pocos kbytes o muchos megabytes.
Limitación de Responsabilidades
-------------------------------
Este programa es COPYRIGHT de J. Rubes.
WWWGrab/2 es un producto shareware. Es distribuído por canales de
acceso públicos para que los posibles compradores tengan la oportunidad de
evaluar el producto antes de tomar la decisión de comprarlo.
WWWGrab/2 sólo puede utilizarse para propósitos legales. VERIFIQUE
que a usted se le permite copiar un sitio antes de hacerlo.
USE BAJO SU PROPIO RIESGO
Este programa es provisto sin garantía alguna, explícita o implícita,
incluyendo pero no limitado a la utilitdad para un uso en particular. El
usuario es el único responsable del resultado del uso correcto o incorrecto
de este software. WWWGrab/2 no puede utilizarse para proveer servicios
comerciales sin el permiso escrito del autor.
Cargando WWWGrab/2
------------------
Para cargar WWWGrab/2 simplemente escriba lo siguiente desde cualquier
apuntador o línea de comandos de OS/2:
WWWGRAB <archivo_de_configuración> [-i] [-c0|-c1]
<archivo_de_configuración> es el archivo de configuración a usar. El
archivo de configuración es un simple archivo de texto ASCII con los comandos
y opciones que controlan el comportamiento de WWWGrab/2. Su formato y los
comandos y opciones disponibles son descriptos más adelante. La forma más
fácil de crear su primer archivo de configuración es copiar un archivo de
demostración existente y cambiarlo para que se adapte a sus necesidades.
El parámetro opcional -i le indica a WWWGrab/2 que no cargue el archivo
de configuración por omisión. Normalmente, el archivo de configuración por
omisión (que lleva el nombre "DEFAULT.W3D"), es procesado al ejecutarse
WWWGrab/2. Este archivo debe contener los comandos y opciones que nunca
cambian. No obstante, puede evitar con este parámetro o switch que ese
archivo sea cargado. (Vea la Guía de Referencia Rápida para más información
de qué comandos pueden utilizarse en el archivo DEFAULT.W3D.)
-c0 o -c1 graban una lista de URLs modificados desde que el sitio ha
sido copiado por última vez, en el archivo W3GRAB.CHG:
c0 - chequea los sitios sin el comando HEAD. Este método es más lento,
pero más seguro en cuanto a su efectividad.
c1 - chequea los sitis usando el comando HEAD. Esto es más rápido, pero
menos seguro, porque algunos servers simples de WWW no aceptan el
comando HEAD de un cliente, y devuelven un código de error. (Los
servers más comunes, como Apache, CERN, IBM ICS y Netscape se
comportan correctamente y soportan el comando HEAD).
Tenga en cuenta que para poder usar -c0 o -c1 el sitio debe haber sido
previamente copiado al disco rígido.
WWWGrab/2 puede ser ejecutado desde archivos de comandos (.CMD), desde
programas REXX y desde objetos de programa en el desktop de OS/2.
Expresiones Regulares
---------------------
WWWGrab/2 usa expresiones regulares del tipo U*IX en algunos comandos.
Esto permite utilizar especificaciones complejas como por ejemplo
http://www.foo.*/*/index.htm* o bien c??. Esto permite una considerable
flexibilidad en la especificación de URLs, o la especifición de la extensión
de los nombres de archivos, o cualquier otra circunstancia para la cual este
tipo de especificación amplia se requiera.
En el parámetro de búsqueda especificado:
`*' significa cualquier secuencia de cero o más caracteres
`?' significa cualquier caracter INDIVIDUAL.
`\' suprime la significancia sintáctica de un caracter especial.
[SET] significa cualquier caracter, de un conjunto especificado.
[!SET] o [^SET] significa cualquier caracter que NO SE ENCUENTRA en el
conjunto especificado.
Un set o conjunto está compuesto de caracteres individuales o rangos de
caracteres. Un rango está compuesto de dos caracteres separados por un guión
(0-9 o A-Z, por ejemplo). Los números, letras (mayúsculas y minúsculas) y el
caracter `_' son el conjunto mínimo de caracteres soportados. Casi todos los
sistemas operativos soportan caracteres adicionales (8 bits).
El caracter de `escape' (`\') es usado para suprimir la significancia
sintáctica de los caracteres `[]*?!^-\', para que ese caracter pueda ser
encontrada. Por ejemplo, el string de busqueda `file\*' encontrará `file*',
no el string que comience con `file\' y sea seguido por cero o más caracteres;
el patrón de búsqueda `file\[*' significa el string `file[' seguido de cero
o más caracteres adicionales.
Vea la Tabla de Referencia Rápida para ver que comandos soportan
expresiones regulares.
Ejemplos:
file*
Cualquier nombre que comience con las letras `file', como por ej.
`file', `filestar', `file100'.
??file
Cualquier string de 6 caracteres que termine en `file', como
`00file', `dofile', etc.
file[abc]*
Cualquier string que comience con las letras `file', seguidas de
`a', `b', o `c', y seguidas por cero o más caracteres, por ej.
`filea', `filea100', `fileabcd'.
file[0-9]\-?
Cualquier string que comience con las letras `file', seguidas de
un número del 0 al 9, seguidas de un guión `-', seguidas de cualquier
caracter, como por ej. `file3-a', `file0-0', etc.
Usando Archivos `@'
-------------------
Seguramente ud. usará los mismos comandos y opciones para múltiples
sitios web. Estos pueden guardarse en el archivo de configuración por
omisión si es que nunca cambian, pero los archivos de inclusión (archivos
`@') proveen una mayor flexibilidad, permitiéndole grabar opciones y
comandos comunes a sólo algunos sitios. Los archivos de inclusión son
llamados desde el archivo principal de configuración (especificado en la
línea de comandos).
Por ejemplo, si usted usa frecuentemente el comando MASK, puede incluírlo
en el archivo DEFAULT.W3G y este será aplicado a todos los archivos de
configuración. Pero si desea usar MASKs diferentes para sitios web
diferentes, debe usar un archivo de inclusión. Para hacerlo, debe crear dos
archivos de inclusión, y luego llamar al archivo correcto en cada archivo de
configuración.
Haga un archivo llamado (por ejemplo) MASKS1 con el siguiente texto. Este
será el primer archivo de inclusión:
*.HTML
*.HTM
*.?.JPEG
*.0?.GIF
Luego cree el segundo archivo de inclusión llamado (por ejemplo) MASKS2
con el siguiente texto:
*.SHTML
*.SHTM
*.JPEG
*.GIF
*.WAV
Preste atención a que el archivo de inclusión sólo puede contener un
parámetro por línea.
Finalmente, incluya una llamada al archivo de inclusión en el archivo
de configuración. Por ejemplo, para usar los parámetros incluídos en
MASKS1 agregue la siguiente línea al archivo de configuración:
MASK @MASKS1 ; usar el contenido del archivo MASKS1
Cuando WWWGrab/2 lea el archivo de configuración, leerá los parámetros
para el comando MASK desde el archivo MASKS1. NOTA: No olvide incluir
el caracter `@' delante del nombre de archivo.
Puede usar múltiples archivos de inclusión en el mismo comando, siempre
que el comando pueda usarse más de una vez. Por ejemplo, para llamar
a MASKS1 y MASKS2 agregue las dos líneas incluídas más abajo al archivo
de configuración:
MASK @MASKS1 ; usar los contenidos del archivo MASKS1
MASK @MASKS2 ; y agregar los contenidos del archivo MASKS2
Si sólo incluyo MASK @MASKS2, entonces sólo los archivos *.SHTML, *.SHTM,
*JPEG, *.GIF, y *.WAV serán copiados.
Vea la Guía de Referencia Rápida para saber qué comandos soportan archivos de
inclusión.
Macros
------
WWWGrab/2 le permite definir y luego usar macros simples para la búsqueda y
reemplazo de texto similar a las facilidades provistas por los 'makefiles'.
La sintaxis es:
#define <var> [valor]
La <var> representa la variable a ser definida, y [valor] es el valor opcional.
Ejemplos:
#define NOBIN
Crea una variable llamada NOBIN, sin valor alguno
#define USERPATH c:\jirir
Crea una variable llamada USERPATH y le asigna el valor c:\jirir
Existen dos formas de usar una variable. La primera consiste en la expansión
simple de texto. Por ejemplo, dada la anterior definición de USERPATH, las
siguientes dos líneas son idénticas:
LOCALPATH $(USERPATH)\mirrors
LOCALPATH c:\jirir\mirrors
Ud. debería considerar el uso de una variable de este tipo cada vez que
necesite cambiar el mismo texto repetidamente en distintas partes del
archivo de configuración. Simplemente cree una variable al comienzo del
archivo .INI y haga referencia a la variable en vez de tipear una y otra
vez el mismo texto. Entonces, cuando necesite cambiar el mismo sólo tendrá
que hacerlo una vez.
La segunda forma de usar las variables consiste en utilizarlas dentro de una
expresión condicional. Una expresión condicional puede cambiar que comandos
del archivo .INI serán utilizados y cuales no. La sintaxis es:
#ifdef <var> - OR -
#ifndef <var>
...
#else
...
#endif
Si la variable existe y esta definida (no necesita que tenga un valor asignado)
las lineas debajo de #ifdef (IF DEFined) son leídas. Si la variable no fué
definida, las líneas debajo de #else no son leídas. El #endif marca el fin
de la sección condicional. #ifndef (IF Not DEFined) tiene la lógica inversa,
los comandos debajo de #ifndef son ejecutados sólo si la variable no fué
definida, y los comandos debajo del #else si la variable fué definida.
Ejemplos:
#ifdef __OS2__
LOCALPATH c:\wwwgrab2\mirrors
#else
#ifdef __UNIX__
LOCALPATH /home/w3g/mirrors
#else
LOCALPATH c:\wwwgrab95\mirrors
#endif
#endif
Esto seteará el LOCALPATH basandose en que sistema operativo está usando el
usuario. (Las variables OS2 y UNIX están pre-definidas.)
Las instrucciones condicionales pueden ser anidados hasta ocho niveles.
Para una lista de las variables pre-definidas, vea la sección 'Variables
Pre-definidas'.
Formato del archivo de configuración
------------------------------------
Todos los comandos y opciones en el archivo de configuración tienen el
mismo formato:
<comando> [parámetros]
Pueden haber espacios antes del comando, y debe haber al menos un espacio
después del comando si se ha incluído algún parámetro.
Pueden incluirse comentarios en los archivos de configuración siempre
que sean precedidos por el símbolo de punto y coma (`;'). Todo texto
que siga a un punto y coma es ignorado hasta el comienzo de la línea
siguiente. Ejemplos
URL http://www.foo.com/bar ; Este es un comentario
; Este es también un comentario.
Todos los URLs deben estar en el formato http completo. Siempre use
`http://www.foo.com', no `foo', `foo.com', o `www.foo.com'. Puede usar
direcciones IP y numero de port, ej: `http://127.0.0.1/localhost/' o
`http://www.foo.com:8080/misc'.
Lista de Comandos - Referencia en Detalle
-----------------------------------------
La siguiente es una lista detallada de cada uno de los comandos y opciones
que controlan el comportamiento de WWWGrab/2.
ADD <path>
Agrega el path especificado a la lista de URL's solicitados. Este
comando puede ser usado más de una vez, y siempre se aplica al primer
URL.
Ejemplo:
URL http://www.xxx.yyy/path1/index.html
URL http://foobar.com/
ADD /path2/pic/index.html
Copiará: http://www.xxx.yyy/path1/index.html Y
http://www.xxx.yyy/path2/pic/index.html Y
http://foobar.com/
ALL
Normalmente, si WWWGrab/2 ve un archivo que ya existe, enviará un comando
GET condicional al server remoto. El archivo será copiado nuevamente si
la versión en el server es más nueva que la que se encuentra en el disco
local. Si desea transferir y copiar nuevamente todos los archivos sin
importar su fecha o si existen a nivel local, debe usar la opción ALL.
ALLOW <URL-en-formato-http>
Especifica explícitamente que un arbol de directorios determinado puede
ser copiado. Este comando puede usarse más de una vez y pueden usarse
expresiones regulares.
Ejemplo:
ALLOW http://www.xxx.yyy/permitir/este/path/
CHAM <número>
Algunos servers (especialmente Netscape) tratan de reconocer el tipo de
cliente o browser utilizado. Si no se les informa el nombre del cliente,
no envían ninguna clase de datos. Puede usar esta opción para "enmascarar"
el nombre de cliente (como camaleón). Los números son:
0 - WWWGrab (valor por omisión)
1 - Mozilla Netscape Browser
2 - WebExplorer IBM WebExplorer/2
3 - WebCrawler robot WebCrawler
4 - InfoSeek robot InfoSeek
5 - Harvest un robot web
6 - Mosaic NCSA Mosaic
7 - Lynx Lynx, browser modo texto
8 - PRODIGY-WB Prodigy browser
9 - Internet Microsoft web browser
Ejemplo:
CHAM 2
Se identifica al server como un cliente WebExplorer.
CHANGESITE <número de sites>
Normalmente, si WWWGrab/2 encuentra un enlace a otro sitio WWW en un
archivo WWW, el enlace es ignorado. Si desea permitir a WWWGrab/2
seguir a otro server, use el comando CHANGESITE. El valor por omisión
es 0, lo que significa que no se cambia de sites. TENGA CUIDADO con
lo que ingresa aquí, un valor muy elevado puede hacer que termine
indexando todos los WWW de internet!.
Ejemplo:
CHANGESITE 2
CLIENT
Cuando se usa la opción CLIENT, WWWGrab/2 convierte todos los enlaces
a enlaces relativos. <a href="/www/files/foo.html"> se convierte en
<a href="foo.html"> por ejemplo. Use esta opción si desea poder mirar
los sites copiados desde el disco rigido. (Tenga en cuenta, no obstante,
que los programas CGI, los programas Java y los imagemaps del lado del
server no funcionarán porque estos requieren la presencia de un server
HTTP).
DEFAULTNAME <nombre>
Algunas veces los enlaces apuntan a un directorio en vez de a un archivo.
En este caso, si el nombre de archivo no es conocido, se usa el valor
especificado en DEFAULTNAME para ese directorio. El valor por omisión
de DEFAULTNAME es "index.html".
Ejemplo:
DEFAULTNAME Welcome.html
DENY <URL-en-formato-http>
El URL provisto, como así también todos los subdirectorios de ese URL,
no son procesados. Muchas veces algunos subdirectorios específicos no
son deseables. Puede negar la transferencia de esos URLs usando este
comando. Puede ser usado más de una vez, y también pueden usarse
expresiones regulares.
Ejemplo:
DENY http://www.xxx.yyy/no/permitir/este/path/
No copiará ningún archivo del arbol /no/permitir/este/path/.
Si no incluye la barra final en el último directorio
(http://www.xxx.yyy/no/permitir/este/path) entonces todos los
subdirectorios que comiencen con "path" no serán procesados. Esto
incluye "paths.html", "path1/news", etc.
DO <DEF | HTML | IMG | SND> <NOTHING | comando>
Este comando le permite ejecutar un comando para cada archivo exitosamente
copiado. Puede especificar distintos comandos para distintos tipos de
archivo. Si no se asocia ningún comando con un tipo particular de archivo,
el valor por omisión o default (DEF) será ejecutado. Puede usar las
siguientes opciones en el comando:
%d depth (profundidad)
%h host (servidor www)
%l nombre de archivo local
%p URL padre (documento desde el cual viene este link o enlace)
%r archivo remoto (URL sin el nombre del host)
%t file timestamp in RFC 822 format
%u URL
%% % (signo porcentual)
NOTA: no se recomienda el uso de las opciones '%', sino el uso de las
variables pre-definidas siempre que sea posible. Para más información,
vea la sección 'Macros' y 'Variables Pre-definidas'.
Si no quiere ejecutar ningún comando para un tipo específico, pero quiere
ejecutar el comando DEF, entonces incluya NOTHING como el comando.
Los tipos son:
HTML - archivos definidos como contenido text/html
IMG - archivos definidos como contenido image/*
SND - archivos definidos como contenido audio/*
DEF - cualquier otro archivo
Los programas ejecutados operan al mismo tiempo que WWWGrab/2 y pueden
SOBRECARGAR su sistema. Los progrmas ejecutados incluyen aquellos corridos
mediante "start".
Ejemplo:
DO HTML start /b html2txt %l
; corre el programa html2txt en el background para cada archivo html
DO SND play file=%l
; toca los archivos de sonido copiados
DO IMG NOTHING
; no hace nada con los archivos de imágenes
DO DEF echo %u >>other.files
; archiva los nombres de los otros tipos de archivos copiados
EXCL <servidor-www>
Este comando define un servidor WWW a excluir del proceso de copia.
Puede usarse este comando conjuntamente con CHANGESITE, y puede ser
utilizado más de una vez.
Ejemplo:
EXCL www.yyy.zzz
EXCL microsoft.is.lame.org ... pruebe este URL :-)
EXTENSIONS <lista de extensiones>
El comando EXTENSIONS define una lista de strings de búsqueda para la
extensión de los archivos a bajar. Las extensiones van separadas de un
espacio. Si no especifica ninguna extensión, entonces los valores por
omisión HTM, HTML, SHTM, SHTML, JPG, GIF, WAV, AU, CLASS, y JAVA son
definidos automáticamente. Puede usar alternativamente el caracter ':'
como operador de NEGACION, para listar extensiones que desea ignorar.
Tenga cuidado con que pone aquí!. Incluir extensiones EXE o ZIP puede
hacer que vastas cantidades de datos sean copiadas y ocupen igual
espacio en el disco si por casualidad comienza a copiar o espejar un
sitio como hobbes, sunsite o simtel. Puede usar expresiones regulares
(vea más abajo), y este comando puede usarse más de una vez.
Ejemplo:
EXTENSIONS ZIP C
Usar extensiones ZIP y C
EXTENSIONS ZIP JAVA :C??
Use ZIP and JAVA, pero no C++, C--, C00...
FAT
Esta opción habilita la compatibilidad con el sistema de archivos FAT
En este modo WWWGrab/2 guarda todos los archivos copiados en un sólo
directorio usando el formato de nombre de archivos de 8.3 caracteres.
Automáticamente arregla los links. Esta opción es automáticamente
encendida si el path local se encuentra en una partición FAT o en
una partición sin soporte de nombres largos de archivos.
FIXSL
Algunas veces los autores de páginas de web olvidan agregar la barra
final a las direcciones internet. Puede usar la opción FIXSL para
arreglar el olvido de la barra final.
HUP <minutos>
El comando HUP le permite restringir el tiempo máximo por el cual
WWWGrab/2 correrá, en minutos. Cuando se alcanza este tiempo de
ejecución, WWWGrab/2 terminará su ejecución. Si un archivo está
siendo transferido en ese momento, WWWGrab/2 interrumpirá su
ejecución solamente cuando haya terminado de transferir el mismo.
Ejemplo:
HUP 90
WWWGrab/2 funcionará por 90 minutos solamente.
HUPF <nombre de archivo>
Este comando hace que WWWGrab/2 cree el archivo especificado antes
de regresar el control al sistema operativo.
Ejemplo:
HUPF c:\work\wwwhup.
WWWGrab/2 creará el archivo c:\work\wwwhup al terminar su operación.
I401
Si WWWGrab/2 envía un comando GET condicional a una página protegida
y la página no ha sido modificada, algunos servers contestan con un
código de status 401. Puede usar I401 para ignorar esta respuesta y
bajar el archivo.
INCLUDE <archivo>
Este comando le permite incluir otro archivo de configuración en el
archivo actual que esta siendo procesado. Se permite llamar a un
archivo desde otro sucesivas veces, hasta un máximo de 4 veces. Este
comando es útil para incluir comandos que son usados en múltiples
archivos de configuración. Vea también la sección dedicada a los
archivos '@'.
Ejemplo:
INCLUDE realms.inc
INCL urls.inc
IRO
Algunos web sites tienen un archive que le informa a los web crawlers
u otros programas automáticos como WWWGrab/2 que archivos pueden bajar
(ignorando los demás). Normalmente, WWWGrab/2 buscará este archivo y
obedecerá las restricciones en el. Si desea ignorar este archivo, use
el comando IRO (Ignore RObot file). WWWGrab/2 bajará entonces todos los
archivos (sujeto a las restricciones de otros comandos y opciones).
ISO9660
Esta opción fuerza a WWWGrab/2 a grabar todos los archivos con nombres
que respeten la especificación del file system ISO9660, un formato
popular usado en los cd-roms y por el software de grabación de cd-r.
El formato ISO9660 sólo permite nombres con letras mayúsculas, dígitos
numéricos, y el carácter de subrayado como parte de los nombres de
archivo.
LOCALPATH <path>
WWWGrab/2 debe tener un lugar donde guardar los archivos que baja.
Este comando le dice a WWWGrab/2 la ruta de acceso en su máquina local
en el cual se grabarán los archivos del sitio de web a ser copiado.
Ejemplo:
LOCALPATH F:\GRAB\IBM\
Graba los sitios web copiados en el directorio F:\GRAB\IBM\.
LOG <archivo-de-log> <string-de-log>
Este comando graba un registro de todos los archivos copiados exitosamente
al archivo especificado como <archivo-de-log> en el formato descripto en
<string-de-log>. Como string de log pueden usarse los siguientes
caracteres:
%d depth (profundidad)
%h host (servidor www)
%l nombre completo del archivo local
%p URL padre (página desde donde viene este enlace)
%r archivo remoto (URL sin el host)
%t hora y fecha del archivo en formato RFC 822
%u URL
%% % (signo porcentual)
\n nueva línea
\t tab
\\ \ (barra invertida)
Nota: El comando LOG no agrega automáticamente los caracteres CRLF al final
de cada string.
Ejemplo:
LOG foo.log URL %u fue grabado en %l\n
Producirá un registro como el siguiente:
URL http://www/index.html fue grabado en \grab\www\index.html
URL http://www/foo/foo.gif fue grabado en \grab\www\foo\foo.gif
...
MAP
Esta opción enciende la creación de un archivo "mapa" del sitio. Este
archivo tiene el nombre w3gmap.htm. El archivo mapa contiene un mapa
del sitio copiado. Puede usarlo más tarde para copiar archivos
manualmente.
MASK <máscara de búsqueda de archivos>
Use este comando si desea copiar sólo los archivos especificados. Este
comando tiene preferencia sobre EXTENSIONS. Debe definir EXPLICITAMENTE
cada máscara de búsqueda, incluyendo los valores por omisión en
EXTENSIONS como HTML, etc.! Este comando puede ser utilizado más de
una vez. La máscara de búsqueda de archivos puede contener comodines
(caracteres especiales para la sustitución de cualquier letra). Para
más información sobre este tema lea la sección "expresiones regulares".
Ejemplo:
MASK *.jpg
Copiará explícitamente todos los archivos con extensión .jpg
MASK ?a*.html
Copiará todos los archivos cuyo nombre comience con cualquier
caracter, seguido de una letra 'a', seguido de cualquier número
de otros caracteres, y que termine en .html, como zaphod.html,
0a.html, etc.
MASK *.jpg s?n.htm* do*s.large.i*x *.*.html.c*
Copiará one.jpg, two.jpg, sin.htm, son.htm, sun.html,
dogs.large.idx, doorways.large.index, index.short.html.cz852,
index.of.html.cz.html, try.decode.html.c, etc...
MASK *.jp*g chapter[0-4].htm*
Copiará cualquier archivo jpg o jpeg file, y chapter0.htm,
chapter1.htm, chapter0.html, chapter1.html, chapter2.htm,
chapter3.html, pero no chapter5.html.
MAXDEEP <niveles>
MaxDeep define cuántos nivels de subdirectorios deben ser copiados
por WWWGrab/2. Los subdirectorios que esten por debajo del nivel
especificado en <niveles> serán ignorados.
Ejemplo:
MAXDEEP 5
Copiará http://www.foo.com/1/2/3/4/5/file.html pero no así
http://www.foo.com/1/2/3/4/5/6/file.html
NOTA: La versión shareware de WWWGrab/2 (sin registrar) está limitada
a 5 niveles.
MAXDL <límite>
Esto define el número máximo de kilobytes que WWWGrab/2 transferirá.
Cuando WWWGrab/2 está por bajar un archivo, este chequea el tamaño del
mismo. Si al bajar el archivo se excede el límite especificado en MAXDL
entonces el archivo no es transferido (será ignorado).
Ejemplo:
MAXDL 3
Copiará archivos del sitio web hasta llegar a 3KB.
MAXFSIZE <tamaño-de-archivo-en-kb>
Puede usar este comando para establecer el límite de tamaño de archivo
a bajar, en kilobytes. Los archivos que sean mayores que el tamaño en
kb especificado, serán ignorados. Este comando no funcionará en aquellos
servidores WWW que no tienen capacidad de informar el tamaño de archivo.
Ejemplo:
MAXFSIZE 100
No copiará archivos más grandes de 100kb.
MAXTRIES <número>
MaxTries le indica a WWWGrab/2 cuantas veces debe intentar transferir
un archivo. WWWGrab/2 intenta obtener todos los archivos secuencialmente
Si un archivo no se puede transferir en el primer intento (ej: por una
demora en la conexión o poco ancho de banda), es ignorado hasta que se
procese la lista completa. Entonces, WWWGrab/2 reintenta la transferencia
de aquellos archivos que tuvieron problemas. Este proceso se repite hasta
la cantidad de veces especificada en MAXTRIES hasta que todos los archivos
han sido transferidos.
Ejemplo:
MAXTRIES 3
METAFILE <nombre-de-archivo>
Este comando le indica a WWWGrab/2 en que archivo guardar la información
sobre los archivos copiados. El nombre por omisión es META.DAT, este
archivo es guardado en el directorio LOCALPATH\%host%.
Ejemplo:
META data.met
NICE [demora]
Este comando define la demora ajustable (en segundos) entre cada enlace
para que ud. no consuma todos los recursos del sistema al que ud. esta
accediendo. Si ud. usa este comando sin especificar un valor, WWWGrab/2
esperará 10 segundos antes de pedir el archivo siguiente. Atención:
WWWGrab/2 puede generar pedidos demasiado rápido para algunos servidores
de web. El setear el valor de NICE a un nivel muy bajo puede ocasionar
que se cuelgue el servidor de web debido a la gran cantidad de accesos
en muy poco tiempo. Esto no es divertido :-). Se sabe que un valor bajo
de NICE cuelga los siguientes tipos de servidores WWW:
Todos los servidores WWW que corren bajo Microsoft Windows(TM)
Los servidores de generación anterior (HTML/1.0) CERN en todas
las plataformas.
Los valores bajos de NICE pueden también causar un congestionamiento
de la red debido a la gran cantidad de tráfico de información generado.
Para seguridad, se recomienda setear el valor de NICE en un mínimo de
cinco segundos. Cuanto más alto el valor de NICE, mejor. Recuerde: este
programa funciona en forma automática durante horas mientras hace su
trabajo, así que no es necesario que ud. este siempre presente para
interactuar con el. Es del tipo "dispara y olvida".
Ejemplo:
NICE 5
NOTE: Si ud. intenta setear NICE a un valor de CERO (0), el valor
será automáticamente cambiado a cinco segundos.
NOAPPLET, NOIMG, NOOTH, NOSND, NOVID
Cada archivo enviado desde el servidor WWW posee un campo denominado
"Content-type:" (tipo de contenido) que describe al cliente WWW que
tipo de archivo es (aplicación, imagen, sonido, texto, video, u otro).
Estas opciones le permiten informar a WWWgrab/2 que tipos de archivo
usted NO QUIERE copiar. Los comandos y los tipos de contenido son:
NOAPPLET
Use esta opción si no quiere bajar Applets Java.
NOIMG
Use esta opción si no quiere bajar archivos de gráficos.
NOOTH
Use esta opción para ignorar los archivos de OTRO tipo
(que no sean aplicacion, imágenes,texto, sonido o video).
NOSND
Use esta opción si no quiere bajar archivos de audio.
NOVID
Use esta opción para ignorar los archivos de video.
OHTML
Esta opción combina NOIMG, NOSND, NOOTH, NOVID y NOAPPLET.
PPORT <port proxy>
Este comando especifica el puerto proxy. El valor por defecto es 80.
Este comando es ignorado si no se especifica ningun host en el comando
PROXY.
Ejemplo:
PPORT 8080
PROXY <host>
Use este comando si ud. accede a Internet a través de un proxy server
o "cache". El nombre de <host> puede ser el nombre completo
(ej. proxy.foo.com) o una dirección IP. Si no está seguro sobre esto,
consulte con su administrador local de red o su proveedor de servicio
Internet para chequear si poseen servicio proxy.
Ejemplos:
PROXY www.proxy.server
PROXY 123.456.789.10
PROXYAUTH <base64>
Use el comando PROXYAUTH si accede a Internet a traves de un servidor
proxy con seguridad.
Ejemplo:
PROXY secured.proxy.net
PROXYAUTH LTot
REALM <host> <"Nombre de Realm"> <usuario y password codificado>
Define un host con seguridad, un nombre de realm o "dominio" y a
continuación el nombre de usuario y el password para acceder a dicho
sitio, encodificado en formato base64. Este comando puede usarse más
de una vez. El nombre del dominio es SenSitivO a MayusCUlAs y
minúsCuLAs. Si no conoce el nombre del dominio puede insertar un string
vacío (ej: ""), o examine WWWGRAB.LOG. El host es la direccion de la
máquina con authorización básica. Puede ser en formato IP (1.22.33.44)
o en el formato estándar de dominio (www.foo.com). Los dominios o
"Realms" son generados por el programa makeauth. Puede usar el
comando INCLUDE para incluir el resultado generado por makeauth en el
archivo de configuración.
Ejemplo:
REALM www.sitio.con.password.host "Mi Sitio Favorito - Suscriptor" LTot
REMOVE
Esta opción le informa a WWWGrab/2 que elimine los enlaces que no
están siendo usados del archivo HTML. Los enlaces no son borrados
sino anulados.
REPL <path>
Especifica el path o vía de acceso que reemplaza al LOCALPATH en los
enlaces. Por ejemplo, si ud. especifica "REPL /mirrors" y el path
local es F:\OS2Httpd\HTML\GRAB\, para un enlace en el documento copiado
a "<A HREF="/some/pages/index.html"> enlace </a>", el nombre de archivo
reemplazado es "F:\OS2Httpd\HTML\GRAB\www.foo.com\some\pages\index.html".
El enlace en el documento será cambiado a :
"/mirrors/www.foo.com/some/pages/index.html"
Ejemplo:
REPL /mirrors
SITELIST <host>
Normalmente, si WWWGrab/2 encuentra un enlace a otro sitio web
en un archivo HTML, el enlace es ignorado. Puede usar el comando
SITELIST para especificar los hosts que SI están permitidos para
que WWWGrab visite. Puede usar el caracter ':' como operador lógico
de negación. Este comando puede usarse más de una vez.
Ejemplo:
SITELIST www.xxx.yyy
Permite las conexiones al sitio www.xxx.yyy.
SITELIST :www.xxx.yyy
Todos los sitios web, con excepción de www.xxx.yyy.
NOTA: Este comando anula el comando CHANGESITE!
SWSLASH
Convierte las barras normales a barras invertidas (usadas en ms-dos)
por ejemplo de '/' (usada en la mayoria de los sistemas Unix y OS/2)
a '\' en todos las direcciones y paths en los archivos HTML. Es util
por si se quiere hacer los archivos HTML compatibles con browsers
viejos que no soportan los paths de unix (con barra normal) al
acceder a archivos HTML desde el disco rígido.
TIMC <seg>
El comando TIMC le informa a WWWGrab/2 cual es el valor de time-out o
tiempo máximo de espera. Si WWWGrab/2 no obtiene respuesta del servidor
web en un tiempo menor al especificado por TIMC, entonces se cierra esa
conexión al servidor. Este valor debe ser menor o igual a TIMP y mayor
que 10. El valor por defecto es de 60 segundos. No use este comando si
no entiende perfectamente para que sirve.
Ejemplo:
TIMC 100
TIMP <seg>
El comando TIMP le indica a WWWGrab/2 cual es el valor de time-out o
tiempo máximo de espera para los paquetes de datos. La conexión es
abortada después del timeout. El valor por defecto es de 60 segundos.
Este valor debe ser superior a 10 segundos. No use este comando si
no entiende cómo funciona.
Ejemplo:
TIMP 120
TOP <URL-en-formato-http>
Define el TECHO del path o ruta de acceso. WWWGrab/2 ignorará los
archivos que se encuentren en directorios superiores a los especificados
en este comando. En otras palabras, el path del archivo debe comenzar
con esta string. Puede usar expresiones regulares. Este comando puede
ser utilizado más de una vez.
Ejemplo:
TOP http://www.foo.com/path/xxxx/
Ignora los archivos por encima de /path/xxxx/, ej: NO COPIA
/path/un.archivo.cualquiera
TOP http://www.*.net/java/
URL <url-en-formato-http>
Este comando le indica a WWWGrab/2 la dirección de un sitio web que
ud quiere copiar. Se requiere el URL completo del sitie. El comando
URL puede usarse más de una vez para copiar múltiples sites desde
un mismo archivo de configuración. Este es un comando básico. :-)
Ejemplo:
URL http://www.geocities.com/SiliconValley/Heights/7262/index.html
Lista de comandos - Referencia Rápida
-------------------------------------
La siguiente es una guía rápida de los casi 50 comandos y opciones que
controlan el funcionamiento de WWWGrab/2.
ADD <path> Agrega el path especificado a la lista de URLs pedidos.
ALL Bajar todos los archivos no importa su fecha.
ALLOW <URL> Especifica explícitamente un subdirectorio a copiar.
CHAM <número> Simula un tipo de cliente Web.
CHANGESITE <num> Seguir <num> número de enlaces a otros servers WWW.
CLIENT Cambiar los enlaces a links relativos, para browsing
local.
DEFAULTNAME <nombre> Setea el nombre por omisión para los directorios.
DENY <URL> Impide la copia del <URL>.
DO <opción> <cmd> Ejecuta el <cmd> en el archivo DEF|HTML|IMG|SND.
EXCL <servidor> Excluye un server WWW de la operación de copia.
EXTENSIONS <lista> Permite bajar los archivos cuya extension se encuentre
en una lista.
FAT Activar compatibilidad con el sistema de archivos FAT.
FIXSL Agrega la barra final a los links que no la posean.
HUP <min> Restringir el tiempo máximo de uso de WWWgrab/2.
HUPF <archivo> Crear el archivo especificado al salir de WWWGrab/2.
I401 Ignorar el error I401 y permitir bajar un archivo.
IRO Ignorar las restricciones del 'robots file'.
ISO9660 Activar compatibilidad con file system ISO 9660 (CDs).
INCLUDE <archivo> Insertar otro archivo de configuración en este punto.
LOCALPATH <path> Path local donde grabar los archivos copiados.
LOG <archivo><string> Grabar a <archivo> usando <string>.
MAP Crear un mapa HTML del sitio copiado.
MASK <máscara> Explícitamente definir las extensiones permitidas.
MAXDEEP <niveles> Cuántos niveles de subdirectorios se deben copiar.
MAXDL <límite> Número máximo de kbytes a copiar.
MAXFL <tamaño> Tamaño máximo de archivo a copiar.
MAXTRIES <num> Número máximo de reintentos para obtener un archivo.
METAFILE <archivo> Especifica nombre de metafile.
NICE <segundos> Demora de <segundos> después de obtener cada archivo.
NOAPPLET No bajar applets.
NOIMG No bajar imágenes.
NOOTH No bajar "otros" archivos.
NOSND No bajar archivos de audio.
NOVID No bajar archivos de video.
OHTML Combina NOIMG, NOOTH, NOSND, NOVID y NOAPPLET.
PPORT <port> Especifica el port de proxy.
PROXY <hostname> Especifica el host de proxy.
PROXYAUTH <base64> Especifica la autorización del proxy.
REALM <h> <rlm> <pw> Define un host seguro, realm, y nombre de
usuario/password.
REMOVE Elimina los links no usados de los archivos HTML.
REPL <path> Reemplaza el path local en un link.
SITELIST <host> Permite conexiones al <host>.
SWSLASH Convierte las barras / a barras invertidas ("\").
TIMC <seg> Tiempo para dar un time-out al servidor. (Máx de espera)
TIMP <seg> Tiempo máximo de espera (time-out) para los packets.
TOP <URL> Define el "techo" del path (no bajar archivos que se
encuentren en directorios superiores a este).
URL <URL> URL de un site a copiar.
Guía de Referencia Rápida de Comandos y Opciones
------------------------------------------------
COMANDO ABREV. '@' POR_DEF. DESACTIVA VAL_DEF. REX REG MULT
--------------------------------------------------------------------------
ADD SI NO NO NO SI
ALL NO NO NO NO NO
ALLOW SI NO SI SI SI
CHAM NO SI 0 NO NO NO
CHANGESITE CHSIT NO NO 0 NO SI NO
CLIENT NO SI NO NO NO
DEFAULTNAME DEF NO SI [3] NO SI NO
DENY SI NO SI SI SI
DO NO SI NO SI NO
EXCL SI NO SI NO SI
EXTENSIONS EXT SI SI [1] SI SI SI
FAT NO SI NO NO NO
FIXSL NO SI NO NO NO
HUP NO SI NO NO NO
HUPF NO SI NO NO NO
I401 NO SI NO NO NO
IRO NO SI NO SI NO
ISO9660 NO SI NO NO NO
INCLUDE INCL NO NO NO NO SI
LOCALPATH LOP NO SI [0] NO NO NO
LOG NO SI NO SI NO
MAP NO SI NO NO NO
MASK SI SI EXTENSIONS SI SI SI
MAXDEEP MDP NO SI 1 NO [2] NO
MAXDL NO SI NO NO NO
MAXFL NO SI NO NO NO
MAXTRIES MTR NO SI NO NO NO
METAFILE META NO NO NO NO NO
NICE NO SI 10 NO NO NO
NOAPPLET NOAP NO SI NO NO NO
NOIMG NO SI NO NO NO
NOOTH NO SI NO NO NO
NOSND NO SI NO NO NO
NOVID NO SI NO NO NO
OHTML NO SI [4] NO NO NO
PPORT NO SI 80 NO NO NO
PROXY NO SI NO NO NO
PROXYAUTH NO SI NO NO NO
REALM NO NO NO SI SI
REMOVE NO SI NO SI NO
REPL NO SI NO SI NO
SITELIST SLIST SI NO CHANGESITE NO SI SI
SWSLASH NO SI NO NO NO
TIMC NO SI 60 NO NO NO
TIMP NO SI 60 NO NO NO
TOP NO NO SI NO SI
URL SI NO NO NO SI
[0] - \WWWGrab\Grab
[1] - HTM, HTML, SHTM, SHTML, JPG, GIF, WAV, AU, CLASS, y JAVA.
[2] - La versión shareware (no registrada) de WWWGrab/2 está limitada a
cinco niveles.
[3] - El valor por omisión para la versión shareware es "index.html".
[4] - Combina NOIMG, NOSND, y NOAPPLET.
REX - Expresiones regulares
REG - Disponible en la versión registrada solamente
MULT - El comando puede usarse más de una vez
Variables pre-definidas
-----------------------
WWWGrab/2 predefine varias variables. Dependiendo de que sistema operativo
utilice, una de las siguientes variables será definida:
__OS2__
__NT__
__UNIX__
La variable OS se seteará a uno de los siguientes valores, de acuerdo al
sistema operativo en uso:
OS/2
Windows NT|95
Linux
SEM Punto y coma (;)
VER Versión de WWWGrab/2
UHTP "URL http://"
LHOST Nombre de la máquina local
URL URL copiado (%u)
LFILE Archivo local (%l)
TIME Hora del archivo (%t)
HOST Host remoto (%h)
DEPTH Nivel de anidamiento actual (%d)
PARENT Directorio superior al URL actual (%p)
RFILE Nombre de archivo remoto (%r)
Por favor recuerde que recomendamos el uso de las nuevas variables
en lugar de los comandos '%'.
Ejemplos
--------
Ejemplo básico de acceso a un site con autenticación:
URL http://www.sec1.host/secured/pages/index.html
LOCALPATH \MyGrab\Secured
MAXDEEP 5
MAXTRIES 3
REALM www.sec1.host "Realm 1" WAEFfgSDRGwer==
REALM www.sec1.host "Realm 2" WQREGFbsdgiwheg
Ejemplo del archivo de configuración por defecto:
;; Definición de extensiones comunes
;
EXTENSIONS HTML HTM SHTML SHTM
EXTENSIONS JPG JPEG GIF XBM
EXTENSIONS WAV VOC AU
EXTENSIONS JAVA CLASS
;
;; El valor por defecto para el comando MAXDEEP
;
MAXDEEP 5
;
;; El valor por defecto para el comando NICE
;
NICE 3
Agradecimientos
---------------
Quiero expresar mi agradecimiento a todos quienes han probado WWWGrab/2
voluntariamente y han reportado errores y aportado sugerencias constructivas
para mejorar el programa. Sin la ayuda de ellos, WWWGrab/2 no hubiera tenido
este éxito.
Mi agradecimiento especial va para:
* Tom Wheeler
* Andreas Krattenmacher
* Mike Nice
* Stanislav Koci (St/\n)
* Jochen Riemer
* Fernando Cassia
* Vincent Bernat
Un agradecimiento especial a Tom Wheeler por chequear la documentación.
Traducción al Español-Castellano por Fernando Cassia (fcassia@theoffice.net).
http://ourworld.compuserve.com/homepages/fcassia/sos2.htm
Traducción al Frances por Vincent Bernat (bernat@mail.dotcom.fr).
http://w.home.ml.org ou http://www.mygale.org/07/www/
Gracias también a HELLOWEEN, GAMMA RAY, Michael Kiske, MANOWAR, Alice
Cooper, GREEN DAY, y todas las otras grandes bandas y músicos que proveen
la música que escucho mientras programo.
---------------------------------------------------------------------------
Si a ud. le gusta y utiliza este programa, por favor:
Envíe $15.00, el pago normal de registración para WWWGrab/2. Puede enviar
más si lo desea. :-)
Este precio de registración es para USUARIOS INDIVIDUALES, o sea para uso
personal. Se requiere una licencia escrita especial para empresas, gobiernos y
otras instituciones si WWWGrab/2 va a ser usado en más de una computadora a
la vez. Pongase en contacto con el autor para más detalles sobre los descuentos
disponibles para adquirir licencias para empresas.
Al registrarse recibirá (por email) una copia registrada y personalizada
de la versión más reciente de WWWGrab/2. Con comprar una registración,
tendrá todas las actualizaciones futuras totalmente gratis.
Vea el archivo REGISTER.* para información en su idioma de cómo
registrarse.
Si a ud. no le gusta ni interesa este programa:
Por favor dígame por qué, y luego bórrelo.
---------------------------------------------------------------------------
Recuerde que este tipo de software vive o muere dependiendo del nivel
de respuesta que obtenga.
Puede obtener la versión más reciente de WWWGrab/2 en:
http://wwwgrab.home.ml.org o:
http://www.geocities.com/SiliconValley/Heights/7262/
Puede enviar comentarios, reporte de errores, sugerencias etc. a:
email:
jirkar@writeme.com
jirkar@hotmail.com
Jiri_Rubes@slad.fido.cz
FidoNet:
Jiri Rubes 2:421/37