home *** CD-ROM | disk | FTP | other *** search
/ Revista do CD-ROM 71 / CDROM71.ISO / internet / navoff / data1.cab / Sources / src / htstools.c < prev    next >
Encoding:
C/C++ Source or Header  |  2001-04-01  |  10.6 KB  |  385 lines

  1. /* ------------------------------------------------------------ */
  2. /*
  3. HTTrack Website Copier, Offline Browser for Windows and Unix
  4. Copyright (C) Xavier Roche, Yann Philippot and other contributors
  5.  
  6. This program is free software; you can redistribute it and/or
  7. modify it under the terms of the GNU General Public License
  8. as published by the Free Software Foundation; either version 2
  9. of the License, or any later version.
  10.  
  11. This program is distributed in the hope that it will be useful,
  12. but WITHOUT ANY WARRANTY; without even the implied warranty of
  13. MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  14. GNU General Public License for more details.
  15.  
  16. You should have received a copy of the GNU General Public License
  17. along with this program; if not, write to the Free Software
  18. Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA  02111-1307, USA.
  19.  
  20.  
  21. Important notes:
  22.  
  23. - We hereby ask people using this source NOT to use it in purpose of grabbing
  24. emails addresses, or collecting any other private information on persons.
  25. This would disgrace our work, and spoil the many hours we spent on it.
  26.  
  27.  
  28. This project has been developed by Xavier Roche and Yann Philippot,
  29. from the company Serianet at Caen, France (http://www.serianet.com)
  30. and other contributors (see the greetings file)
  31.  
  32. Please visit our Website: http://www.httrack.com
  33. */
  34.  
  35.  
  36. /* ------------------------------------------------------------ */
  37. /* File: httrack.c subroutines:                                 */
  38. /*       various tools (filename analyzing ..)                  */
  39. /* Author: Xavier Roche                                         */
  40. /* ------------------------------------------------------------ */
  41.  
  42. #include "htstools.h"
  43.  
  44. /* specific definitions */
  45. #include "htsbase.h"
  46. #include <stdio.h>
  47. #include <stdlib.h>
  48. #include <string.h>
  49. #include <ctype.h>
  50. /* END specific definitions */
  51.  
  52.  
  53. // forme α partir d'un lien et du contexte (origin_fil et origin_adr d'o∙ il est tirΘ) adr et fil
  54. // [adr et fil sont des buffers de 1ko]
  55. // 0 : ok
  56. // -1 : erreur
  57. // -2 : protocole non supportΘ (ftp)
  58. int ident_url_relatif(char *lien,char* origin_adr,char* origin_fil,char* adr,char* fil) {
  59.   int ok=0;
  60.  
  61.   adr[0]='\0'; fil[0]='\0';    //effacer buffers
  62.  
  63.   // lien non vide!
  64.   if (strnotempty(lien)==0) return -1;    // erreur!
  65.  
  66.   // filtrer les parazites (mailto & cie)
  67.   if (strfield(lien,"mailto:")) {  // ne pas traiter
  68.     ok=-1;
  69.   }
  70.   else if (strfield(lien,"news:")) {  // ne pas traiter
  71.     ok=-1;
  72.   }
  73.   //else if (strfield(lien,"file:")) {  // ne pas traiter
  74.   //  ok=-1;
  75.   //}
  76.   else if (strfield(lien,"javascript:")) {  // ne pas traiter
  77.     ok=-1;
  78.   }
  79.   else if (strstr(lien,":/")) {    // c'est une URL?
  80.     if (strfield(lien,"http:")) {
  81.       if (ident_url(lien,adr,fil)==-1) {        
  82.         ok=-1;    // erreur URL
  83.       }
  84.     } else if (strfield(lien,"file:")) {
  85.       if (ident_url(lien,adr,fil)==-1) {        
  86.         ok=-1;    // erreur URL
  87.       }
  88.     } else if (strfield(lien,"ftp:")) {
  89.       if (ftp_available()) {     // ftp supportΘ
  90.         if (ident_url(lien,adr,fil)==-1) {        
  91.           ok=-1;    // erreur URL
  92.         }
  93.       } else {
  94.         ok=-2;  // non supportΘ
  95.       }
  96.     } else {    // je ne connais pas ce protocole!!
  97.       ok=-1;
  98.     }   
  99.   } else {    // c'est un lien relatif
  100.     char* a;
  101.     
  102.     // On forme l'URL complΦte α partie de l'url actuelle
  103.     // et du chemin actuel si besoin est.
  104.     
  105.     // copier adresse
  106.     if (((int) strlen(origin_adr)<HTS_URLMAXSIZE) && ((int) strlen(origin_fil)<HTS_URLMAXSIZE) && ((int) strlen(lien)<HTS_URLMAXSIZE)) {
  107.       strcpy(adr,origin_adr);    // mΩme adresse
  108.  
  109.       /* bogus form: http:relative.html */
  110.       if (strfield(lien,"http:"))
  111.         lien+=5;
  112.  
  113.       if (*lien!='/') {  // sinon c'est un lien absolu
  114.         a=strchr(origin_fil,'?');
  115.         if (!a) a=origin_fil+strlen(origin_fil);
  116.         while((*a!='/') && ( ((int) a) > ((int) origin_fil)) ) a--;
  117.         if (*a=='/') {    // ok on a un '/'
  118.           if ( (((int) a)-((int) origin_fil)+1+strlen(lien)) < HTS_URLMAXSIZE) {
  119.             // copier chemin
  120.             strncpy(fil,origin_fil,((int) a)-((int) origin_fil)+1);
  121.             *(fil + ((int) a)-((int) origin_fil)+1)='\0';
  122.             
  123.             // copier chemin relatif
  124.             if (((int) strlen(fil)+(int) strlen(lien))<HTS_URLMAXSIZE) {
  125.               strcat(fil,lien + ((*lien=='/')?1:0) );      
  126.               // simplifier url pour les ../
  127.               fil_simplifie(fil);
  128.             } else
  129.               ok=-1;    // erreur
  130.           } else {    // erreur
  131.             ok=-1;    // erreur URL
  132.           }
  133.         } else {    // erreur
  134.           ok=-1;    // erreur URL
  135.         }
  136.       } else { // chemin absolu
  137.         // copier chemin directement
  138.         strcat(fil,lien);      
  139.       }  // *lien!='/'
  140.     } else
  141.       ok=-1;
  142.     
  143.   }  // test news: etc.
  144.  
  145.   // case insensitive pour adresse
  146.   {
  147.     char *a=jump_identification(adr);
  148.     while(*a) {
  149.       if ((*a>='A') && (*a<='Z'))
  150.         *a+='a'-'A';       
  151.       a++;
  152.     }
  153.   }
  154.   
  155.   return ok;
  156. }
  157.  
  158.  
  159.  
  160.  
  161.  
  162. // crΘer dans s, α partir du chemin courant curr_fil, le lien vers link (absolu)
  163. // un ident_url_relatif a dΘja ΘtΘ fait avant, pour que link ne soit pas un chemin relatif
  164. int lienrelatif(char* s,char* link,char* curr_fil) {
  165.   char _curr[HTS_URLMAXSIZE*2];
  166.   char newcurr_fil[HTS_URLMAXSIZE*2],newlink[HTS_URLMAXSIZE*2];
  167.   char* curr;
  168.   //int n=0;
  169.   char* a;
  170.   int slash=0;
  171.   //
  172.   newcurr_fil[0]='\0'; newlink[0]='\0';
  173.   //
  174.  
  175.   // patch: Θliminer les ? (paramΦtres) sinon bug
  176.   if ( (a=strchr(curr_fil,'?')) ) {
  177.     strncat(newcurr_fil,curr_fil,(int) a-(int) curr_fil);
  178.     curr_fil = newcurr_fil;
  179.   }
  180.   if ( (a=strchr(link,'?')) ) {
  181.     strncat(newlink,link,(int) a-(int) link);
  182.     link = newlink;
  183.   }
  184.  
  185.   // recopier uniquement le chemin courant
  186.   curr=_curr;
  187.   strcpy(curr,curr_fil);
  188.   if ((a=strchr(curr,'?'))==NULL)  // couper au ? (params)
  189.     a=curr+strlen(curr)-1;         // pas de params: aller α la fin
  190.   while((*a!='/') && ((int) a>(int) curr)) a--;       // chercher dernier / du chemin courant
  191.   if (*a=='/') *(a+1)='\0';                           // couper dernier /
  192.   
  193.   // "effacer" s
  194.   s[0]='\0';
  195.   
  196.   // sauter ce qui est commun aux 2 chemins
  197.   {
  198.     char *l,*c;
  199.     if (*link=='/') link++;  // sauter slash
  200.     if (*curr=='/') curr++;
  201.     l=link;
  202.     c=curr;
  203.     // couper ce qui est commun
  204. #if HTS_CASSE
  205.     while ((*link==*curr) && (*link!=0)) {link++; curr++; }
  206. #else
  207.     while ((streql(*link,*curr)) && (*link!=0)) {link++; curr++; }
  208. #endif
  209.     // mais on veut un rΘpertoirer entier!
  210.     // si on a /toto/.. et /toto2/.. on ne veut pas sauter /toto !
  211.     while(((*link!='/') || (*curr!='/')) && ((int) link>(int) l)) { link--; curr--; }
  212.     //if (*link=='/') link++;
  213.     //if (*curr=='/') curr++;
  214.   }
  215.   
  216.   // calculer la profondeur du rΘpertoire courant et remonter
  217.   // LES ../ ONT ETE SIMPLIFIES
  218.   a=curr;
  219.   if (*a=='/') a++;
  220.   while(*a) if (*(a++)=='/') strcat(s,"../");
  221.   //if (strlen(s)==0) strcat(s,"/");
  222.  
  223.   if (slash) strcat(s,"/");    // garder absolu!!
  224.   
  225.   // on est dans le rΘpertoire de dΘpart, copier
  226.   strcat(s,link + ((*link=='/')?1:0) );
  227.  
  228.   // on a maintenant une chaine de la forme ../../test/truc.html  
  229.   return 0;
  230. }
  231.  
  232.  
  233. // conversion chemin de fichier/dossier vers 8-3
  234. void long_to_83(char* n83,char* save) {
  235.   n83[0]='\0';
  236.  
  237.   while(*save) {
  238.     char fn83[16],fnl[256];
  239.     int i=0;
  240.     while((save[i]) && (save[i]!='/')) { fnl[i]=save[i]; i++; }
  241.     fnl[i]='\0';
  242.     // conversion
  243.     longfile_to_83(fn83,fnl);
  244.     strcat(n83,fn83);
  245.  
  246.     save+=i;
  247.     if (*save=='/') { strcat(n83,"/"); save++; }
  248.   }
  249. }
  250.  
  251.  
  252. // conversion nom de fichier/dossier vers 8-3
  253. void longfile_to_83(char* n83,char* save) {
  254.   int i=0,j=0;
  255.   char nom[8+1]="";
  256.   char ext[3+1]="";
  257.   
  258.   while((i<8) && (save[j]) && (save[j]!='.')) { if (save[j]!=' ') { nom[i]=save[j]; i++; } j++; }  // recopier nom
  259.   nom[i]='\0';
  260.   if (save[j]) {  // il reste au moins un point
  261.     i=strlen(save)-1;
  262.     while((i>0) && (save[i]!='.') && (save[i]!='/')) i--;    // rechercher dernier .
  263.     if (save[i]=='.') {  // point!
  264.       int j=0;
  265.       i++;
  266.       while((j<3) && (save[i]) ) { if (save[i]!=' ') { ext[j]=save[i]; j++; } i++; }
  267.       ext[j]='\0';
  268.     }
  269.   }
  270.   // corriger vers 8-3
  271.   n83[0]='\0';
  272.   strncat(n83,nom,8);
  273.   if (strnotempty(ext)) {
  274.     strcat(n83,".");
  275.     strncat(n83,ext,3);    
  276.   }
  277. }
  278.  
  279. // Θcrire backblue.gif
  280. int verif_backblue(char* base) {
  281.   int ret=0;
  282.   if (fsize(fconcat(base,"backblue.gif")) != HTS_DATA_BACK_GIF_LEN) {
  283.     FILE* fp = filecreate(fconcat(base,"backblue.gif"));
  284.     if (fp) {
  285.       if (fwrite(HTS_DATA_BACK_GIF,HTS_DATA_BACK_GIF_LEN,1,fp) != HTS_DATA_BACK_GIF_LEN)
  286.         ret=1;
  287.       fclose(fp);
  288.       usercommand(0,NULL,fconcat(base,"backblue.gif"));
  289.     } else
  290.       ret=1;
  291.     //
  292.     fp = filecreate(fconcat(base,"fade.gif"));
  293.     if (fp) {
  294.       if (fwrite(HTS_DATA_FADE_GIF,HTS_DATA_FADE_GIF_LEN,1,fp) != HTS_DATA_FADE_GIF_LEN)
  295.         ret=1;
  296.       fclose(fp);
  297.       usercommand(0,NULL,fconcat(base,"fade.gif"));
  298.     } else
  299.       ret=1;
  300.   } 
  301.   return ret;
  302. }
  303.  
  304.  
  305. // recherche chaεne de type truc<espaces>=
  306. // renvoi dΘcalage α effectuer ou 0 si non trouvΘ
  307. /* SECTION OPTIMISEE:
  308. #define rech_tageq(adr,s) ( \
  309.   ( (*(adr-1)=='<') || (is_space(*(adr-1))) ) ? \
  310.     ( (streql(*adr,*s)) ? \
  311.       (__rech_tageq(adr,s)) \
  312.       : 0 \
  313.     ) \
  314.     : 0\
  315.   )
  316. */
  317. /*
  318. HTS_INLINE int rech_tageq(const char* adr,const char* s) { 
  319.   if ( (*(adr-1)=='<') || (is_space(*(adr-1))) ) {   // <tag < tag etc
  320.     if (streql(*adr,*s)) {                           // tester premier octet (optimisation)
  321.       return __rech_tageq(adr,s);
  322.     }
  323.   }
  324.   return 0;
  325. }
  326. */
  327. // DeuxiΦme partie
  328. HTS_INLINE int __rech_tageq(const char* adr,const char* s) { 
  329.   int p;
  330.   p=strfield(adr,s);
  331.   if (p) {
  332.     while(is_space(adr[p])) p++;
  333.     if (adr[p]=='=') {
  334.       return p+1;
  335.     }
  336.   }
  337.   return 0;
  338. }
  339.  
  340. // tag sans =
  341. HTS_INLINE int rech_sampletag(const char* adr,const char* s) { 
  342.   register int p;
  343.   if ( (*(adr-1)=='<') || (is_space(*(adr-1))) ) {   // <tag < tag etc
  344.     p=strfield(adr,s);
  345.     if (p) {
  346.       if (!isalnum((unsigned char)adr[p])) {  // <srcbis n'est pas <src
  347.         return 1;
  348.       }
  349.       return 0;
  350.     }
  351.   }
  352.   return 0;
  353. }
  354.  
  355. // teste si le tag contenu dans from est Θgal α "tag"
  356. HTS_INLINE int check_tag(char* from,const char* tag) {
  357.   char* a=from+1;
  358.   int i=0;
  359.   char s[256];
  360.   while(is_space(*a)) a++;
  361.   while((isalnum((unsigned char)*a) || (*a=='/')) && (i<250)) { s[i++]=*a; a++; }
  362.   s[i++]='\0';
  363.   return (strfield2(s,tag));  // comparer
  364. }
  365.  
  366. // teste si un fichier dΘpasse le quota
  367. int istoobig(LLint size,LLint maxhtml,LLint maxnhtml,char* type) {
  368.   int ok=1;
  369.   if (size>0) {
  370.     if (is_hypertext_mime(type)) {
  371.       if (maxhtml>0) {
  372.         if (size>maxhtml)
  373.           ok=0;
  374.       }
  375.     } else {
  376.       if (maxnhtml>0) {
  377.         if (size>maxnhtml)
  378.           ok=0;
  379.       }
  380.     }
  381.   }
  382.   return (!ok);
  383. }
  384.  
  385.