]> sjero.net Git - wget/blob - src/convert.c
Steven Schweda's VMS patch.
[wget] / src / convert.c
1 /* Conversion of links to local files.
2    Copyright (C) 2003, 2004, 2005, 2006, 2007,
3    2008 Free Software Foundation, Inc.
4
5 This file is part of GNU Wget.
6
7 GNU Wget is free software; you can redistribute it and/or modify
8 it under the terms of the GNU General Public License as published by
9 the Free Software Foundation; either version 3 of the License, or
10  (at your option) any later version.
11
12 GNU Wget is distributed in the hope that it will be useful,
13 but WITHOUT ANY WARRANTY; without even the implied warranty of
14 MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15 GNU General Public License for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with Wget.  If not, see <http://www.gnu.org/licenses/>.
19
20 Additional permission under GNU GPL version 3 section 7
21
22 If you modify this program, or any covered work, by linking or
23 combining it with the OpenSSL project's OpenSSL library (or a
24 modified version of that library), containing parts covered by the
25 terms of the OpenSSL or SSLeay licenses, the Free Software Foundation
26 grants you additional permission to convey the resulting work.
27 Corresponding Source for a non-source form of such a combination
28 shall include the source code for the parts of OpenSSL used as well
29 as that of the covered work.  */
30
31 #include "wget.h"
32
33 #include <stdio.h>
34 #include <stdlib.h>
35 #include <string.h>
36 #ifdef HAVE_UNISTD_H
37 # include <unistd.h>
38 #endif /* HAVE_UNISTD_H */
39 #include <errno.h>
40 #include <assert.h>
41 #include "convert.h"
42 #include "url.h"
43 #include "recur.h"
44 #include "utils.h"
45 #include "hash.h"
46 #include "ptimer.h"
47 #include "res.h"
48
49 static struct hash_table *dl_file_url_map;
50 struct hash_table *dl_url_file_map;
51
52 /* Set of HTML files downloaded in this Wget run, used for link
53    conversion after Wget is done.  */
54 struct hash_table *downloaded_html_set;
55
56 static void convert_links (const char *, struct urlpos *);
57
58 /* This function is called when the retrieval is done to convert the
59    links that have been downloaded.  It has to be called at the end of
60    the retrieval, because only then does Wget know conclusively which
61    URLs have been downloaded, and which not, so it can tell which
62    direction to convert to.
63
64    The "direction" means that the URLs to the files that have been
65    downloaded get converted to the relative URL which will point to
66    that file.  And the other URLs get converted to the remote URL on
67    the server.
68
69    All the downloaded HTMLs are kept in downloaded_html_files, and
70    downloaded URLs in urls_downloaded.  All the information is
71    extracted from these two lists.  */
72
73 void
74 convert_all_links (void)
75 {
76   int i;
77   double secs;
78   int file_count = 0;
79
80   struct ptimer *timer = ptimer_new ();
81
82   int cnt;
83   char **file_array;
84
85   cnt = 0;
86   if (downloaded_html_set)
87     cnt = hash_table_count (downloaded_html_set);
88   if (cnt == 0)
89     goto cleanup;
90   file_array = alloca_array (char *, cnt);
91   string_set_to_array (downloaded_html_set, file_array);
92
93   for (i = 0; i < cnt; i++)
94     {
95       struct urlpos *urls, *cur_url;
96       char *url;
97       char *file = file_array[i];
98
99       /* Determine the URL of the HTML file.  get_urls_html will need
100          it.  */
101       url = hash_table_get (dl_file_url_map, file);
102       if (!url)
103         {
104           DEBUGP (("Apparently %s has been removed.\n", file));
105           continue;
106         }
107
108       DEBUGP (("Scanning %s (from %s)\n", file, url));
109
110       /* Parse the HTML file...  */
111       urls = get_urls_html (file, url, NULL);
112
113       /* We don't respect meta_disallow_follow here because, even if
114          the file is not followed, we might still want to convert the
115          links that have been followed from other files.  */
116
117       for (cur_url = urls; cur_url; cur_url = cur_url->next)
118         {
119           char *local_name;
120           struct url *u = cur_url->url;
121
122           if (cur_url->link_base_p)
123             {
124               /* Base references have been resolved by our parser, so
125                  we turn the base URL into an empty string.  (Perhaps
126                  we should remove the tag entirely?)  */
127               cur_url->convert = CO_NULLIFY_BASE;
128               continue;
129             }
130
131           /* We decide the direction of conversion according to whether
132              a URL was downloaded.  Downloaded URLs will be converted
133              ABS2REL, whereas non-downloaded will be converted REL2ABS.  */
134           local_name = hash_table_get (dl_url_file_map, u->url);
135
136           /* Decide on the conversion type.  */
137           if (local_name)
138             {
139               /* We've downloaded this URL.  Convert it to relative
140                  form.  We do this even if the URL already is in
141                  relative form, because our directory structure may
142                  not be identical to that on the server (think `-nd',
143                  `--cut-dirs', etc.)  */
144               cur_url->convert = CO_CONVERT_TO_RELATIVE;
145               cur_url->local_name = xstrdup (local_name);
146               DEBUGP (("will convert url %s to local %s\n", u->url, local_name));
147             }
148           else
149             {
150               /* We haven't downloaded this URL.  If it's not already
151                  complete (including a full host name), convert it to
152                  that form, so it can be reached while browsing this
153                  HTML locally.  */
154               if (!cur_url->link_complete_p)
155                 cur_url->convert = CO_CONVERT_TO_COMPLETE;
156               cur_url->local_name = NULL;
157               DEBUGP (("will convert url %s to complete\n", u->url));
158             }
159         }
160
161       /* Convert the links in the file.  */
162       convert_links (file, urls);
163       ++file_count;
164
165       /* Free the data.  */
166       free_urlpos (urls);
167     }
168
169   secs = ptimer_measure (timer);
170   logprintf (LOG_VERBOSE, _("Converted %d files in %s seconds.\n"),
171              file_count, print_decimal (secs));
172 cleanup:
173   ptimer_destroy (timer);
174 }
175
176 static void write_backup_file (const char *, downloaded_file_t);
177 static const char *replace_attr (const char *, int, FILE *, const char *);
178 static const char *replace_attr_refresh_hack (const char *, int, FILE *,
179                                               const char *, int);
180 static char *local_quote_string (const char *);
181 static char *construct_relative (const char *, const char *);
182
183 /* Change the links in one HTML file.  LINKS is a list of links in the
184    document, along with their positions and the desired direction of
185    the conversion.  */
186 static void
187 convert_links (const char *file, struct urlpos *links)
188 {
189   struct file_memory *fm;
190   FILE *fp;
191   const char *p;
192   downloaded_file_t downloaded_file_return;
193
194   struct urlpos *link;
195   int to_url_count = 0, to_file_count = 0;
196
197   logprintf (LOG_VERBOSE, _("Converting %s... "), file);
198
199   {
200     /* First we do a "dry run": go through the list L and see whether
201        any URL needs to be converted in the first place.  If not, just
202        leave the file alone.  */
203     int dry_count = 0;
204     struct urlpos *dry;
205     for (dry = links; dry; dry = dry->next)
206       if (dry->convert != CO_NOCONVERT)
207         ++dry_count;
208     if (!dry_count)
209       {
210         logputs (LOG_VERBOSE, _("nothing to do.\n"));
211         return;
212       }
213   }
214
215   fm = read_file (file);
216   if (!fm)
217     {
218       logprintf (LOG_NOTQUIET, _("Cannot convert links in %s: %s\n"),
219                  file, strerror (errno));
220       return;
221     }
222
223   downloaded_file_return = downloaded_file (CHECK_FOR_FILE, file);
224   if (opt.backup_converted && downloaded_file_return)
225     write_backup_file (file, downloaded_file_return);
226
227   /* Before opening the file for writing, unlink the file.  This is
228      important if the data in FM is mmaped.  In such case, nulling the
229      file, which is what fopen() below does, would make us read all
230      zeroes from the mmaped region.  */
231   if (unlink (file) < 0 && errno != ENOENT)
232     {
233       logprintf (LOG_NOTQUIET, _("Unable to delete `%s': %s\n"),
234                  file, strerror (errno));
235       read_file_free (fm);
236       return;
237     }
238   /* Now open the file for writing.  */
239   fp = fopen (file, "wb");
240   if (!fp)
241     {
242       logprintf (LOG_NOTQUIET, _("Cannot convert links in %s: %s\n"),
243                  file, strerror (errno));
244       read_file_free (fm);
245       return;
246     }
247
248   /* Here we loop through all the URLs in file, replacing those of
249      them that are downloaded with relative references.  */
250   p = fm->content;
251   for (link = links; link; link = link->next)
252     {
253       char *url_start = fm->content + link->pos;
254
255       if (link->pos >= fm->length)
256         {
257           DEBUGP (("Something strange is going on.  Please investigate."));
258           break;
259         }
260       /* If the URL is not to be converted, skip it.  */
261       if (link->convert == CO_NOCONVERT)
262         {
263           DEBUGP (("Skipping %s at position %d.\n", link->url->url, link->pos));
264           continue;
265         }
266
267       /* Echo the file contents, up to the offending URL's opening
268          quote, to the outfile.  */
269       fwrite (p, 1, url_start - p, fp);
270       p = url_start;
271
272       switch (link->convert)
273         {
274         case CO_CONVERT_TO_RELATIVE:
275           /* Convert absolute URL to relative. */
276           {
277             char *newname = construct_relative (file, link->local_name);
278             char *quoted_newname = local_quote_string (newname);
279
280             if (!link->link_refresh_p)
281               p = replace_attr (p, link->size, fp, quoted_newname);
282             else
283               p = replace_attr_refresh_hack (p, link->size, fp, quoted_newname,
284                                              link->refresh_timeout);
285
286             DEBUGP (("TO_RELATIVE: %s to %s at position %d in %s.\n",
287                      link->url->url, newname, link->pos, file));
288             xfree (newname);
289             xfree (quoted_newname);
290             ++to_file_count;
291             break;
292           }
293         case CO_CONVERT_TO_COMPLETE:
294           /* Convert the link to absolute URL. */
295           {
296             char *newlink = link->url->url;
297             char *quoted_newlink = html_quote_string (newlink);
298
299             if (!link->link_refresh_p)
300               p = replace_attr (p, link->size, fp, quoted_newlink);
301             else
302               p = replace_attr_refresh_hack (p, link->size, fp, quoted_newlink,
303                                              link->refresh_timeout);
304
305             DEBUGP (("TO_COMPLETE: <something> to %s at position %d in %s.\n",
306                      newlink, link->pos, file));
307             xfree (quoted_newlink);
308             ++to_url_count;
309             break;
310           }
311         case CO_NULLIFY_BASE:
312           /* Change the base href to "". */
313           p = replace_attr (p, link->size, fp, "");
314           break;
315         case CO_NOCONVERT:
316           abort ();
317           break;
318         }
319     }
320
321   /* Output the rest of the file. */
322   if (p - fm->content < fm->length)
323     fwrite (p, 1, fm->length - (p - fm->content), fp);
324   fclose (fp);
325   read_file_free (fm);
326
327   logprintf (LOG_VERBOSE, "%d-%d\n", to_file_count, to_url_count);
328 }
329
330 /* Construct and return a link that points from BASEFILE to LINKFILE.
331    Both files should be local file names, BASEFILE of the referrering
332    file, and LINKFILE of the referred file.
333
334    Examples:
335
336    cr("foo", "bar")         -> "bar"
337    cr("A/foo", "A/bar")     -> "bar"
338    cr("A/foo", "A/B/bar")   -> "B/bar"
339    cr("A/X/foo", "A/Y/bar") -> "../Y/bar"
340    cr("X/", "Y/bar")        -> "../Y/bar" (trailing slash does matter in BASE)
341
342    Both files should be absolute or relative, otherwise strange
343    results might ensue.  The function makes no special efforts to
344    handle "." and ".." in links, so make sure they're not there
345    (e.g. using path_simplify).  */
346
347 static char *
348 construct_relative (const char *basefile, const char *linkfile)
349 {
350   char *link;
351   int basedirs;
352   const char *b, *l;
353   int i, start;
354
355   /* First, skip the initial directory components common to both
356      files.  */
357   start = 0;
358   for (b = basefile, l = linkfile; *b == *l && *b != '\0'; ++b, ++l)
359     {
360       if (*b == '/')
361         start = (b - basefile) + 1;
362     }
363   basefile += start;
364   linkfile += start;
365
366   /* With common directories out of the way, the situation we have is
367      as follows:
368          b - b1/b2/[...]/bfile
369          l - l1/l2/[...]/lfile
370
371      The link we're constructing needs to be:
372        lnk - ../../l1/l2/[...]/lfile
373
374      Where the number of ".."'s equals the number of bN directory
375      components in B.  */
376
377   /* Count the directory components in B. */
378   basedirs = 0;
379   for (b = basefile; *b; b++)
380     {
381       if (*b == '/')
382         ++basedirs;
383     }
384
385   /* Construct LINK as explained above. */
386   link = xmalloc (3 * basedirs + strlen (linkfile) + 1);
387   for (i = 0; i < basedirs; i++)
388     memcpy (link + 3 * i, "../", 3);
389   strcpy (link + 3 * i, linkfile);
390   return link;
391 }
392
393 /* Used by write_backup_file to remember which files have been
394    written. */
395 static struct hash_table *converted_files;
396
397 static void
398 write_backup_file (const char *file, downloaded_file_t downloaded_file_return)
399 {
400   /* Rather than just writing over the original .html file with the
401      converted version, save the former to *.orig.  Note we only do
402      this for files we've _successfully_ downloaded, so we don't
403      clobber .orig files sitting around from previous invocations.
404      On VMS, use "_orig" instead of ".orig".  See "wget.h". */
405
406   /* Construct the backup filename as the original name plus ".orig". */
407   size_t         filename_len = strlen (file);
408   char*          filename_plus_orig_suffix;
409
410   if (downloaded_file_return == FILE_DOWNLOADED_AND_HTML_EXTENSION_ADDED)
411     {
412       /* Just write "orig" over "html".  We need to do it this way
413          because when we're checking to see if we've downloaded the
414          file before (to see if we can skip downloading it), we don't
415          know if it's a text/html file.  Therefore we don't know yet
416          at that stage that -E is going to cause us to tack on
417          ".html", so we need to compare vs. the original URL plus
418          ".orig", not the original URL plus ".html.orig". */
419       filename_plus_orig_suffix = alloca (filename_len + 1);
420       strcpy (filename_plus_orig_suffix, file);
421       strcpy ((filename_plus_orig_suffix + filename_len) - 4, "orig");
422     }
423   else /* downloaded_file_return == FILE_DOWNLOADED_NORMALLY */
424     {
425       /* Append ".orig" to the name. */
426       filename_plus_orig_suffix = alloca (filename_len + sizeof ("ORIG_SFX"));
427       strcpy (filename_plus_orig_suffix, file);
428       strcpy (filename_plus_orig_suffix + filename_len, "ORIG_SFX");
429     }
430
431   if (!converted_files)
432     converted_files = make_string_hash_table (0);
433
434   /* We can get called twice on the same URL thanks to the
435      convert_all_links() call in main().  If we write the .orig file
436      each time in such a case, it'll end up containing the first-pass
437      conversion, not the original file.  So, see if we've already been
438      called on this file. */
439   if (!string_set_contains (converted_files, file))
440     {
441       /* Rename <file> to <file>.orig before former gets written over. */
442       if (rename (file, filename_plus_orig_suffix) != 0)
443         logprintf (LOG_NOTQUIET, _("Cannot back up %s as %s: %s\n"),
444                    file, filename_plus_orig_suffix, strerror (errno));
445
446       /* Remember that we've already written a .orig backup for this file.
447          Note that we never free this memory since we need it till the
448          convert_all_links() call, which is one of the last things the
449          program does before terminating.  BTW, I'm not sure if it would be
450          safe to just set 'converted_file_ptr->string' to 'file' below,
451          rather than making a copy of the string...  Another note is that I
452          thought I could just add a field to the urlpos structure saying
453          that we'd written a .orig file for this URL, but that didn't work,
454          so I had to make this separate list.
455          -- Dan Harkless <wget@harkless.org>
456
457          This [adding a field to the urlpos structure] didn't work
458          because convert_file() is called from convert_all_links at
459          the end of the retrieval with a freshly built new urlpos
460          list.
461          -- Hrvoje Niksic <hniksic@xemacs.org>
462       */
463       string_set_add (converted_files, file);
464     }
465 }
466
467 static bool find_fragment (const char *, int, const char **, const char **);
468
469 /* Replace an attribute's original text with NEW_TEXT. */
470
471 static const char *
472 replace_attr (const char *p, int size, FILE *fp, const char *new_text)
473 {
474   bool quote_flag = false;
475   char quote_char = '\"';       /* use "..." for quoting, unless the
476                                    original value is quoted, in which
477                                    case reuse its quoting char. */
478   const char *frag_beg, *frag_end;
479
480   /* Structure of our string is:
481        "...old-contents..."
482        <---    size    --->  (with quotes)
483      OR:
484        ...old-contents...
485        <---    size   -->    (no quotes)   */
486
487   if (*p == '\"' || *p == '\'')
488     {
489       quote_char = *p;
490       quote_flag = true;
491       ++p;
492       size -= 2;                /* disregard opening and closing quote */
493     }
494   putc (quote_char, fp);
495   fputs (new_text, fp);
496
497   /* Look for fragment identifier, if any. */
498   if (find_fragment (p, size, &frag_beg, &frag_end))
499     fwrite (frag_beg, 1, frag_end - frag_beg, fp);
500   p += size;
501   if (quote_flag)
502     ++p;
503   putc (quote_char, fp);
504
505   return p;
506 }
507
508 /* The same as REPLACE_ATTR, but used when replacing
509    <meta http-equiv=refresh content="new_text"> because we need to
510    append "timeout_value; URL=" before the next_text.  */
511
512 static const char *
513 replace_attr_refresh_hack (const char *p, int size, FILE *fp,
514                            const char *new_text, int timeout)
515 {
516   /* "0; URL=..." */
517   char *new_with_timeout = (char *)alloca (numdigit (timeout)
518                                            + 6 /* "; URL=" */
519                                            + strlen (new_text)
520                                            + 1);
521   sprintf (new_with_timeout, "%d; URL=%s", timeout, new_text);
522
523   return replace_attr (p, size, fp, new_with_timeout);
524 }
525
526 /* Find the first occurrence of '#' in [BEG, BEG+SIZE) that is not
527    preceded by '&'.  If the character is not found, return zero.  If
528    the character is found, return true and set BP and EP to point to
529    the beginning and end of the region.
530
531    This is used for finding the fragment indentifiers in URLs.  */
532
533 static bool
534 find_fragment (const char *beg, int size, const char **bp, const char **ep)
535 {
536   const char *end = beg + size;
537   bool saw_amp = false;
538   for (; beg < end; beg++)
539     {
540       switch (*beg)
541         {
542         case '&':
543           saw_amp = true;
544           break;
545         case '#':
546           if (!saw_amp)
547             {
548               *bp = beg;
549               *ep = end;
550               return true;
551             }
552           /* fallthrough */
553         default:
554           saw_amp = false;
555         }
556     }
557   return false;
558 }
559
560 /* Quote FILE for use as local reference to an HTML file.
561
562    We quote ? as %3F to avoid passing part of the file name as the
563    parameter when browsing the converted file through HTTP.  However,
564    it is safe to do this only when `--html-extension' is turned on.
565    This is because converting "index.html?foo=bar" to
566    "index.html%3Ffoo=bar" would break local browsing, as the latter
567    isn't even recognized as an HTML file!  However, converting
568    "index.html?foo=bar.html" to "index.html%3Ffoo=bar.html" should be
569    safe for both local and HTTP-served browsing.
570
571    We always quote "#" as "%23" and "%" as "%25" because those
572    characters have special meanings in URLs.  */
573
574 static char *
575 local_quote_string (const char *file)
576 {
577   const char *from;
578   char *newname, *to;
579
580   char *any = strpbrk (file, "?#%");
581   if (!any)
582     return html_quote_string (file);
583
584   /* Allocate space assuming the worst-case scenario, each character
585      having to be quoted.  */
586   to = newname = (char *)alloca (3 * strlen (file) + 1);
587   for (from = file; *from; from++)
588     switch (*from)
589       {
590       case '%':
591         *to++ = '%';
592         *to++ = '2';
593         *to++ = '5';
594         break;
595       case '#':
596         *to++ = '%';
597         *to++ = '2';
598         *to++ = '3';
599         break;
600       case '?':
601         if (opt.html_extension)
602           {
603             *to++ = '%';
604             *to++ = '3';
605             *to++ = 'F';
606             break;
607           }
608         /* fallthrough */
609       default:
610         *to++ = *from;
611       }
612   *to = '\0';
613
614   return html_quote_string (newname);
615 }
616 \f
617 /* Book-keeping code for dl_file_url_map, dl_url_file_map,
618    downloaded_html_list, and downloaded_html_set.  Other code calls
619    these functions to let us know that a file has been downloaded.  */
620
621 #define ENSURE_TABLES_EXIST do {                        \
622   if (!dl_file_url_map)                                 \
623     dl_file_url_map = make_string_hash_table (0);       \
624   if (!dl_url_file_map)                                 \
625     dl_url_file_map = make_string_hash_table (0);       \
626 } while (0)
627
628 /* Return true if S1 and S2 are the same, except for "/index.html".
629    The three cases in which it returns one are (substitute any
630    substring for "foo"):
631
632    m("foo/index.html", "foo/")  ==> 1
633    m("foo/", "foo/index.html")  ==> 1
634    m("foo", "foo/index.html")   ==> 1
635    m("foo", "foo/"              ==> 1
636    m("foo", "foo")              ==> 1  */
637
638 static bool
639 match_except_index (const char *s1, const char *s2)
640 {
641   int i;
642   const char *lng;
643
644   /* Skip common substring. */
645   for (i = 0; *s1 && *s2 && *s1 == *s2; s1++, s2++, i++)
646     ;
647   if (i == 0)
648     /* Strings differ at the very beginning -- bail out.  We need to
649        check this explicitly to avoid `lng - 1' reading outside the
650        array.  */
651     return false;
652
653   if (!*s1 && !*s2)
654     /* Both strings hit EOF -- strings are equal. */
655     return true;
656   else if (*s1 && *s2)
657     /* Strings are randomly different, e.g. "/foo/bar" and "/foo/qux". */
658     return false;
659   else if (*s1)
660     /* S1 is the longer one. */
661     lng = s1;
662   else
663     /* S2 is the longer one. */
664     lng = s2;
665
666   /* foo            */            /* foo/           */
667   /* foo/index.html */  /* or */  /* foo/index.html */
668   /*    ^           */            /*     ^          */
669
670   if (*lng != '/')
671     /* The right-hand case. */
672     --lng;
673
674   if (*lng == '/' && *(lng + 1) == '\0')
675     /* foo  */
676     /* foo/ */
677     return true;
678
679   return 0 == strcmp (lng, "/index.html");
680 }
681
682 static int
683 dissociate_urls_from_file_mapper (void *key, void *value, void *arg)
684 {
685   char *mapping_url = (char *)key;
686   char *mapping_file = (char *)value;
687   char *file = (char *)arg;
688
689   if (0 == strcmp (mapping_file, file))
690     {
691       hash_table_remove (dl_url_file_map, mapping_url);
692       xfree (mapping_url);
693       xfree (mapping_file);
694     }
695
696   /* Continue mapping. */
697   return 0;
698 }
699
700 /* Remove all associations from various URLs to FILE from dl_url_file_map. */
701
702 static void
703 dissociate_urls_from_file (const char *file)
704 {
705   /* Can't use hash_table_iter_* because the table mutates while mapping.  */
706   hash_table_for_each (dl_url_file_map, dissociate_urls_from_file_mapper,
707                        (char *) file);
708 }
709
710 /* Register that URL has been successfully downloaded to FILE.  This
711    is used by the link conversion code to convert references to URLs
712    to references to local files.  It is also being used to check if a
713    URL has already been downloaded.  */
714
715 void
716 register_download (const char *url, const char *file)
717 {
718   char *old_file, *old_url;
719
720   ENSURE_TABLES_EXIST;
721
722   /* With some forms of retrieval, it is possible, although not likely
723      or particularly desirable.  If both are downloaded, the second
724      download will override the first one.  When that happens,
725      dissociate the old file name from the URL.  */
726
727   if (hash_table_get_pair (dl_file_url_map, file, &old_file, &old_url))
728     {
729       if (0 == strcmp (url, old_url))
730         /* We have somehow managed to download the same URL twice.
731            Nothing to do.  */
732         return;
733
734       if (match_except_index (url, old_url)
735           && !hash_table_contains (dl_url_file_map, url))
736         /* The two URLs differ only in the "index.html" ending.  For
737            example, one is "http://www.server.com/", and the other is
738            "http://www.server.com/index.html".  Don't remove the old
739            one, just add the new one as a non-canonical entry.  */
740         goto url_only;
741
742       hash_table_remove (dl_file_url_map, file);
743       xfree (old_file);
744       xfree (old_url);
745
746       /* Remove all the URLs that point to this file.  Yes, there can
747          be more than one such URL, because we store redirections as
748          multiple entries in dl_url_file_map.  For example, if URL1
749          redirects to URL2 which gets downloaded to FILE, we map both
750          URL1 and URL2 to FILE in dl_url_file_map.  (dl_file_url_map
751          only points to URL2.)  When another URL gets loaded to FILE,
752          we want both URL1 and URL2 dissociated from it.
753
754          This is a relatively expensive operation because it performs
755          a linear search of the whole hash table, but it should be
756          called very rarely, only when two URLs resolve to the same
757          file name, *and* the "<file>.1" extensions are turned off.
758          In other words, almost never.  */
759       dissociate_urls_from_file (file);
760     }
761
762   hash_table_put (dl_file_url_map, xstrdup (file), xstrdup (url));
763
764  url_only:
765   /* A URL->FILE mapping is not possible without a FILE->URL mapping.
766      If the latter were present, it should have been removed by the
767      above `if'.  So we could write:
768
769          assert (!hash_table_contains (dl_url_file_map, url));
770
771      The above is correct when running in recursive mode where the
772      same URL always resolves to the same file.  But if you do
773      something like:
774
775          wget URL URL
776
777      then the first URL will resolve to "FILE", and the other to
778      "FILE.1".  In that case, FILE.1 will not be found in
779      dl_file_url_map, but URL will still point to FILE in
780      dl_url_file_map.  */
781   if (hash_table_get_pair (dl_url_file_map, url, &old_url, &old_file))
782     {
783       hash_table_remove (dl_url_file_map, url);
784       xfree (old_url);
785       xfree (old_file);
786     }
787
788   hash_table_put (dl_url_file_map, xstrdup (url), xstrdup (file));
789 }
790
791 /* Register that FROM has been redirected to TO.  This assumes that TO
792    is successfully downloaded and already registered using
793    register_download() above.  */
794
795 void
796 register_redirection (const char *from, const char *to)
797 {
798   char *file;
799
800   ENSURE_TABLES_EXIST;
801
802   file = hash_table_get (dl_url_file_map, to);
803   assert (file != NULL);
804   if (!hash_table_contains (dl_url_file_map, from))
805     hash_table_put (dl_url_file_map, xstrdup (from), xstrdup (file));
806 }
807
808 /* Register that the file has been deleted. */
809
810 void
811 register_delete_file (const char *file)
812 {
813   char *old_url, *old_file;
814
815   ENSURE_TABLES_EXIST;
816
817   if (!hash_table_get_pair (dl_file_url_map, file, &old_file, &old_url))
818     return;
819
820   hash_table_remove (dl_file_url_map, file);
821   xfree (old_file);
822   xfree (old_url);
823   dissociate_urls_from_file (file);
824 }
825
826 /* Register that FILE is an HTML file that has been downloaded. */
827
828 void
829 register_html (const char *url, const char *file)
830 {
831   if (!downloaded_html_set)
832     downloaded_html_set = make_string_hash_table (0);
833   string_set_add (downloaded_html_set, file);
834 }
835
836 static void downloaded_files_free (void);
837
838 /* Cleanup the data structures associated with this file.  */
839
840 void
841 convert_cleanup (void)
842 {
843   if (dl_file_url_map)
844     {
845       free_keys_and_values (dl_file_url_map);
846       hash_table_destroy (dl_file_url_map);
847       dl_file_url_map = NULL;
848     }
849   if (dl_url_file_map)
850     {
851       free_keys_and_values (dl_url_file_map);
852       hash_table_destroy (dl_url_file_map);
853       dl_url_file_map = NULL;
854     }
855   if (downloaded_html_set)
856     string_set_free (downloaded_html_set);
857   downloaded_files_free ();
858   if (converted_files)
859     string_set_free (converted_files);
860 }
861 \f
862 /* Book-keeping code for downloaded files that enables extension
863    hacks.  */
864
865 /* This table should really be merged with dl_file_url_map and
866    downloaded_html_files.  This was originally a list, but I changed
867    it to a hash table beause it was actually taking a lot of time to
868    find things in it.  */
869
870 static struct hash_table *downloaded_files_hash;
871
872 /* We're storing "modes" of type downloaded_file_t in the hash table.
873    However, our hash tables only accept pointers for keys and values.
874    So when we need a pointer, we use the address of a
875    downloaded_file_t variable of static storage.  */
876    
877 static downloaded_file_t *
878 downloaded_mode_to_ptr (downloaded_file_t mode)
879 {
880   static downloaded_file_t
881     v1 = FILE_NOT_ALREADY_DOWNLOADED,
882     v2 = FILE_DOWNLOADED_NORMALLY,
883     v3 = FILE_DOWNLOADED_AND_HTML_EXTENSION_ADDED,
884     v4 = CHECK_FOR_FILE;
885
886   switch (mode)
887     {
888     case FILE_NOT_ALREADY_DOWNLOADED:
889       return &v1;
890     case FILE_DOWNLOADED_NORMALLY:
891       return &v2;
892     case FILE_DOWNLOADED_AND_HTML_EXTENSION_ADDED:
893       return &v3;
894     case CHECK_FOR_FILE:
895       return &v4;
896     }
897   return NULL;
898 }
899
900 /* Remembers which files have been downloaded.  In the standard case,
901    should be called with mode == FILE_DOWNLOADED_NORMALLY for each
902    file we actually download successfully (i.e. not for ones we have
903    failures on or that we skip due to -N).
904
905    When we've downloaded a file and tacked on a ".html" extension due
906    to -E, call this function with
907    FILE_DOWNLOADED_AND_HTML_EXTENSION_ADDED rather than
908    FILE_DOWNLOADED_NORMALLY.
909
910    If you just want to check if a file has been previously added
911    without adding it, call with mode == CHECK_FOR_FILE.  Please be
912    sure to call this function with local filenames, not remote
913    URLs.  */
914
915 downloaded_file_t
916 downloaded_file (downloaded_file_t mode, const char *file)
917 {
918   downloaded_file_t *ptr;
919
920   if (mode == CHECK_FOR_FILE)
921     {
922       if (!downloaded_files_hash)
923         return FILE_NOT_ALREADY_DOWNLOADED;
924       ptr = hash_table_get (downloaded_files_hash, file);
925       if (!ptr)
926         return FILE_NOT_ALREADY_DOWNLOADED;
927       return *ptr;
928     }
929
930   if (!downloaded_files_hash)
931     downloaded_files_hash = make_string_hash_table (0);
932
933   ptr = hash_table_get (downloaded_files_hash, file);
934   if (ptr)
935     return *ptr;
936
937   ptr = downloaded_mode_to_ptr (mode);
938   hash_table_put (downloaded_files_hash, xstrdup (file), ptr);
939
940   return FILE_NOT_ALREADY_DOWNLOADED;
941 }
942
943 static void
944 downloaded_files_free (void)
945 {
946   if (downloaded_files_hash)
947     {
948       hash_table_iterator iter;
949       for (hash_table_iterate (downloaded_files_hash, &iter);
950            hash_table_iter_next (&iter);
951            )
952         xfree (iter.key);
953       hash_table_destroy (downloaded_files_hash);
954       downloaded_files_hash = NULL;
955     }
956 }
957 \f
958 /* The function returns the pointer to the malloc-ed quoted version of
959    string s.  It will recognize and quote numeric and special graphic
960    entities, as per RFC1866:
961
962    `&' -> `&amp;'
963    `<' -> `&lt;'
964    `>' -> `&gt;'
965    `"' -> `&quot;'
966    SP  -> `&#32;'
967
968    No other entities are recognized or replaced.  */
969 char *
970 html_quote_string (const char *s)
971 {
972   const char *b = s;
973   char *p, *res;
974   int i;
975
976   /* Pass through the string, and count the new size.  */
977   for (i = 0; *s; s++, i++)
978     {
979       if (*s == '&')
980         i += 4;                 /* `amp;' */
981       else if (*s == '<' || *s == '>')
982         i += 3;                 /* `lt;' and `gt;' */
983       else if (*s == '\"')
984         i += 5;                 /* `quot;' */
985       else if (*s == ' ')
986         i += 4;                 /* #32; */
987     }
988   res = xmalloc (i + 1);
989   s = b;
990   for (p = res; *s; s++)
991     {
992       switch (*s)
993         {
994         case '&':
995           *p++ = '&';
996           *p++ = 'a';
997           *p++ = 'm';
998           *p++ = 'p';
999           *p++ = ';';
1000           break;
1001         case '<': case '>':
1002           *p++ = '&';
1003           *p++ = (*s == '<' ? 'l' : 'g');
1004           *p++ = 't';
1005           *p++ = ';';
1006           break;
1007         case '\"':
1008           *p++ = '&';
1009           *p++ = 'q';
1010           *p++ = 'u';
1011           *p++ = 'o';
1012           *p++ = 't';
1013           *p++ = ';';
1014           break;
1015         case ' ':
1016           *p++ = '&';
1017           *p++ = '#';
1018           *p++ = '3';
1019           *p++ = '2';
1020           *p++ = ';';
1021           break;
1022         default:
1023           *p++ = *s;
1024         }
1025     }
1026   *p = '\0';
1027   return res;
1028 }
1029
1030 /*
1031  * vim: et ts=2 sw=2
1032  */
1033