]> sjero.net Git - wget/blobdiff - src/http.c
[svn] Restricted operational semantics of frontcmp and proclist from generic strings...
[wget] / src / http.c
index c69739cbd3a399c9190af6ab2fdb3355987de390..d28ee7a87231a79ded111c37d5b3c5d0a781a63f 100644 (file)
@@ -60,6 +60,10 @@ so, delete this exception statement from your version.  */
 #endif
 #include "convert.h"
 
+#ifdef TESTING
+#include "test.h"
+#endif
+
 extern char *version_string;
 
 #ifndef MIN
@@ -850,6 +854,105 @@ skip_short_body (int fd, wgint contlen)
   DEBUGP (("] done.\n"));
   return true;
 }
+
+/* Extract a parameter from the string (typically an HTTP header) at
+   **SOURCE and advance SOURCE to the next parameter.  Return false
+   when there are no more parameters to extract.  The name of the
+   parameter is returned in NAME, and the value in VALUE.  If the
+   parameter has no value, the token's value is zeroed out.
+
+   For example, if *SOURCE points to the string "attachment;
+   filename=\"foo bar\"", the first call to this function will return
+   the token named "attachment" and no value, and the second call will
+   return the token named "filename" and value "foo bar".  The third
+   call will return false, indicating no more valid tokens.  */
+
+bool
+extract_param (const char **source, param_token *name, param_token *value,
+              char separator)
+{
+  const char *p = *source;
+
+  while (ISSPACE (*p)) ++p;
+  if (!*p)
+    {
+      *source = p;
+      return false;            /* no error; nothing more to extract */
+    }
+
+  /* Extract name. */
+  name->b = p;
+  while (*p && !ISSPACE (*p) && *p != '=' && *p != separator) ++p;
+  name->e = p;
+  if (name->b == name->e)
+    return false;              /* empty name: error */
+  while (ISSPACE (*p)) ++p;
+  if (*p == separator || !*p)          /* no value */
+    {
+      xzero (*value);
+      if (*p == separator) ++p;
+      *source = p;
+      return true;
+    }
+  if (*p != '=')
+    return false;              /* error */
+
+  /* *p is '=', extract value */
+  ++p;
+  while (ISSPACE (*p)) ++p;
+  if (*p == '"')               /* quoted */
+    {
+      value->b = ++p;
+      while (*p && *p != '"') ++p;
+      if (!*p)
+        return false;
+      value->e = p++;
+      /* Currently at closing quote; find the end of param. */
+      while (ISSPACE (*p)) ++p;
+      while (*p && *p != separator) ++p;
+      if (*p == separator)
+       ++p;
+      else if (*p)
+       /* garbage after closed quote, e.g. foo="bar"baz */
+       return false;
+    }
+  else                         /* unquoted */
+    {
+      value->b = p;
+      while (*p && *p != separator) ++p;
+      value->e = p;
+      while (value->e != value->b && ISSPACE (value->e[-1]))
+        --value->e;
+      if (*p == separator) ++p;
+    }
+  *source = p;
+  return true;
+}
+
+#undef MAX
+#define MAX(p, q) ((p) > (q) ? (p) : (q))
+
+static bool
+parse_content_disposition (const char *hdr, char **filename)
+{
+  param_token name, value;
+  while (extract_param (&hdr, &name, &value, ';'))
+    if (BOUNDED_EQUAL_NO_CASE (name.b, name.e, "filename") && value.b != NULL)
+      {
+       /* Make the file name begin at the last slash or backslash. */
+        const char *last_slash = memrchr (value.b, '/', value.e - value.b);
+        const char *last_bs = memrchr (value.b, '\\', value.e - value.b);
+        if (last_slash && last_bs)
+          value.b = 1 + MAX (last_slash, last_bs);
+        else if (last_slash || last_bs)
+          value.b = 1 + (last_slash ? last_slash : last_bs);
+       if (value.b == value.e)
+         continue;
+        *filename = strdupdelim (value.b, value.e);
+        return true;
+      }
+  return false;
+}
 \f
 /* Persistent connections.  Currently, we cache the most recently used
    connection as persistent, provided that the HTTP server agrees to
@@ -1200,8 +1303,6 @@ gethttp (struct url *u, struct http_stat *hs, int *dt, struct url *proxy)
 
   bool host_lookup_failed = false;
 
-  DEBUGP(("in gethttp 1\n"));
-  
 #ifdef HAVE_SSL
   if (u->scheme == SCHEME_HTTPS)
     {
@@ -1217,9 +1318,6 @@ gethttp (struct url *u, struct http_stat *hs, int *dt, struct url *proxy)
     }
 #endif /* HAVE_SSL */
 
-  DEBUGP(("in gethttp 2\n"));
-  DEBUGP(("in gethttp 3\n"));
-  
   /* Initialize certain elements of struct http_stat.  */
   hs->len = 0;
   hs->contlen = -1;
@@ -1609,26 +1707,19 @@ gethttp (struct url *u, struct http_stat *hs, int *dt, struct url *proxy)
       print_server_response (resp, "  ");
     }
 
-  DEBUGP(("in gethttp 4\n"));
-  
   /* Determine the local filename if needed. Notice that if -O is used 
    * hstat.local_file is set by http_loop to the argument of -O. */
   if (!hs->local_file)     
     {
-      if (resp_header_copy (resp, "Content-Disposition", hdrval, sizeof (hdrval)))
-        /* Honor Content-Disposition. */
-        {
-          hs->local_file = xstrdup (hdrval);
-        }
-      else
-        /* Choose filename according to URL name. */
+      /* Honor Content-Disposition whether possible. */
+      if (!resp_header_copy (resp, "Content-Disposition", hdrval, sizeof (hdrval))
+          || !parse_content_disposition (hdrval, &hs->local_file))
         {
+          /* Choose filename according to URL name. */
           hs->local_file = url_file_name (u);
         }
     }
   
-  DEBUGP(("in gethttp 5\n"));
-
   /* TODO: perform this check only once. */
   if (opt.noclobber && file_exists_p (hs->local_file))
     {
@@ -1914,7 +2005,7 @@ File `%s' already there; not retrieving.\n\n"), hs->local_file);
           strcpy(hs->local_file + local_filename_len, ".html");
           /* If clobbering is not allowed and the file, as named,
              exists, tack on ".NUMBER.html" instead. */
-          if (!ALLOW_CLOBBER)
+          if (!ALLOW_CLOBBER && file_exists_p (hs->local_file))
             {
               int ext_num = 1;
               do
@@ -2013,6 +2104,13 @@ File `%s' already there; not retrieving.\n\n"), hs->local_file);
       return RETRFINISHED;
     }
 
+  /* Print fetch message, if opt.verbose.  */
+  if (opt.verbose)
+    {
+      logprintf (LOG_NOTQUIET, _("Saving to: `%s'\n"), 
+                 HYPHENP (hs->local_file) ? "STDOUT" : hs->local_file);
+    }
+    
   /* Open the local file.  */
   if (!output_stream)
     {
@@ -2100,13 +2198,11 @@ http_loop (struct url *u, char **newloc, char **local_file, const char *referer,
   bool got_head = false;         /* used for time-stamping */
   char *tms;
   const char *tmrate;
-  uerr_t err;
+  uerr_t err, ret = TRYLIMEXC;
   time_t tmr = -1;               /* remote time-stamp */
   wgint local_size = 0;          /* the size of the local file */
   struct http_stat hstat;        /* HTTP status */
-  struct_stat st;
-
-  DEBUGP(("in http_loop\n"));
+  struct_stat st;  
 
   /* Assert that no value for *LOCAL_FILE was passed. */
   assert (local_file == NULL || *local_file == NULL);
@@ -2144,8 +2240,6 @@ http_loop (struct url *u, char **newloc, char **local_file, const char *referer,
   /* THE loop */
   do
     {
-      DEBUGP(("in http_loop LOOP\n"));
-
       /* Increment the pass counter.  */
       ++count;
       sleep_between_retrievals (count);
@@ -2157,12 +2251,20 @@ http_loop (struct url *u, char **newloc, char **local_file, const char *referer,
       if (opt.verbose)
         {
           char *hurl = url_string (u, true);
-          char tmp[256];
-          strcpy (tmp, "        ");
-          if (count > 1)
-            sprintf (tmp, _("(try:%2d)"), count);
-          logprintf (LOG_VERBOSE, "--%s--  %s\n  %s\n",
-                     tms, hurl, tmp);
+          
+          if (count > 1) 
+            {
+              char tmp[256];
+              sprintf (tmp, _("(try:%2d)"), count);
+              logprintf (LOG_NOTQUIET, "--%s--  %s  %s\n",
+                         tms, tmp, hurl);
+            }
+          else 
+            {
+              logprintf (LOG_NOTQUIET, "--%s--  %s\n",
+                         tms, hurl);
+            }
+          
 #ifdef WINDOWS
           ws_changetitle (hurl);
 #endif
@@ -2198,8 +2300,7 @@ http_loop (struct url *u, char **newloc, char **local_file, const char *referer,
               we require a fresh get.
            b) caching is explicitly inhibited. */
       if ((proxy && count > 1)        /* a */
-          || !opt.allow_cache         /* b */
-          )
+          || !opt.allow_cache)        /* b */
         *dt |= SEND_NOCACHE;
       else
         *dt &= ~SEND_NOCACHE;
@@ -2222,26 +2323,23 @@ http_loop (struct url *u, char **newloc, char **local_file, const char *referer,
           /* Non-fatal errors continue executing the loop, which will
              bring them to "while" statement at the end, to judge
              whether the number of tries was exceeded.  */
-          //free_hstat (&hstat);
           printwhat (count, opt.ntry);
           continue;
-        case HOSTERR: case CONIMPOSSIBLE: case PROXERR: case AUTHFAILED: 
-        case SSLINITFAILED: case CONTNOTSUPPORTED:
-          /* Fatal errors just return from the function.  */
-          free_hstat (&hstat);
-          return err;
         case FWRITEERR: case FOPENERR:
           /* Another fatal error.  */
           logputs (LOG_VERBOSE, "\n");
           logprintf (LOG_NOTQUIET, _("Cannot write to `%s' (%s).\n"),
                      hstat.local_file, strerror (errno));
-          free_hstat (&hstat);
-          return err;
+        case HOSTERR: case CONIMPOSSIBLE: case PROXERR: case AUTHFAILED: 
+        case SSLINITFAILED: case CONTNOTSUPPORTED:
+          /* Fatal errors just return from the function.  */
+          ret = err;
+          goto exit;
         case CONSSLERR:
           /* Another fatal error.  */
           logprintf (LOG_NOTQUIET, _("Unable to establish SSL connection.\n"));
-          free_hstat (&hstat);
-          return err;
+          ret = err;
+          goto exit;
         case NEWLOCATION:
           /* Return the new location to the caller.  */
           if (!*newloc)
@@ -2249,15 +2347,17 @@ http_loop (struct url *u, char **newloc, char **local_file, const char *referer,
               logprintf (LOG_NOTQUIET,
                          _("ERROR: Redirection (%d) without location.\n"),
                          hstat.statcode);
-              free_hstat (&hstat);
-              return WRONGCODE;
+              ret = WRONGCODE;
             }
-          free_hstat (&hstat);
-          return NEWLOCATION;
+          else 
+            {
+              ret = NEWLOCATION;
+            }
+          goto exit;
         case RETRUNNEEDED:
           /* The file was already fully retrieved. */
-          free_hstat (&hstat);
-          return RETROK;
+          ret = RETROK;
+          goto exit;
         case RETRFINISHED:
           /* Deal with you later.  */
           break;
@@ -2278,8 +2378,8 @@ http_loop (struct url *u, char **newloc, char **local_file, const char *referer,
           logprintf (LOG_NOTQUIET, _("%s ERROR %d: %s.\n"),
                      tms, hstat.statcode, escnonprint (hstat.error));
           logputs (LOG_VERBOSE, "\n");
-          free_hstat (&hstat);
-          return WRONGCODE;
+          ret = WRONGCODE;
+          goto exit;
         }
 
       /* Did we get the time-stamp? */
@@ -2321,8 +2421,8 @@ Last-modified header invalid -- time-stamp ignored.\n"));
                       logprintf (LOG_VERBOSE, _("\
 Server file no newer than local file `%s' -- not retrieving.\n\n"),
                                  hstat.orig_file_name);
-                      free_hstat (&hstat);
-                      return RETROK;
+                      ret = RETROK;
+                      goto exit;
                     }
                   else
                     {
@@ -2334,9 +2434,11 @@ The sizes do not match (local %s) -- retrieving.\n"),
               else
                 logputs (LOG_VERBOSE,
                          _("Remote file is newer, retrieving.\n"));
+
+              logputs (LOG_VERBOSE, "\n");
             }
           
-          //free_hstat (&hstat);
+          /* free_hstat (&hstat); */
           hstat.timestamp_checked = true;
           continue;
         }
@@ -2365,7 +2467,8 @@ The sizes do not match (local %s) -- retrieving.\n"),
         {
           logprintf (LOG_NOTQUIET, "%d %s\n\n", hstat.statcode,
                      escnonprint (hstat.error));
-          return RETROK;
+          ret = RETROK;
+          goto exit;
         }
 
       tmrate = retr_rate (hstat.rd_size, hstat.dltime);
@@ -2396,8 +2499,8 @@ The sizes do not match (local %s) -- retrieving.\n"),
           else
             downloaded_file(FILE_DOWNLOADED_NORMALLY, hstat.local_file);
 
-          free_hstat (&hstat);
-          return RETROK;
+          ret = RETROK;
+          goto exit;
         }
       else if (hstat.res == 0) /* No read error */
         {
@@ -2424,8 +2527,8 @@ The sizes do not match (local %s) -- retrieving.\n"),
               else
                 downloaded_file(FILE_DOWNLOADED_NORMALLY, hstat.local_file);
               
-              free_hstat (&hstat);
-              return RETROK;
+              ret = RETROK;
+              goto exit;
             }
           else if (hstat.len < hstat.contlen) /* meaning we lost the
                                                  connection too soon */
@@ -2434,7 +2537,6 @@ The sizes do not match (local %s) -- retrieving.\n"),
                          _("%s (%s) - Connection closed at byte %s. "),
                          tms, tmrate, number_to_static_string (hstat.len));
               printwhat (count, opt.ntry);
-              //free_hstat (&hstat);
               continue;
             }
           else
@@ -2451,7 +2553,6 @@ The sizes do not match (local %s) -- retrieving.\n"),
                          tms, tmrate, number_to_static_string (hstat.len),
                          hstat.rderrmsg);
               printwhat (count, opt.ntry);
-              //free_hstat (&hstat);
               continue;
             }
           else /* hstat.res == -1 and contlen is given */
@@ -2463,15 +2564,19 @@ The sizes do not match (local %s) -- retrieving.\n"),
                          number_to_static_string (hstat.contlen),
                          hstat.rderrmsg);
               printwhat (count, opt.ntry);
-              //free_hstat (&hstat);
               continue;
             }
         }
       /* not reached */
     }
   while (!opt.ntry || (count < opt.ntry));
+
+exit:
+  if (ret == RETROK) 
+    *local_file = xstrdup (hstat.local_file);
+  free_hstat (&hstat);
   
-  return TRYLIMEXC;
+  return ret;
 }
 \f
 /* Check whether the result of strptime() indicates success.
@@ -2612,45 +2717,6 @@ basic_authentication_encode (const char *user, const char *passwd)
 } while (0)
 
 #ifdef ENABLE_DIGEST
-/* Parse HTTP `WWW-Authenticate:' header.  AU points to the beginning
-   of a field in such a header.  If the field is the one specified by
-   ATTR_NAME ("realm", "opaque", and "nonce" are used by the current
-   digest authorization code), extract its value in the (char*)
-   variable pointed by RET.  Returns negative on a malformed header,
-   or number of bytes that have been parsed by this call.  */
-static int
-extract_header_attr (const char *au, const char *attr_name, char **ret)
-{
-  const char *ep;
-  const char *cp = au;
-
-  if (strncmp (cp, attr_name, strlen (attr_name)) == 0)
-    {
-      cp += strlen (attr_name);
-      if (!*cp)
-        return -1;
-      SKIP_WS (cp);
-      if (*cp != '=')
-        return -1;
-      if (!*++cp)
-        return -1;
-      SKIP_WS (cp);
-      if (*cp != '\"')
-        return -1;
-      if (!*++cp)
-        return -1;
-      for (ep = cp; *ep && *ep != '\"'; ep++)
-        ;
-      if (!*ep)
-        return -1;
-      xfree_null (*ret);
-      *ret = strdupdelim (cp, ep);
-      return ep - au + 1;
-    }
-  else
-    return 0;
-}
-
 /* Dump the hexadecimal representation of HASH to BUF.  HASH should be
    an array of 16 bytes containing the hash keys, and BUF should be a
    buffer of 33 writable characters (32 for hex digits plus one for
@@ -2685,53 +2751,21 @@ digest_authentication_encode (const char *au, const char *user,
     { "nonce", &nonce }
   };
   char *res;
+  param_token name, value;
 
   realm = opaque = nonce = NULL;
 
   au += 6;                      /* skip over `Digest' */
-  while (*au)
+  while (extract_param (&au, &name, &value, ','))
     {
       int i;
-
-      SKIP_WS (au);
       for (i = 0; i < countof (options); i++)
-        {
-          int skip = extract_header_attr (au, options[i].name,
-                                          options[i].variable);
-          if (skip < 0)
-            {
-              xfree_null (realm);
-              xfree_null (opaque);
-              xfree_null (nonce);
-              return NULL;
-            }
-          else if (skip)
-            {
-              au += skip;
-              break;
-            }
-        }
-      if (i == countof (options))
-        {
-          while (*au && *au != '=')
-            au++;
-          if (*au && *++au)
-            {
-              SKIP_WS (au);
-              if (*au == '\"')
-                {
-                  au++;
-                  while (*au && *au != '\"')
-                    au++;
-                  if (*au)
-                    au++;
-                }
-            }
-        }
-      while (*au && *au != ',')
-        au++;
-      if (*au)
-        au++;
+       if (name.e - name.b == strlen (options[i].name)
+           && 0 == strncmp (name.b, options[i].name, name.e - name.b))
+         {
+           *options[i].variable = strdupdelim (value.b, value.e);
+           break;
+         }
     }
   if (!realm || !nonce || !user || !passwd || !path || !method)
     {
@@ -2892,6 +2926,40 @@ http_cleanup (void)
     cookie_jar_delete (wget_cookie_jar);
 }
 
+
+#ifdef TESTING
+
+const char *
+test_parse_content_disposition()
+{
+  int i;
+  struct {
+    char *hdrval;    
+    char *filename;
+    bool result;
+  } test_array[] = {
+    { "filename=\"file.ext\"", "file.ext", true },
+    { "attachment; filename=\"file.ext\"", "file.ext", true },
+    { "attachment; filename=\"file.ext\"; dummy", "file.ext", true },
+    { "attachment", NULL, false },    
+  };
+  
+  for (i = 0; i < sizeof(test_array)/sizeof(test_array[0]); ++i) 
+    {
+      char *filename;
+      bool res = parse_content_disposition (test_array[i].hdrval, &filename);
+
+      mu_assert ("test_parse_content_disposition: wrong result", 
+                 res == test_array[i].result
+                 && (res == false 
+                     || 0 == strcmp (test_array[i].filename, filename)));
+    }
+
+  return NULL;
+}
+
+#endif /* TESTING */
+
 /*
  * vim: et ts=2 sw=2
  */