Merge in gerel's url-parsing stuff.

[wget] / src / res.c
diff --git a/src/res.c b/src/res.c

index 0be3f7621f34afba367c3b94e1f5f41d854d35ce..20ffe1c8de45947b1d8cd9c262823151703b6bcd 100644 (file)
--- a/src/res.c
+++ b/src/res.c
@@ -463,9 +463,9 @@ res_match_path (const struct robot_specs *specs, const char *path)
      if (matches (specs->paths[i].path, path))
        {
          bool allowedp = specs->paths[i].allowedp;
-        DEBUGP (("%s path %s because of rule `%s'.\n",
+        DEBUGP (("%s path %s because of rule %s.\n",
                   allowedp ? "Allowing" : "Rejecting",
-                 path, specs->paths[i].path));
+                 path, quote (specs->paths[i].path)));
          return allowedp;
        }
    return true;
@@ -537,13 +537,29 @@ res_retrieve_file (const char *url, char **file)
    uerr_t err;
    char *robots_url = uri_merge (url, RES_SPECS_LOCATION);
    int saved_ts_val = opt.timestamping;
-  int saved_sp_val = opt.spider;
+  int saved_sp_val = opt.spider, url_err;
+  struct url * url_parsed;
  
    logputs (LOG_VERBOSE, _("Loading robots.txt; please ignore errors.\n"));
    *file = NULL;
    opt.timestamping = false;
    opt.spider       = false;
-  err = retrieve_url (robots_url, file, NULL, NULL, NULL, false);
+
+  url_parsed = url_parse (robots_url, &url_err);
+  if (!url_parsed)
+    {
+      char *error = url_error (robots_url, url_err);
+      logprintf (LOG_NOTQUIET, "%s: %s.\n", robots_url, error);
+      xfree (error);
+      err = URLERROR;
+    }
+  else
+    {
+      err = retrieve_url (url_parsed, robots_url, file, NULL, NULL, NULL,
+                          false);
+      url_free(url_parsed);
+    }
+
    opt.timestamping = saved_ts_val;
    opt.spider       = saved_sp_val;  
    xfree (robots_url);