]> sjero.net Git - wget/blobdiff - doc/wget.info-1
[svn] * TODO: Removed done item: we now have an option (-G) that makes it easy to
[wget] / doc / wget.info-1
index b4b2ad8b69d9abe33ff2796206c8264fc084a049..2f6af01f87ddf456bde35cdd2245d9a156bb605b 100644 (file)
@@ -186,7 +186,7 @@ is an example:
      ftp://host/directory/file;type=a
 
    Two alternative variants of URL specification are also supported,
-because of historical (hysterical?) reasons and their wide-spreadedness.
+because of historical (hysterical?) reasons and their widespreaded use.
 
    FTP-only syntax (supported by `NcFTP'):
      host:/dir/file
@@ -692,8 +692,9 @@ Recursive Retrieval Options
 
 `-K'
 `--backup-converted'
-     When converting a file, back up the original version with a
-     `.orig' suffix.
+     When converting a file, back up the original version with a `.orig'
+     suffix.  Affects the behavior of `-N' (*Note HTTP Time-Stamping
+     Internals::).
 
 `-m'
 `--mirror'
@@ -732,21 +733,39 @@ Recursive Accept/Reject Options
      Exclude the domains given in a comma-separated DOMAIN-LIST from
      DNS-lookup (*Note Domain Acceptance::).
 
-`-L'
-`--relative'
-     Follow relative links only.  Useful for retrieving a specific home
-     page without any distractions, not even those from the same hosts
-     (*Note Relative Links::).
-
 `--follow-ftp'
      Follow FTP links from HTML documents.  Without this option, Wget
      will ignore all the FTP links.
 
+`--follow-tags=LIST'
+     Wget has an internal table of HTML tag / attribute pairs that it
+     considers when looking for linked documents during a recursive
+     retrieval.  If a user wants only a subset of those tags to be
+     considered, however, he or she should be specify such tags in a
+     comma-separated LIST with this option.
+
+`-G LIST'
+`--ignore-tags=LIST'
+     This is the opposite of the `--follow-tags' option.  To skip
+     certain HTML tags when recursively looking for documents to
+     download, specify them in a comma-separated LIST.  The author of
+     this option likes to use the following command to download a
+     single HTML page and all documents necessary to display it
+     properly:
+
+          wget -Ga,area -H -k -K -nh -r http://SITE/DOCUMENT
+
 `-H'
 `--span-hosts'
      Enable spanning across hosts when doing recursive retrieving
      (*Note All Hosts::).
 
+`-L'
+`--relative'
+     Follow relative links only.  Useful for retrieving a specific home
+     page without any distractions, not even those from the same hosts
+     (*Note Relative Links::).
+
 `-I LIST'
 `--include-directories=LIST'
      Specify a comma-separated list of directories you wish to follow
@@ -811,7 +830,7 @@ through the network; all of this may hamper other users' work.  The
 same stands for the foreign server you are mirroring--the more requests
 it gets in a rows, the greater is its load.
 
-   Careless retrieving can also fill your file system unctrollably,
+   Careless retrieving can also fill your file system uncontrollably,
 which can grind the machine to a halt.
 
    The load can be minimized by lowering the maximum recursion level
@@ -829,9 +848,9 @@ File: wget.info,  Node: Following Links,  Next: Time-Stamping,  Prev: Recursive
 Following Links
 ***************
 
-   When retrieving recursively, one does not wish to retrieve the loads
-of unnecessary data.  Most of the time the users bear in mind exactly
-what they want to download, and want Wget to follow only specific links.
+   When retrieving recursively, one does not wish to retrieve loads of
+unnecessary data.  Most of the time the users bear in mind exactly what
+they want to download, and want Wget to follow only specific links.
 
    For example, if you wish to download the music archive from
 `fly.cc.fer.hr', you will not want to download all the home pages that
@@ -872,8 +891,7 @@ Host Checking
    The drawback of following the relative links solely is that humans
 often tend to mix them with absolute links to the very same host, and
 the very same page.  In this mode (which is the default mode for
-following links) all URLs the that refer to the same host will be
-retrieved.
+following links) all URLs that refer to the same host will be retrieved.
 
    The problem with this option are the aliases of the hosts and
 domains.  Thus there is no way for Wget to know that `regoc.srce.hr' and
@@ -883,7 +901,7 @@ DNS-looked-up with `gethostbyname' to check whether we are maybe
 dealing with the same hosts.  Although the results of `gethostbyname'
 are cached, it is still a great slowdown, e.g. when dealing with large
 indices of home pages on different hosts (because each of the hosts
-must be and DNS-resolved to see whether it just *might* an alias of the
+must be DNS-resolved to see whether it just *might* be an alias of the
 starting host).
 
    To avoid the overhead you may use `-nh', which will turn off
@@ -891,15 +909,15 @@ DNS-resolving and make Wget compare hosts literally.  This will make
 things run much faster, but also much less reliable (e.g. `www.srce.hr'
 and `regoc.srce.hr' will be flagged as different hosts).
 
-   Note that modern HTTP servers allows one IP address to host several
-"virtual servers", each having its own directory hieratchy.  Such
+   Note that modern HTTP servers allow one IP address to host several
+"virtual servers", each having its own directory hierarchy.  Such
 "servers" are distinguished by their hostnames (all of which point to
 the same IP address); for this to work, a client must send a `Host'
 header, which is what Wget does.  However, in that case Wget *must not*
 try to divine a host's "real" address, nor try to use the same hostname
 for each access, i.e. `-nh' must be turned on.
 
-   In other words, the `-nh' option must be used to enabling the
+   In other words, the `-nh' option must be used to enable the
 retrieval from virtual servers distinguished by their hostnames.  As the
 number of such server setups grow, the behavior of `-nh' may become the
 default in the future.
@@ -963,8 +981,8 @@ Types of Files
 
    When downloading material from the web, you will often want to
 restrict the retrieval to only certain file types.  For example, if you
-are interested in downloading GIFS, you will not be overjoyed to get
-loads of Postscript documents, and vice versa.
+are interested in downloading GIFs, you will not be overjoyed to get
+loads of PostScript documents, and vice versa.
 
    Wget offers two options to deal with this problem.  Each option
 description lists a short name, a long name, and the equivalent command
@@ -1005,7 +1023,7 @@ in `.wgetrc'.
    The `-A' and `-R' options may be combined to achieve even better
 fine-tuning of which files to retrieve.  E.g. `wget -A "*zelazny*" -R
 .ps' will download all the files having `zelazny' as a part of their
-name, but *not* the postscript files.
+name, but *not* the PostScript files.
 
    Note that these two options do not affect the downloading of HTML
 files; Wget must load all the HTMLs to know where to go at
@@ -1059,7 +1077,7 @@ equivalent command in `.wgetrc'.
 `no_parent = on'
      The simplest, and often very useful way of limiting directories is
      disallowing retrieval of the links that refer to the hierarchy
-     "upper" than the beginning directory, i.e. disallowing ascent to
+     "above" than the beginning directory, i.e. disallowing ascent to
      the parent directory/directories.
 
      The `--no-parent' option (short `-np') is useful in this case.
@@ -1244,29 +1262,3 @@ that is supported by some FTP servers (including the popular
 `wu-ftpd'), which returns the exact time of the specified file.  Wget
 may support this command in the future.
 
-\1f
-File: wget.info,  Node: Startup File,  Next: Examples,  Prev: Time-Stamping,  Up: Top
-
-Startup File
-************
-
-   Once you know how to change default settings of Wget through command
-line arguments, you may wish to make some of those settings permanent.
-You can do that in a convenient way by creating the Wget startup
-file--`.wgetrc'.
-
-   Besides `.wgetrc' is the "main" initialization file, it is
-convenient to have a special facility for storing passwords.  Thus Wget
-reads and interprets the contents of `$HOME/.netrc', if it finds it.
-You can find `.netrc' format in your system manuals.
-
-   Wget reads `.wgetrc' upon startup, recognizing a limited set of
-commands.
-
-* Menu:
-
-* Wgetrc Location::   Location of various wgetrc files.
-* Wgetrc Syntax::     Syntax of wgetrc.
-* Wgetrc Commands::   List of available commands.
-* Sample Wgetrc::     A wgetrc example.
-