]> sjero.net Git - wget/blob - doc/wget.info-1
28f9c64089907ee5ee878cd84b70b1573facc1b0
[wget] / doc / wget.info-1
1 This is Info file wget.info, produced by Makeinfo version 1.68 from the
2 input file ./wget.texi.
3
4 INFO-DIR-SECTION Net Utilities
5 INFO-DIR-SECTION World Wide Web
6 START-INFO-DIR-ENTRY
7 * Wget: (wget).         The non-interactive network downloader.
8 END-INFO-DIR-ENTRY
9
10    This file documents the the GNU Wget utility for downloading network
11 data.
12
13    Copyright (C) 1996, 1997, 1998, 2000 Free Software Foundation, Inc.
14
15    Permission is granted to make and distribute verbatim copies of this
16 manual provided the copyright notice and this permission notice are
17 preserved on all copies.
18
19    Permission is granted to copy and distribute modified versions of
20 this manual under the conditions for verbatim copying, provided also
21 that the sections entitled "Copying" and "GNU General Public License"
22 are included exactly as in the original, and provided that the entire
23 resulting derived work is distributed under the terms of a permission
24 notice identical to this one.
25
26 \1f
27 File: wget.info,  Node: Top,  Next: Overview,  Prev: (dir),  Up: (dir)
28
29 Wget 1.5.3+dev
30 **************
31
32    This manual documents version 1.5.3+dev of GNU Wget, the freely
33 available utility for network download.
34
35    Copyright (C) 1996, 1997, 1998 Free Software Foundation, Inc.
36
37 * Menu:
38
39 * Overview::            Features of Wget.
40 * Invoking::            Wget command-line arguments.
41 * Recursive Retrieval:: Description of recursive retrieval.
42 * Following Links::     The available methods of chasing links.
43 * Time-Stamping::       Mirroring according to time-stamps.
44 * Startup File::        Wget's initialization file.
45 * Examples::            Examples of usage.
46 * Various::             The stuff that doesn't fit anywhere else.
47 * Appendices::          Some useful references.
48 * Copying::             You may give out copies of Wget.
49 * Concept Index::       Topics covered by this manual.
50
51 \1f
52 File: wget.info,  Node: Overview,  Next: Invoking,  Prev: Top,  Up: Top
53
54 Overview
55 ********
56
57    GNU Wget is a freely available network utility to retrieve files from
58 the World Wide Web, using HTTP (Hyper Text Transfer Protocol) and FTP
59 (File Transfer Protocol), the two most widely used Internet protocols.
60 It has many useful features to make downloading easier, some of them
61 being:
62
63    * Wget is non-interactive, meaning that it can work in the
64      background, while the user is not logged on.  This allows you to
65      start a retrieval and disconnect from the system, letting Wget
66      finish the work.  By contrast, most of the Web browsers require
67      constant user's presence, which can be a great hindrance when
68      transferring a lot of data.
69
70    * Wget is capable of descending recursively through the structure of
71      HTML documents and FTP directory trees, making a local copy of the
72      directory hierarchy similar to the one on the remote server.  This
73      feature can be used to mirror archives and home pages, or traverse
74      the web in search of data, like a WWW robot (*Note Robots::).  In
75      that spirit, Wget understands the `norobots' convention.
76
77    * File name wildcard matching and recursive mirroring of directories
78      are available when retrieving via FTP.  Wget can read the
79      time-stamp information given by both HTTP and FTP servers, and
80      store it locally.  Thus Wget can see if the remote file has
81      changed since last retrieval, and automatically retrieve the new
82      version if it has.  This makes Wget suitable for mirroring of FTP
83      sites, as well as home pages.
84
85    * Wget works exceedingly well on slow or unstable connections,
86      retrying the document until it is fully retrieved, or until a
87      user-specified retry count is surpassed.  It will try to resume the
88      download from the point of interruption, using `REST' with FTP and
89      `Range' with HTTP servers that support them.
90
91    * By default, Wget supports proxy servers, which can lighten the
92      network load, speed up retrieval and provide access behind
93      firewalls.  However, if you are behind a firewall that requires
94      that you use a socks style gateway, you can get the socks library
95      and build wget with support for socks.  Wget also supports the
96      passive FTP downloading as an option.
97
98    * Builtin features offer mechanisms to tune which links you wish to
99      follow (*Note Following Links::).
100
101    * The retrieval is conveniently traced with printing dots, each dot
102      representing a fixed amount of data received (1KB by default).
103      These representations can be customized to your preferences.
104
105    * Most of the features are fully configurable, either through
106      command line options, or via the initialization file `.wgetrc'
107      (*Note Startup File::).  Wget allows you to define "global"
108      startup files (`/usr/local/etc/wgetrc' by default) for site
109      settings.
110
111    * Finally, GNU Wget is free software.  This means that everyone may
112      use it, redistribute it and/or modify it under the terms of the
113      GNU General Public License, as published by the Free Software
114      Foundation (*Note Copying::).
115
116 \1f
117 File: wget.info,  Node: Invoking,  Next: Recursive Retrieval,  Prev: Overview,  Up: Top
118
119 Invoking
120 ********
121
122    By default, Wget is very simple to invoke.  The basic syntax is:
123
124      wget [OPTION]... [URL]...
125
126    Wget will simply download all the URLs specified on the command
127 line.  URL is a "Uniform Resource Locator", as defined below.
128
129    However, you may wish to change some of the default parameters of
130 Wget.  You can do it two ways: permanently, adding the appropriate
131 command to `.wgetrc' (*Note Startup File::), or specifying it on the
132 command line.
133
134 * Menu:
135
136 * URL Format::
137 * Option Syntax::
138 * Basic Startup Options::
139 * Logging and Input File Options::
140 * Download Options::
141 * Directory Options::
142 * HTTP Options::
143 * FTP Options::
144 * Recursive Retrieval Options::
145 * Recursive Accept/Reject Options::
146
147 \1f
148 File: wget.info,  Node: URL Format,  Next: Option Syntax,  Prev: Invoking,  Up: Invoking
149
150 URL Format
151 ==========
152
153    "URL" is an acronym for Uniform Resource Locator.  A uniform
154 resource locator is a compact string representation for a resource
155 available via the Internet.  Wget recognizes the URL syntax as per
156 RFC1738.  This is the most widely used form (square brackets denote
157 optional parts):
158
159      http://host[:port]/directory/file
160      ftp://host[:port]/directory/file
161
162    You can also encode your username and password within a URL:
163
164      ftp://user:password@host/path
165      http://user:password@host/path
166
167    Either USER or PASSWORD, or both, may be left out.  If you leave out
168 either the HTTP username or password, no authentication will be sent.
169 If you leave out the FTP username, `anonymous' will be used.  If you
170 leave out the FTP password, your email address will be supplied as a
171 default password.(1)
172
173    You can encode unsafe characters in a URL as `%xy', `xy' being the
174 hexadecimal representation of the character's ASCII value.  Some common
175 unsafe characters include `%' (quoted as `%25'), `:' (quoted as `%3A'),
176 and `@' (quoted as `%40').  Refer to RFC1738 for a comprehensive list
177 of unsafe characters.
178
179    Wget also supports the `type' feature for FTP URLs.  By default, FTP
180 documents are retrieved in the binary mode (type `i'), which means that
181 they are downloaded unchanged.  Another useful mode is the `a'
182 ("ASCII") mode, which converts the line delimiters between the
183 different operating systems, and is thus useful for text files.  Here
184 is an example:
185
186      ftp://host/directory/file;type=a
187
188    Two alternative variants of URL specification are also supported,
189 because of historical (hysterical?) reasons and their widespreaded use.
190
191    FTP-only syntax (supported by `NcFTP'):
192      host:/dir/file
193
194    HTTP-only syntax (introduced by `Netscape'):
195      host[:port]/dir/file
196
197    These two alternative forms are deprecated, and may cease being
198 supported in the future.
199
200    If you do not understand the difference between these notations, or
201 do not know which one to use, just use the plain ordinary format you use
202 with your favorite browser, like `Lynx' or `Netscape'.
203
204    ---------- Footnotes ----------
205
206    (1) If you have a `.netrc' file in your home directory, password
207 will also be searched for there.
208
209 \1f
210 File: wget.info,  Node: Option Syntax,  Next: Basic Startup Options,  Prev: URL Format,  Up: Invoking
211
212 Option Syntax
213 =============
214
215    Since Wget uses GNU getopts to process its arguments, every option
216 has a short form and a long form.  Long options are more convenient to
217 remember, but take time to type.  You may freely mix different option
218 styles, or specify options after the command-line arguments. Thus you
219 may write:
220
221      wget -r --tries=10 http://fly.cc.fer.hr/ -o log
222
223    The space between the option accepting an argument and the argument
224 may be omitted.  Instead `-o log' you can write `-olog'.
225
226    You may put several options that do not require arguments together,
227 like:
228
229      wget -drc URL
230
231    This is a complete equivalent of:
232
233      wget -d -r -c URL
234
235    Since the options can be specified after the arguments, you may
236 terminate them with `--'.  So the following will try to download URL
237 `-x', reporting failure to `log':
238
239      wget -o log -- -x
240
241    The options that accept comma-separated lists all respect the
242 convention that specifying an empty list clears its value.  This can be
243 useful to clear the `.wgetrc' settings.  For instance, if your `.wgetrc'
244 sets `exclude_directories' to `/cgi-bin', the following example will
245 first reset it, and then set it to exclude `/~nobody' and `/~somebody'.
246 You can also clear the lists in `.wgetrc' (*Note Wgetrc Syntax::).
247
248      wget -X '' -X /~nobody,/~somebody
249
250 \1f
251 File: wget.info,  Node: Basic Startup Options,  Next: Logging and Input File Options,  Prev: Option Syntax,  Up: Invoking
252
253 Basic Startup Options
254 =====================
255
256 `-V'
257 `--version'
258      Display the version of Wget.
259
260 `-h'
261 `--help'
262      Print a help message describing all of Wget's command-line options.
263
264 `-b'
265 `--background'
266      Go to background immediately after startup.  If no output file is
267      specified via the `-o', output is redirected to `wget-log'.
268
269 `-e COMMAND'
270 `--execute COMMAND'
271      Execute COMMAND as if it were a part of `.wgetrc' (*Note Startup
272      File::).  A command thus invoked will be executed *after* the
273      commands in `.wgetrc', thus taking precedence over them.
274
275 \1f
276 File: wget.info,  Node: Logging and Input File Options,  Next: Download Options,  Prev: Basic Startup Options,  Up: Invoking
277
278 Logging and Input File Options
279 ==============================
280
281 `-o LOGFILE'
282 `--output-file=LOGFILE'
283      Log all messages to LOGFILE.  The messages are normally reported
284      to standard error.
285
286 `-a LOGFILE'
287 `--append-output=LOGFILE'
288      Append to LOGFILE.  This is the same as `-o', only it appends to
289      LOGFILE instead of overwriting the old log file.  If LOGFILE does
290      not exist, a new file is created.
291
292 `-d'
293 `--debug'
294      Turn on debug output, meaning various information important to the
295      developers of Wget if it does not work properly.  Your system
296      administrator may have chosen to compile Wget without debug
297      support, in which case `-d' will not work.  Please note that
298      compiling with debug support is always safe--Wget compiled with
299      the debug support will *not* print any debug info unless requested
300      with `-d'.  *Note Reporting Bugs:: for more information on how to
301      use `-d' for sending bug reports.
302
303 `-q'
304 `--quiet'
305      Turn off Wget's output.
306
307 `-v'
308 `--verbose'
309      Turn on verbose output, with all the available data.  The default
310      output is verbose.
311
312 `-nv'
313 `--non-verbose'
314      Non-verbose output--turn off verbose without being completely quiet
315      (use `-q' for that), which means that error messages and basic
316      information still get printed.
317
318 `-i FILE'
319 `--input-file=FILE'
320      Read URLs from FILE, in which case no URLs need to be on the
321      command line.  If there are URLs both on the command line and in
322      an input file, those on the command lines will be the first ones to
323      be retrieved.  The FILE need not be an HTML document (but no harm
324      if it is)--it is enough if the URLs are just listed sequentially.
325
326      However, if you specify `--force-html', the document will be
327      regarded as `html'.  In that case you may have problems with
328      relative links, which you can solve either by adding `<base
329      href="URL">' to the documents or by specifying `--base=URL' on the
330      command line.
331
332 `-F'
333 `--force-html'
334      When input is read from a file, force it to be treated as an HTML
335      file.  This enables you to retrieve relative links from existing
336      HTML files on your local disk, by adding `<base href="URL">' to
337      HTML, or using the `--base' command-line option.
338
339 \1f
340 File: wget.info,  Node: Download Options,  Next: Directory Options,  Prev: Logging and Input File Options,  Up: Invoking
341
342 Download Options
343 ================
344
345 `-t NUMBER'
346 `--tries=NUMBER'
347      Set number of retries to NUMBER.  Specify 0 or `inf' for infinite
348      retrying.
349
350 `-O FILE'
351 `--output-document=FILE'
352      The documents will not be written to the appropriate files, but
353      all will be concatenated together and written to FILE.  If FILE
354      already exists, it will be overwritten.  If the FILE is `-', the
355      documents will be written to standard output.  Including this
356      option automatically sets the number of tries to 1.
357
358 `-nc'
359 `--no-clobber'
360      Do not clobber existing files when saving to directory hierarchy
361      within recursive retrieval of several files. This option is
362      *extremely* useful when you wish to continue where you left off
363      with retrieval of many files.  If the files have the `.html' or
364      (yuck) `.htm' suffix, they will be loaded from the local disk, and
365      parsed as if they have been retrieved from the Web.
366
367 `-c'
368 `--continue'
369      Continue getting an existing file.  This is useful when you want to
370      finish up the download started by another program, or a previous
371      instance of Wget.  Thus you can write:
372
373           wget -c ftp://sunsite.doc.ic.ac.uk/ls-lR.Z
374
375      If there is a file name `ls-lR.Z' in the current directory, Wget
376      will assume that it is the first portion of the remote file, and
377      will require the server to continue the retrieval from an offset
378      equal to the length of the local file.
379
380      Note that you need not specify this option if all you want is Wget
381      to continue retrieving where it left off when the connection is
382      lost--Wget does this by default.  You need this option only when
383      you want to continue retrieval of a file already halfway
384      retrieved, saved by another FTP client, or left by Wget being
385      killed.
386
387      Without `-c', the previous example would just begin to download the
388      remote file to `ls-lR.Z.1'.  The `-c' option is also applicable
389      for HTTP servers that support the `Range' header.
390
391 `--dot-style=STYLE'
392      Set the retrieval style to STYLE.  Wget traces the retrieval of
393      each document by printing dots on the screen, each dot
394      representing a fixed amount of retrieved data.  Any number of dots
395      may be separated in a "cluster", to make counting easier.  This
396      option allows you to choose one of the pre-defined styles,
397      determining the number of bytes represented by a dot, the number
398      of dots in a cluster, and the number of dots on the line.
399
400      With the `default' style each dot represents 1K, there are ten dots
401      in a cluster and 50 dots in a line.  The `binary' style has a more
402      "computer"-like orientation--8K dots, 16-dots clusters and 48 dots
403      per line (which makes for 384K lines).  The `mega' style is
404      suitable for downloading very large files--each dot represents 64K
405      retrieved, there are eight dots in a cluster, and 48 dots on each
406      line (so each line contains 3M).  The `micro' style is exactly the
407      reverse; it is suitable for downloading small files, with 128-byte
408      dots, 8 dots per cluster, and 48 dots (6K) per line.
409
410 `-N'
411 `--timestamping'
412      Turn on time-stamping.  *Note Time-Stamping:: for details.
413
414 `-S'
415 `--server-response'
416      Print the headers sent by HTTP servers and responses sent by FTP
417      servers.
418
419 `--spider'
420      When invoked with this option, Wget will behave as a Web "spider",
421      which means that it will not download the pages, just check that
422      they are there.  You can use it to check your bookmarks, e.g. with:
423
424           wget --spider --force-html -i bookmarks.html
425
426      This feature needs much more work for Wget to get close to the
427      functionality of real WWW spiders.
428
429 `-T seconds'
430 `--timeout=SECONDS'
431      Set the read timeout to SECONDS seconds.  Whenever a network read
432      is issued, the file descriptor is checked for a timeout, which
433      could otherwise leave a pending connection (uninterrupted read).
434      The default timeout is 900 seconds (fifteen minutes).  Setting
435      timeout to 0 will disable checking for timeouts.
436
437      Please do not lower the default timeout value with this option
438      unless you know what you are doing.
439
440 `-w SECONDS'
441 `--wait=SECONDS'
442      Wait the specified number of seconds between the retrievals.  Use
443      of this option is recommended, as it lightens the server load by
444      making the requests less frequent.  Instead of in seconds, the
445      time can be specified in minutes using the `m' suffix, in hours
446      using `h' suffix, or in days using `d' suffix.
447
448      Specifying a large value for this option is useful if the network
449      or the destination host is down, so that Wget can wait long enough
450      to reasonably expect the network error to be fixed before the
451      retry.
452
453 `--waitretry=SECONDS'
454      If you don't want Wget to wait between *every* retrieval, but only
455      between retries of failed downloads, you can use this option.
456      Wget will use "linear backoff", waiting 1 second after the first
457      failure on a given file, then waiting 2 seconds after the second
458      failure on that file, up to the maximum number of SECONDS you
459      specify.  Therefore, a value of 10 will actually make Wget wait up
460      to (1 + 2 + ... + 10) = 55 seconds per file.
461
462      Note that this option is turned on by default in the global
463      `wgetrc' file.
464
465 `-Y on/off'
466 `--proxy=on/off'
467      Turn proxy support on or off. The proxy is on by default if the
468      appropriate environmental variable is defined.
469
470 `-Q QUOTA'
471 `--quota=QUOTA'
472      Specify download quota for automatic retrievals.  The value can be
473      specified in bytes (default), kilobytes (with `k' suffix), or
474      megabytes (with `m' suffix).
475
476      Note that quota will never affect downloading a single file.  So
477      if you specify `wget -Q10k ftp://wuarchive.wustl.edu/ls-lR.gz',
478      all of the `ls-lR.gz' will be downloaded.  The same goes even when
479      several URLs are specified on the command-line.  However, quota is
480      respected when retrieving either recursively, or from an input
481      file.  Thus you may safely type `wget -Q2m -i sites'--download
482      will be aborted when the quota is exceeded.
483
484      Setting quota to 0 or to `inf' unlimits the download quota.
485
486 \1f
487 File: wget.info,  Node: Directory Options,  Next: HTTP Options,  Prev: Download Options,  Up: Invoking
488
489 Directory Options
490 =================
491
492 `-nd'
493 `--no-directories'
494      Do not create a hierarchy of directories when retrieving
495      recursively. With this option turned on, all files will get saved
496      to the current directory, without clobbering (if a name shows up
497      more than once, the filenames will get extensions `.n').
498
499 `-x'
500 `--force-directories'
501      The opposite of `-nd'--create a hierarchy of directories, even if
502      one would not have been created otherwise.  E.g. `wget -x
503      http://fly.cc.fer.hr/robots.txt' will save the downloaded file to
504      `fly.cc.fer.hr/robots.txt'.
505
506 `-nH'
507 `--no-host-directories'
508      Disable generation of host-prefixed directories.  By default,
509      invoking Wget with `-r http://fly.cc.fer.hr/' will create a
510      structure of directories beginning with `fly.cc.fer.hr/'.  This
511      option disables such behavior.
512
513 `--cut-dirs=NUMBER'
514      Ignore NUMBER directory components.  This is useful for getting a
515      fine-grained control over the directory where recursive retrieval
516      will be saved.
517
518      Take, for example, the directory at
519      `ftp://ftp.xemacs.org/pub/xemacs/'.  If you retrieve it with `-r',
520      it will be saved locally under `ftp.xemacs.org/pub/xemacs/'.
521      While the `-nH' option can remove the `ftp.xemacs.org/' part, you
522      are still stuck with `pub/xemacs'.  This is where `--cut-dirs'
523      comes in handy; it makes Wget not "see" NUMBER remote directory
524      components.  Here are several examples of how `--cut-dirs' option
525      works.
526
527           No options        -> ftp.xemacs.org/pub/xemacs/
528           -nH               -> pub/xemacs/
529           -nH --cut-dirs=1  -> xemacs/
530           -nH --cut-dirs=2  -> .
531           
532           --cut-dirs=1      -> ftp.xemacs.org/xemacs/
533           ...
534
535      If you just want to get rid of the directory structure, this
536      option is similar to a combination of `-nd' and `-P'.  However,
537      unlike `-nd', `--cut-dirs' does not lose with subdirectories--for
538      instance, with `-nH --cut-dirs=1', a `beta/' subdirectory will be
539      placed to `xemacs/beta', as one would expect.
540
541 `-P PREFIX'
542 `--directory-prefix=PREFIX'
543      Set directory prefix to PREFIX.  The "directory prefix" is the
544      directory where all other files and subdirectories will be saved
545      to, i.e. the top of the retrieval tree.  The default is `.' (the
546      current directory).
547
548 \1f
549 File: wget.info,  Node: HTTP Options,  Next: FTP Options,  Prev: Directory Options,  Up: Invoking
550
551 HTTP Options
552 ============
553
554 `--http-user=USER'
555 `--http-passwd=PASSWORD'
556      Specify the username USER and password PASSWORD on an HTTP server.
557      According to the type of the challenge, Wget will encode them
558      using either the `basic' (insecure) or the `digest' authentication
559      scheme.
560
561      Another way to specify username and password is in the URL itself
562      (*Note URL Format::).  For more information about security issues
563      with Wget, *Note Security Considerations::.
564
565 `-C on/off'
566 `--cache=on/off'
567      When set to off, disable server-side cache.  In this case, Wget
568      will send the remote server an appropriate directive (`Pragma:
569      no-cache') to get the file from the remote service, rather than
570      returning the cached version.  This is especially useful for
571      retrieving and flushing out-of-date documents on proxy servers.
572
573      Caching is allowed by default.
574
575 `--ignore-length'
576      Unfortunately, some HTTP servers (CGI programs, to be more
577      precise) send out bogus `Content-Length' headers, which makes Wget
578      go wild, as it thinks not all the document was retrieved.  You can
579      spot this syndrome if Wget retries getting the same document again
580      and again, each time claiming that the (otherwise normal)
581      connection has closed on the very same byte.
582
583      With this option, Wget will ignore the `Content-Length' header--as
584      if it never existed.
585
586 `--header=ADDITIONAL-HEADER'
587      Define an ADDITIONAL-HEADER to be passed to the HTTP servers.
588      Headers must contain a `:' preceded by one or more non-blank
589      characters, and must not contain newlines.
590
591      You may define more than one additional header by specifying
592      `--header' more than once.
593
594           wget --header='Accept-Charset: iso-8859-2' \
595                --header='Accept-Language: hr'        \
596                  http://fly.cc.fer.hr/
597
598      Specification of an empty string as the header value will clear all
599      previous user-defined headers.
600
601 `--proxy-user=USER'
602 `--proxy-passwd=PASSWORD'
603      Specify the username USER and password PASSWORD for authentication
604      on a proxy server.  Wget will encode them using the `basic'
605      authentication scheme.
606
607 `-s'
608 `--save-headers'
609      Save the headers sent by the HTTP server to the file, preceding the
610      actual contents, with an empty line as the separator.
611
612 `-U AGENT-STRING'
613 `--user-agent=AGENT-STRING'
614      Identify as AGENT-STRING to the HTTP server.
615
616      The HTTP protocol allows the clients to identify themselves using a
617      `User-Agent' header field.  This enables distinguishing the WWW
618      software, usually for statistical purposes or for tracing of
619      protocol violations.  Wget normally identifies as `Wget/VERSION',
620      VERSION being the current version number of Wget.
621
622      However, some sites have been known to impose the policy of
623      tailoring the output according to the `User-Agent'-supplied
624      information.  While conceptually this is not such a bad idea, it
625      has been abused by servers denying information to clients other
626      than `Mozilla' or Microsoft `Internet Explorer'.  This option
627      allows you to change the `User-Agent' line issued by Wget.  Use of
628      this option is discouraged, unless you really know what you are
629      doing.
630
631      *NOTE* that Netscape Communications Corp. has claimed that false
632      transmissions of `Mozilla' as the `User-Agent' are a copyright
633      infringement, which will be prosecuted.  *DO NOT* misrepresent
634      Wget as Mozilla.
635
636 \1f
637 File: wget.info,  Node: FTP Options,  Next: Recursive Retrieval Options,  Prev: HTTP Options,  Up: Invoking
638
639 FTP Options
640 ===========
641
642 `--retr-symlinks'
643      Retrieve symbolic links on FTP sites as if they were plain files,
644      i.e. don't just create links locally.
645
646 `-g on/off'
647 `--glob=on/off'
648      Turn FTP globbing on or off.  Globbing means you may use the
649      shell-like special characters ("wildcards"), like `*', `?', `['
650      and `]' to retrieve more than one file from the same directory at
651      once, like:
652
653           wget ftp://gnjilux.cc.fer.hr/*.msg
654
655      By default, globbing will be turned on if the URL contains a
656      globbing character.  This option may be used to turn globbing on
657      or off permanently.
658
659      You may have to quote the URL to protect it from being expanded by
660      your shell.  Globbing makes Wget look for a directory listing,
661      which is system-specific.  This is why it currently works only
662      with Unix FTP servers (and the ones emulating Unix `ls' output).
663
664 `--passive-ftp'
665      Use the "passive" FTP retrieval scheme, in which the client
666      initiates the data connection.  This is sometimes required for FTP
667      to work behind firewalls.
668
669 \1f
670 File: wget.info,  Node: Recursive Retrieval Options,  Next: Recursive Accept/Reject Options,  Prev: FTP Options,  Up: Invoking
671
672 Recursive Retrieval Options
673 ===========================
674
675 `-r'
676 `--recursive'
677      Turn on recursive retrieving.  *Note Recursive Retrieval:: for more
678      details.
679
680 `-l DEPTH'
681 `--level=DEPTH'
682      Specify recursion maximum depth level DEPTH (*Note Recursive
683      Retrieval::).  The default maximum depth is 5.
684
685 `--delete-after'
686      This option tells Wget to delete every single file it downloads,
687      *after* having done so.  It is useful for pre-fetching popular
688      pages through proxy, e.g.:
689
690           wget -r -nd --delete-after http://whatever.com/~popular/page/
691
692      The `-r' option is to retrieve recursively, and `-nd' not to
693      create directories.
694
695 `-k'
696 `--convert-links'
697      Convert the non-relative links to relative ones locally.  Only the
698      references to the documents actually downloaded will be converted;
699      the rest will be left unchanged.
700
701      Note that only at the end of the download can Wget know which
702      links have been downloaded.  Because of that, much of the work
703      done by `-k' will be performed at the end of the downloads.
704
705 `-K'
706 `--backup-converted'
707      When converting a file, back up the original version with a `.orig'
708      suffix.  Affects the behavior of `-N' (*Note HTTP Time-Stamping
709      Internals::).
710
711 `-m'
712 `--mirror'
713      Turn on options suitable for mirroring.  This option turns on
714      recursion and time-stamping, sets infinite recursion depth and
715      keeps FTP directory listings.  It is currently equivalent to `-r
716      -N -l inf -nr'.
717
718 `-nr'
719 `--dont-remove-listing'
720      Don't remove the temporary `.listing' files generated by FTP
721      retrievals.  Normally, these files contain the raw directory
722      listings received from FTP servers.  Not removing them can be
723      useful to access the full remote file list when running a mirror,
724      or for debugging purposes.
725
726 \1f
727 File: wget.info,  Node: Recursive Accept/Reject Options,  Prev: Recursive Retrieval Options,  Up: Invoking
728
729 Recursive Accept/Reject Options
730 ===============================
731
732 `-A ACCLIST --accept ACCLIST'
733 `-R REJLIST --reject REJLIST'
734      Specify comma-separated lists of file name suffixes or patterns to
735      accept or reject (*Note Types of Files:: for more details).
736
737 `-D DOMAIN-LIST'
738 `--domains=DOMAIN-LIST'
739      Set domains to be accepted and DNS looked-up, where DOMAIN-LIST is
740      a comma-separated list.  Note that it does *not* turn on `-H'.
741      This option speeds things up, even if only one host is spanned
742      (*Note Domain Acceptance::).
743
744 `--exclude-domains DOMAIN-LIST'
745      Exclude the domains given in a comma-separated DOMAIN-LIST from
746      DNS-lookup (*Note Domain Acceptance::).
747
748 `--follow-ftp'
749      Follow FTP links from HTML documents.  Without this option, Wget
750      will ignore all the FTP links.
751
752 `--follow-tags=LIST'
753      Wget has an internal table of HTML tag / attribute pairs that it
754      considers when looking for linked documents during a recursive
755      retrieval.  If a user wants only a subset of those tags to be
756      considered, however, he or she should be specify such tags in a
757      comma-separated LIST with this option.
758
759 `-G LIST'
760 `--ignore-tags=LIST'
761      This is the opposite of the `--follow-tags' option.  To skip
762      certain HTML tags when recursively looking for documents to
763      download, specify them in a comma-separated LIST.  The author of
764      this option likes to use the following command to download a
765      single HTML page and all documents necessary to display it
766      properly:
767
768           wget -Ga,area -H -k -K -nh -r http://SITE/DOCUMENT
769
770 `-H'
771 `--span-hosts'
772      Enable spanning across hosts when doing recursive retrieving
773      (*Note All Hosts::).
774
775 `-L'
776 `--relative'
777      Follow relative links only.  Useful for retrieving a specific home
778      page without any distractions, not even those from the same hosts
779      (*Note Relative Links::).
780
781 `-I LIST'
782 `--include-directories=LIST'
783      Specify a comma-separated list of directories you wish to follow
784      when downloading (*Note Directory-Based Limits:: for more
785      details.)  Elements of LIST may contain wildcards.
786
787 `-X LIST'
788 `--exclude-directories=LIST'
789      Specify a comma-separated list of directories you wish to exclude
790      from download (*Note Directory-Based Limits:: for more details.)
791      Elements of LIST may contain wildcards.
792
793 `-nh'
794 `--no-host-lookup'
795      Disable the time-consuming DNS lookup of almost all hosts (*Note
796      Host Checking::).
797
798 `-np'
799
800 `--no-parent'
801      Do not ever ascend to the parent directory when retrieving
802      recursively.  This is a useful option, since it guarantees that
803      only the files *below* a certain hierarchy will be downloaded.
804      *Note Directory-Based Limits:: for more details.
805
806 \1f
807 File: wget.info,  Node: Recursive Retrieval,  Next: Following Links,  Prev: Invoking,  Up: Top
808
809 Recursive Retrieval
810 *******************
811
812    GNU Wget is capable of traversing parts of the Web (or a single HTTP
813 or FTP server), depth-first following links and directory structure.
814 This is called "recursive" retrieving, or "recursion".
815
816    With HTTP URLs, Wget retrieves and parses the HTML from the given
817 URL, documents, retrieving the files the HTML document was referring
818 to, through markups like `href', or `src'.  If the freshly downloaded
819 file is also of type `text/html', it will be parsed and followed
820 further.
821
822    The maximum "depth" to which the retrieval may descend is specified
823 with the `-l' option (the default maximum depth is five layers).  *Note
824 Recursive Retrieval::.
825
826    When retrieving an FTP URL recursively, Wget will retrieve all the
827 data from the given directory tree (including the subdirectories up to
828 the specified depth) on the remote server, creating its mirror image
829 locally.  FTP retrieval is also limited by the `depth' parameter.
830
831    By default, Wget will create a local directory tree, corresponding to
832 the one found on the remote server.
833
834    Recursive retrieving can find a number of applications, the most
835 important of which is mirroring.  It is also useful for WWW
836 presentations, and any other opportunities where slow network
837 connections should be bypassed by storing the files locally.
838
839    You should be warned that invoking recursion may cause grave
840 overloading on your system, because of the fast exchange of data
841 through the network; all of this may hamper other users' work.  The
842 same stands for the foreign server you are mirroring--the more requests
843 it gets in a rows, the greater is its load.
844
845    Careless retrieving can also fill your file system uncontrollably,
846 which can grind the machine to a halt.
847
848    The load can be minimized by lowering the maximum recursion level
849 (`-l') and/or by lowering the number of retries (`-t').  You may also
850 consider using the `-w' option to slow down your requests to the remote
851 servers, as well as the numerous options to narrow the number of
852 followed links (*Note Following Links::).
853
854    Recursive retrieval is a good thing when used properly.  Please take
855 all precautions not to wreak havoc through carelessness.
856
857 \1f
858 File: wget.info,  Node: Following Links,  Next: Time-Stamping,  Prev: Recursive Retrieval,  Up: Top
859
860 Following Links
861 ***************
862
863    When retrieving recursively, one does not wish to retrieve loads of
864 unnecessary data.  Most of the time the users bear in mind exactly what
865 they want to download, and want Wget to follow only specific links.
866
867    For example, if you wish to download the music archive from
868 `fly.cc.fer.hr', you will not want to download all the home pages that
869 happen to be referenced by an obscure part of the archive.
870
871    Wget possesses several mechanisms that allows you to fine-tune which
872 links it will follow.
873
874 * Menu:
875
876 * Relative Links::         Follow relative links only.
877 * Host Checking::          Follow links on the same host.
878 * Domain Acceptance::      Check on a list of domains.
879 * All Hosts::              No host restrictions.
880 * Types of Files::         Getting only certain files.
881 * Directory-Based Limits:: Getting only certain directories.
882 * FTP Links::              Following FTP links.
883
884 \1f
885 File: wget.info,  Node: Relative Links,  Next: Host Checking,  Prev: Following Links,  Up: Following Links
886
887 Relative Links
888 ==============
889
890    When only relative links are followed (option `-L'), recursive
891 retrieving will never span hosts.  No time-expensive DNS-lookups will
892 be performed, and the process will be very fast, with the minimum
893 strain of the network.  This will suit your needs often, especially when
894 mirroring the output of various `x2html' converters, since they
895 generally output relative links.
896
897 \1f
898 File: wget.info,  Node: Host Checking,  Next: Domain Acceptance,  Prev: Relative Links,  Up: Following Links
899
900 Host Checking
901 =============
902
903    The drawback of following the relative links solely is that humans
904 often tend to mix them with absolute links to the very same host, and
905 the very same page.  In this mode (which is the default mode for
906 following links) all URLs that refer to the same host will be retrieved.
907
908    The problem with this option are the aliases of the hosts and
909 domains.  Thus there is no way for Wget to know that `regoc.srce.hr' and
910 `www.srce.hr' are the same host, or that `fly.cc.fer.hr' is the same as
911 `fly.cc.etf.hr'.  Whenever an absolute link is encountered, the host is
912 DNS-looked-up with `gethostbyname' to check whether we are maybe
913 dealing with the same hosts.  Although the results of `gethostbyname'
914 are cached, it is still a great slowdown, e.g. when dealing with large
915 indices of home pages on different hosts (because each of the hosts
916 must be DNS-resolved to see whether it just *might* be an alias of the
917 starting host).
918
919    To avoid the overhead you may use `-nh', which will turn off
920 DNS-resolving and make Wget compare hosts literally.  This will make
921 things run much faster, but also much less reliable (e.g. `www.srce.hr'
922 and `regoc.srce.hr' will be flagged as different hosts).
923
924    Note that modern HTTP servers allow one IP address to host several
925 "virtual servers", each having its own directory hierarchy.  Such
926 "servers" are distinguished by their hostnames (all of which point to
927 the same IP address); for this to work, a client must send a `Host'
928 header, which is what Wget does.  However, in that case Wget *must not*
929 try to divine a host's "real" address, nor try to use the same hostname
930 for each access, i.e. `-nh' must be turned on.
931
932    In other words, the `-nh' option must be used to enable the
933 retrieval from virtual servers distinguished by their hostnames.  As the
934 number of such server setups grow, the behavior of `-nh' may become the
935 default in the future.
936
937 \1f
938 File: wget.info,  Node: Domain Acceptance,  Next: All Hosts,  Prev: Host Checking,  Up: Following Links
939
940 Domain Acceptance
941 =================
942
943    With the `-D' option you may specify the domains that will be
944 followed.  The hosts the domain of which is not in this list will not be
945 DNS-resolved.  Thus you can specify `-Dmit.edu' just to make sure that
946 *nothing outside of MIT gets looked up*.  This is very important and
947 useful.  It also means that `-D' does *not* imply `-H' (span all
948 hosts), which must be specified explicitly.  Feel free to use this
949 options since it will speed things up, with almost all the reliability
950 of checking for all hosts.  Thus you could invoke
951
952      wget -r -D.hr http://fly.cc.fer.hr/
953
954    to make sure that only the hosts in `.hr' domain get DNS-looked-up
955 for being equal to `fly.cc.fer.hr'.  So `fly.cc.etf.hr' will be checked
956 (only once!) and found equal, but `www.gnu.ai.mit.edu' will not even be
957 checked.
958
959    Of course, domain acceptance can be used to limit the retrieval to
960 particular domains with spanning of hosts in them, but then you must
961 specify `-H' explicitly.  E.g.:
962
963      wget -r -H -Dmit.edu,stanford.edu http://www.mit.edu/
964
965    will start with `http://www.mit.edu/', following links across MIT
966 and Stanford.
967
968    If there are domains you want to exclude specifically, you can do it
969 with `--exclude-domains', which accepts the same type of arguments of
970 `-D', but will *exclude* all the listed domains.  For example, if you
971 want to download all the hosts from `foo.edu' domain, with the
972 exception of `sunsite.foo.edu', you can do it like this:
973
974      wget -rH -Dfoo.edu --exclude-domains sunsite.foo.edu http://www.foo.edu/
975
976 \1f
977 File: wget.info,  Node: All Hosts,  Next: Types of Files,  Prev: Domain Acceptance,  Up: Following Links
978
979 All Hosts
980 =========
981
982    When `-H' is specified without `-D', all hosts are freely spanned.
983 There are no restrictions whatsoever as to what part of the net Wget
984 will go to fetch documents, other than maximum retrieval depth.  If a
985 page references `www.yahoo.com', so be it.  Such an option is rarely
986 useful for itself.
987
988 \1f
989 File: wget.info,  Node: Types of Files,  Next: Directory-Based Limits,  Prev: All Hosts,  Up: Following Links
990
991 Types of Files
992 ==============
993
994    When downloading material from the web, you will often want to
995 restrict the retrieval to only certain file types.  For example, if you
996 are interested in downloading GIFs, you will not be overjoyed to get
997 loads of PostScript documents, and vice versa.
998
999    Wget offers two options to deal with this problem.  Each option
1000 description lists a short name, a long name, and the equivalent command
1001 in `.wgetrc'.
1002
1003 `-A ACCLIST'
1004 `--accept ACCLIST'
1005 `accept = ACCLIST'
1006      The argument to `--accept' option is a list of file suffixes or
1007      patterns that Wget will download during recursive retrieval.  A
1008      suffix is the ending part of a file, and consists of "normal"
1009      letters, e.g. `gif' or `.jpg'.  A matching pattern contains
1010      shell-like wildcards, e.g. `books*' or `zelazny*196[0-9]*'.
1011
1012      So, specifying `wget -A gif,jpg' will make Wget download only the
1013      files ending with `gif' or `jpg', i.e. GIFs and JPEGs.  On the
1014      other hand, `wget -A "zelazny*196[0-9]*"' will download only files
1015      beginning with `zelazny' and containing numbers from 1960 to 1969
1016      anywhere within.  Look up the manual of your shell for a
1017      description of how pattern matching works.
1018
1019      Of course, any number of suffixes and patterns can be combined
1020      into a comma-separated list, and given as an argument to `-A'.
1021
1022 `-R REJLIST'
1023 `--reject REJLIST'
1024 `reject = REJLIST'
1025      The `--reject' option works the same way as `--accept', only its
1026      logic is the reverse; Wget will download all files *except* the
1027      ones matching the suffixes (or patterns) in the list.
1028
1029      So, if you want to download a whole page except for the cumbersome
1030      MPEGs and .AU files, you can use `wget -R mpg,mpeg,au'.
1031      Analogously, to download all files except the ones beginning with
1032      `bjork', use `wget -R "bjork*"'.  The quotes are to prevent
1033      expansion by the shell.
1034
1035    The `-A' and `-R' options may be combined to achieve even better
1036 fine-tuning of which files to retrieve.  E.g. `wget -A "*zelazny*" -R
1037 .ps' will download all the files having `zelazny' as a part of their
1038 name, but *not* the PostScript files.
1039
1040    Note that these two options do not affect the downloading of HTML
1041 files; Wget must load all the HTMLs to know where to go at
1042 all--recursive retrieval would make no sense otherwise.
1043
1044 \1f
1045 File: wget.info,  Node: Directory-Based Limits,  Next: FTP Links,  Prev: Types of Files,  Up: Following Links
1046
1047 Directory-Based Limits
1048 ======================
1049
1050    Regardless of other link-following facilities, it is often useful to
1051 place the restriction of what files to retrieve based on the directories
1052 those files are placed in.  There can be many reasons for this--the
1053 home pages may be organized in a reasonable directory structure; or some
1054 directories may contain useless information, e.g. `/cgi-bin' or `/dev'
1055 directories.
1056
1057    Wget offers three different options to deal with this requirement.
1058 Each option description lists a short name, a long name, and the
1059 equivalent command in `.wgetrc'.
1060
1061 `-I LIST'
1062 `--include LIST'
1063 `include_directories = LIST'
1064      `-I' option accepts a comma-separated list of directories included
1065      in the retrieval.  Any other directories will simply be ignored.
1066      The directories are absolute paths.
1067
1068      So, if you wish to download from `http://host/people/bozo/'
1069      following only links to bozo's colleagues in the `/people'
1070      directory and the bogus scripts in `/cgi-bin', you can specify:
1071
1072           wget -I /people,/cgi-bin http://host/people/bozo/
1073
1074 `-X LIST'
1075 `--exclude LIST'
1076 `exclude_directories = LIST'
1077      `-X' option is exactly the reverse of `-I'--this is a list of
1078      directories *excluded* from the download.  E.g. if you do not want
1079      Wget to download things from `/cgi-bin' directory, specify `-X
1080      /cgi-bin' on the command line.
1081
1082      The same as with `-A'/`-R', these two options can be combined to
1083      get a better fine-tuning of downloading subdirectories.  E.g. if
1084      you want to load all the files from `/pub' hierarchy except for
1085      `/pub/worthless', specify `-I/pub -X/pub/worthless'.
1086
1087 `-np'
1088 `--no-parent'
1089 `no_parent = on'
1090      The simplest, and often very useful way of limiting directories is
1091      disallowing retrieval of the links that refer to the hierarchy
1092      "above" than the beginning directory, i.e. disallowing ascent to
1093      the parent directory/directories.
1094
1095      The `--no-parent' option (short `-np') is useful in this case.
1096      Using it guarantees that you will never leave the existing
1097      hierarchy.  Supposing you issue Wget with:
1098
1099           wget -r --no-parent http://somehost/~luzer/my-archive/
1100
1101      You may rest assured that none of the references to
1102      `/~his-girls-homepage/' or `/~luzer/all-my-mpegs/' will be
1103      followed.  Only the archive you are interested in will be
1104      downloaded.  Essentially, `--no-parent' is similar to
1105      `-I/~luzer/my-archive', only it handles redirections in a more
1106      intelligent fashion.
1107
1108 \1f
1109 File: wget.info,  Node: FTP Links,  Prev: Directory-Based Limits,  Up: Following Links
1110
1111 Following FTP Links
1112 ===================
1113
1114    The rules for FTP are somewhat specific, as it is necessary for them
1115 to be.  FTP links in HTML documents are often included for purposes of
1116 reference, and it is often inconvenient to download them by default.
1117
1118    To have FTP links followed from HTML documents, you need to specify
1119 the `--follow-ftp' option.  Having done that, FTP links will span hosts
1120 regardless of `-H' setting.  This is logical, as FTP links rarely point
1121 to the same host where the HTTP server resides.  For similar reasons,
1122 the `-L' options has no effect on such downloads.  On the other hand,
1123 domain acceptance (`-D') and suffix rules (`-A' and `-R') apply
1124 normally.
1125
1126    Also note that followed links to FTP directories will not be
1127 retrieved recursively further.
1128
1129 \1f
1130 File: wget.info,  Node: Time-Stamping,  Next: Startup File,  Prev: Following Links,  Up: Top
1131
1132 Time-Stamping
1133 *************
1134
1135    One of the most important aspects of mirroring information from the
1136 Internet is updating your archives.
1137
1138    Downloading the whole archive again and again, just to replace a few
1139 changed files is expensive, both in terms of wasted bandwidth and money,
1140 and the time to do the update.  This is why all the mirroring tools
1141 offer the option of incremental updating.
1142
1143    Such an updating mechanism means that the remote server is scanned in
1144 search of "new" files.  Only those new files will be downloaded in the
1145 place of the old ones.
1146
1147    A file is considered new if one of these two conditions are met:
1148
1149   1. A file of that name does not already exist locally.
1150
1151   2. A file of that name does exist, but the remote file was modified
1152      more recently than the local file.
1153
1154    To implement this, the program needs to be aware of the time of last
1155 modification of both remote and local files.  Such information are
1156 called the "time-stamps".
1157
1158    The time-stamping in GNU Wget is turned on using `--timestamping'
1159 (`-N') option, or through `timestamping = on' directive in `.wgetrc'.
1160 With this option, for each file it intends to download, Wget will check
1161 whether a local file of the same name exists.  If it does, and the
1162 remote file is older, Wget will not download it.
1163
1164    If the local file does not exist, or the sizes of the files do not
1165 match, Wget will download the remote file no matter what the time-stamps
1166 say.
1167
1168 * Menu:
1169
1170 * Time-Stamping Usage::
1171 * HTTP Time-Stamping Internals::
1172 * FTP Time-Stamping Internals::
1173
1174 \1f
1175 File: wget.info,  Node: Time-Stamping Usage,  Next: HTTP Time-Stamping Internals,  Prev: Time-Stamping,  Up: Time-Stamping
1176
1177 Time-Stamping Usage
1178 ===================
1179
1180    The usage of time-stamping is simple.  Say you would like to
1181 download a file so that it keeps its date of modification.
1182
1183      wget -S http://www.gnu.ai.mit.edu/
1184
1185    A simple `ls -l' shows that the time stamp on the local file equals
1186 the state of the `Last-Modified' header, as returned by the server.  As
1187 you can see, the time-stamping info is preserved locally, even without
1188 `-N'.
1189
1190    Several days later, you would like Wget to check if the remote file
1191 has changed, and download it if it has.
1192
1193      wget -N http://www.gnu.ai.mit.edu/
1194
1195    Wget will ask the server for the last-modified date.  If the local
1196 file is newer, the remote file will not be re-fetched.  However, if the
1197 remote file is more recent, Wget will proceed fetching it normally.
1198
1199    The same goes for FTP.  For example:
1200
1201      wget ftp://ftp.ifi.uio.no/pub/emacs/gnus/*
1202
1203    `ls' will show that the timestamps are set according to the state on
1204 the remote server.  Reissuing the command with `-N' will make Wget
1205 re-fetch *only* the files that have been modified.
1206
1207    In both HTTP and FTP retrieval Wget will time-stamp the local file
1208 correctly (with or without `-N') if it gets the stamps, i.e. gets the
1209 directory listing for FTP or the `Last-Modified' header for HTTP.
1210
1211    If you wished to mirror the GNU archive every week, you would use the
1212 following command every week:
1213
1214      wget --timestamping -r ftp://prep.ai.mit.edu/pub/gnu/
1215
1216 \1f
1217 File: wget.info,  Node: HTTP Time-Stamping Internals,  Next: FTP Time-Stamping Internals,  Prev: Time-Stamping Usage,  Up: Time-Stamping
1218
1219 HTTP Time-Stamping Internals
1220 ============================
1221
1222    Time-stamping in HTTP is implemented by checking of the
1223 `Last-Modified' header.  If you wish to retrieve the file `foo.html'
1224 through HTTP, Wget will check whether `foo.html' exists locally.  If it
1225 doesn't, `foo.html' will be retrieved unconditionally.
1226
1227    If the file does exist locally, Wget will first check its local
1228 time-stamp (similar to the way `ls -l' checks it), and then send a
1229 `HEAD' request to the remote server, demanding the information on the
1230 remote file.
1231
1232    The `Last-Modified' header is examined to find which file was
1233 modified more recently (which makes it "newer").  If the remote file is
1234 newer, it will be downloaded; if it is older, Wget will give up.(1)
1235
1236    When `--backup-converted' (`-K') is specified in conjunction with
1237 `-N', server file `X' is compared to local file `X.orig', if extant,
1238 rather than being compared to local file `X', which will always differ
1239 if it's been converted by `--convert-links' (`-k').
1240
1241    Arguably, HTTP time-stamping should be implemented using the
1242 `If-Modified-Since' request.
1243
1244    ---------- Footnotes ----------
1245
1246    (1) As an additional check, Wget will look at the `Content-Length'
1247 header, and compare the sizes; if they are not the same, the remote
1248 file will be downloaded no matter what the time-stamp says.
1249
1250 \1f
1251 File: wget.info,  Node: FTP Time-Stamping Internals,  Prev: HTTP Time-Stamping Internals,  Up: Time-Stamping
1252
1253 FTP Time-Stamping Internals
1254 ===========================
1255
1256    In theory, FTP time-stamping works much the same as HTTP, only FTP
1257 has no headers--time-stamps must be received from the directory
1258 listings.
1259
1260    For each directory files must be retrieved from, Wget will use the
1261 `LIST' command to get the listing.  It will try to analyze the listing,
1262 assuming that it is a Unix `ls -l' listing, and extract the
1263 time-stamps.  The rest is exactly the same as for HTTP.
1264
1265    Assumption that every directory listing is a Unix-style listing may
1266 sound extremely constraining, but in practice it is not, as many
1267 non-Unix FTP servers use the Unixoid listing format because most (all?)
1268 of the clients understand it.  Bear in mind that RFC959 defines no
1269 standard way to get a file list, let alone the time-stamps.  We can
1270 only hope that a future standard will define this.
1271
1272    Another non-standard solution includes the use of `MDTM' command
1273 that is supported by some FTP servers (including the popular
1274 `wu-ftpd'), which returns the exact time of the specified file.  Wget
1275 may support this command in the future.
1276