]> sjero.net Git - wget/blob - doc/wget.info-2
[svn] Initial revision
[wget] / doc / wget.info-2
1 This is Info file wget.info, produced by Makeinfo version 1.67 from the
2 input file ./wget.texi.
3
4 INFO-DIR-SECTION Net Utilities
5 INFO-DIR-SECTION World Wide Web
6 START-INFO-DIR-ENTRY
7 * Wget: (wget).         The non-interactive network downloader.
8 END-INFO-DIR-ENTRY
9
10    This file documents the the GNU Wget utility for downloading network
11 data.
12
13    Copyright (C) 1996, 1997, 1998 Free Software Foundation, Inc.
14
15    Permission is granted to make and distribute verbatim copies of this
16 manual provided the copyright notice and this permission notice are
17 preserved on all copies.
18
19    Permission is granted to copy and distribute modified versions of
20 this manual under the conditions for verbatim copying, provided also
21 that the sections entitled "Copying" and "GNU General Public License"
22 are included exactly as in the original, and provided that the entire
23 resulting derived work is distributed under the terms of a permission
24 notice identical to this one.
25
26 \1f
27 File: wget.info,  Node: Wgetrc Syntax,  Next: Wgetrc Commands,  Prev: Wgetrc Location,  Up: Startup File
28
29 Wgetrc Syntax
30 =============
31
32    The syntax of a wgetrc command is simple:
33
34      variable = value
35
36    The "variable" will also be called "command".  Valid "values" are
37 different for different commands.
38
39    The commands are case-insensitive and underscore-insensitive.  Thus
40 `DIr__PrefiX' is the same as `dirprefix'.  Empty lines, lines beginning
41 with `#' and lines containing white-space only are discarded.
42
43    Commands that expect a comma-separated list will clear the list on an
44 empty command.  So, if you wish to reset the rejection list specified in
45 global `wgetrc', you can do it with:
46
47      reject =
48
49 \1f
50 File: wget.info,  Node: Wgetrc Commands,  Next: Sample Wgetrc,  Prev: Wgetrc Syntax,  Up: Startup File
51
52 Wgetrc Commands
53 ===============
54
55    The complete set of commands is listed below, the letter after `='
56 denoting the value the command takes. It is `on/off' for `on' or `off'
57 (which can also be `1' or `0'), STRING for any non-empty string or N
58 for a positive integer.  For example, you may specify `use_proxy = off'
59 to disable use of proxy servers by default. You may use `inf' for
60 infinite values, where appropriate.
61
62    Most of the commands have their equivalent command-line option
63 (*Note Invoking::), except some more obscure or rarely used ones.
64
65 accept/reject = STRING
66      Same as `-A'/`-R' (*Note Types of Files::).
67
68 add_hostdir = on/off
69      Enable/disable host-prefixed file names.  `-nH' disables it.
70
71 continue = on/off
72      Enable/disable continuation of the retrieval, the same as `-c'
73      (which enables it).
74
75 background = on/off
76      Enable/disable going to background, the same as `-b' (which enables
77      it).
78
79 base = STRING
80      Set base for relative URLs, the same as `-B'.
81
82 cache = on/off
83      When set to off, disallow server-caching.  See the `-C' option.
84
85 convert links = on/off
86      Convert non-relative links locally.  The same as `-k'.
87
88 cut_dirs = N
89      Ignore N remote directory components.
90
91 debug = on/off
92      Debug mode, same as `-d'.
93
94 delete_after = on/off
95      Delete after download, the same as `--delete-after'.
96
97 dir_prefix = STRING
98      Top of directory tree, the same as `-P'.
99
100 dirstruct = on/off
101      Turning dirstruct on or off, the same as `-x' or `-nd',
102      respectively.
103
104 domains = STRING
105      Same as `-D' (*Note Domain Acceptance::).
106
107 dot_bytes = N
108      Specify the number of bytes "contained" in a dot, as seen
109      throughout the retrieval (1024 by default).  You can postfix the
110      value with `k' or `m', representing kilobytes and megabytes,
111      respectively.  With dot settings you can tailor the dot retrieval
112      to suit your needs, or you can use the predefined "styles" (*Note
113      Download Options::).
114
115 dots_in_line = N
116      Specify the number of dots that will be printed in each line
117      throughout the retrieval (50 by default).
118
119 dot_spacing = N
120      Specify the number of dots in a single cluster (10 by default).
121
122 dot_style = STRING
123      Specify the dot retrieval "style", as with `--dot-style'.
124
125 exclude_directories = STRING
126      Specify a comma-separated list of directories you wish to exclude
127      from download, the same as `-X' (*Note Directory-Based Limits::).
128
129 exclude_domains = STRING
130      Same as `--exclude-domains' (*Note Domain Acceptance::).
131
132 follow_ftp = on/off
133      Follow FTP links from HTML documents, the same as `-f'.
134
135 force_html = on/off
136      If set to on, force the input filename to be regarded as an HTML
137      document, the same as `-F'.
138
139 ftp_proxy = STRING
140      Use STRING as FTP proxy, instead of the one specified in
141      environment.
142
143 glob = on/off
144      Turn globbing on/off, the same as `-g'.
145
146 header = STRING
147      Define an additional header, like `--header'.
148
149 http_passwd = STRING
150      Set HTTP password.
151
152 http_proxy = STRING
153      Use STRING as HTTP proxy, instead of the one specified in
154      environment.
155
156 http_user = STRING
157      Set HTTP user to STRING.
158
159 ignore_length = on/off
160      When set to on, ignore `Content-Length' header; the same as
161      `--ignore-length'.
162
163 include_directories = STRING
164      Specify a comma-separated list of directories you wish to follow
165      when downloading, the same as `-I'.
166
167 input = STRING
168      Read the URLs from STRING, like `-i'.
169
170 kill_longer = on/off
171      Consider data longer than specified in content-length header as
172      invalid (and retry getting it). The default behaviour is to save
173      as much data as there is, provided there is more than or equal to
174      the value in `Content-Length'.
175
176 logfile = STRING
177      Set logfile, the same as `-o'.
178
179 login = STRING
180      Your user name on the remote machine, for FTP.  Defaults to
181      `anonymous'.
182
183 mirror = on/off
184      Turn mirroring on/off.  The same as `-m'.
185
186 netrc = on/off
187      Turn reading netrc on or off.
188
189 noclobber = on/off
190      Same as `-nc'.
191
192 no_parent = on/off
193      Disallow retrieving outside the directory hierarchy, like
194      `--no-parent' (*Note Directory-Based Limits::).
195
196 no_proxy = STRING
197      Use STRING as the comma-separated list of domains to avoid in
198      proxy loading, instead of the one specified in environment.
199
200 output_document = STRING
201      Set the output filename, the same as `-O'.
202
203 passive_ftp = on/off
204      Set passive FTP, the same as `--passive-ftp'.
205
206 passwd = STRING
207      Set your FTP password to PASSWORD.  Without this setting, the
208      password defaults to `username@hostname.domainname'.
209
210 proxy_user = STRING
211      Set proxy authentication user name to STRING, like `--proxy-user'.
212
213 proxy_passwd = STRING
214      Set proxy authentication password to STRING, like `--proxy-passwd'.
215
216 quiet = on/off
217      Quiet mode, the same as `-q'.
218
219 quota = QUOTA
220      Specify the download quota, which is useful to put in global
221      wgetrc. When download quota is specified, Wget will stop retrieving
222      after the download sum has become greater than quota.  The quota
223      can be specified in bytes (default), kbytes `k' appended) or mbytes
224      (`m' appended).  Thus `quota = 5m' will set the quota to 5 mbytes.
225      Note that the user's startup file overrides system settings.
226
227 reclevel = N
228      Recursion level, the same as `-l'.
229
230 recursive = on/off
231      Recursive on/off, the same as `-r'.
232
233 relative_only = on/off
234      Follow only relative links, the same as `-L' (*Note Relative
235      Links::).
236
237 remove_listing = on/off
238      If set to on, remove FTP listings downloaded by Wget.  Setting it
239      to off is the same as `-nr'.
240
241 retr_symlinks = on/off
242      When set to on, retrieve symbolic links as if they were plain
243      files; the same as `--retr-symlinks'.
244
245 robots = on/off
246      Use (or not) `/robots.txt' file (*Note Robots::).  Be sure to know
247      what you are doing before changing the default (which is `on').
248
249 server_response = on/off
250      Choose whether or not to print the HTTP and FTP server responses,
251      the same as `-S'.
252
253 simple_host_check = on/off
254      Same as `-nh' (*Note Host Checking::).
255
256 span_hosts = on/off
257      Same as `-H'.
258
259 timeout = N
260      Set timeout value, the same as `-T'.
261
262 timestamping = on/off
263      Turn timestamping on/off. The same as `-N' (*Note Time-Stamping::).
264
265 tries = N
266      Set number of retries per URL, the same as `-t'.
267
268 use_proxy = on/off
269      Turn proxy support on/off. The same as `-Y'.
270
271 verbose = on/off
272      Turn verbose on/off, the same as `-v'/`-nv'.
273
274 wait = N
275      Wait N seconds between retrievals, the same as `-w'.
276
277 \1f
278 File: wget.info,  Node: Sample Wgetrc,  Prev: Wgetrc Commands,  Up: Startup File
279
280 Sample Wgetrc
281 =============
282
283    This is the sample initialization file, as given in the distribution.
284 It is divided in two section--one for global usage (suitable for global
285 startup file), and one for local usage (suitable for `$HOME/.wgetrc').
286 Be careful about the things you change.
287
288    Note that all the lines are commented out.  For any line to have
289 effect, you must remove the `#' prefix at the beginning of line.
290
291      ###
292      ### Sample Wget initialization file .wgetrc
293      ###
294      
295      ## You can use this file to change the default behaviour of wget or to
296      ## avoid having to type many many command-line options. This file does
297      ## not contain a comprehensive list of commands -- look at the manual
298      ## to find out what you can put into this file.
299      ##
300      ## Wget initialization file can reside in /usr/local/etc/wgetrc
301      ## (global, for all users) or $HOME/.wgetrc (for a single user).
302      ##
303      ## To use any of the settings in this file, you will have to uncomment
304      ## them (and probably change them).
305      
306      
307      ##
308      ## Global settings (useful for setting up in /usr/local/etc/wgetrc).
309      ## Think well before you change them, since they may reduce wget's
310      ## functionality, and make it behave contrary to the documentation:
311      ##
312      
313      # You can set retrieve quota for beginners by specifying a value
314      # optionally followed by 'K' (kilobytes) or 'M' (megabytes).  The
315      # default quota is unlimited.
316      #quota = inf
317      
318      # You can lower (or raise) the default number of retries when
319      # downloading a file (default is 20).
320      #tries = 20
321      
322      # Lowering the maximum depth of the recursive retrieval is handy to
323      # prevent newbies from going too "deep" when they unwittingly start
324      # the recursive retrieval.  The default is 5.
325      #reclevel = 5
326      
327      # Many sites are behind firewalls that do not allow initiation of
328      # connections from the outside.  On these sites you have to use the
329      # `passive' feature of FTP.  If you are behind such a firewall, you
330      # can turn this on to make Wget use passive FTP by default.
331      #passive_ftp = off
332      
333      
334      ##
335      ## Local settings (for a user to set in his $HOME/.wgetrc).  It is
336      ## *highly* undesirable to put these settings in the global file, since
337      ## they are potentially dangerous to "normal" users.
338      ##
339      ## Even when setting up your own ~/.wgetrc, you should know what you
340      ## are doing before doing so.
341      ##
342      
343      # Set this to on to use timestamping by default:
344      #timestamping = off
345      
346      # It is a good idea to make Wget send your email address in a `From:'
347      # header with your request (so that server administrators can contact
348      # you in case of errors).  Wget does *not* send `From:' by default.
349      #header = From: Your Name <username@site.domain>
350      
351      # You can set up other headers, like Accept-Language.  Accept-Language
352      # is *not* sent by default.
353      #header = Accept-Language: en
354      
355      # You can set the default proxy for Wget to use.  It will override the
356      # value in the environment.
357      #http_proxy = http://proxy.yoyodyne.com:18023/
358      
359      # If you do not want to use proxy at all, set this to off.
360      #use_proxy = on
361      
362      # You can customize the retrieval outlook.  Valid options are default,
363      # binary, mega and micro.
364      #dot_style = default
365      
366      # Setting this to off makes Wget not download /robots.txt.  Be sure to
367      # know *exactly* what /robots.txt is and how it is used before changing
368      # the default!
369      #robots = on
370      
371      # It can be useful to make Wget wait between connections.  Set this to
372      # the number of seconds you want Wget to wait.
373      #wait = 0
374      
375      # You can force creating directory structure, even if a single is being
376      # retrieved, by setting this to on.
377      #dirstruct = off
378      
379      # You can turn on recursive retrieving by default (don't do this if
380      # you are not sure you know what it means) by setting this to on.
381      #recursive = off
382      
383      # To have Wget follow FTP links from HTML files by default, set this
384      # to on:
385      #follow_ftp = off
386
387 \1f
388 File: wget.info,  Node: Examples,  Next: Various,  Prev: Startup File,  Up: Top
389
390 Examples
391 ********
392
393    The examples are classified into three sections, because of clarity.
394 The first section is a tutorial for beginners.  The second section
395 explains some of the more complex program features.  The third section
396 contains advice for mirror administrators, as well as even more complex
397 features (that some would call perverted).
398
399 * Menu:
400
401 * Simple Usage::        Simple, basic usage of the program.
402 * Advanced Usage::      Advanced techniques of usage.
403 * Guru Usage::          Mirroring and the hairy stuff.
404
405 \1f
406 File: wget.info,  Node: Simple Usage,  Next: Advanced Usage,  Prev: Examples,  Up: Examples
407
408 Simple Usage
409 ============
410
411    * Say you want to download a URL.  Just type:
412
413           wget http://fly.cc.fer.hr/
414
415      The response will be something like:
416
417           --13:30:45--  http://fly.cc.fer.hr:80/en/
418                      => `index.html'
419           Connecting to fly.cc.fer.hr:80... connected!
420           HTTP request sent, awaiting response... 200 OK
421           Length: 4,694 [text/html]
422           
423               0K -> ....                                                   [100%]
424           
425           13:30:46 (23.75 KB/s) - `index.html' saved [4694/4694]
426
427    * But what will happen if the connection is slow, and the file is
428      lengthy?  The connection will probably fail before the whole file
429      is retrieved, more than once.  In this case, Wget will try getting
430      the file until it either gets the whole of it, or exceeds the
431      default number of retries (this being 20).  It is easy to change
432      the number of tries to 45, to insure that the whole file will
433      arrive safely:
434
435           wget --tries=45 http://fly.cc.fer.hr/jpg/flyweb.jpg
436
437    * Now let's leave Wget to work in the background, and write its
438      progress to log file `log'.  It is tiring to type `--tries', so we
439      shall use `-t'.
440
441           wget -t 45 -o log http://fly.cc.fer.hr/jpg/flyweb.jpg &
442
443      The ampersand at the end of the line makes sure that Wget works in
444      the background.  To unlimit the number of retries, use `-t inf'.
445
446    * The usage of FTP is as simple.  Wget will take care of login and
447      password.
448
449           $ wget ftp://gnjilux.cc.fer.hr/welcome.msg
450           --10:08:47--  ftp://gnjilux.cc.fer.hr:21/welcome.msg
451                      => `welcome.msg'
452           Connecting to gnjilux.cc.fer.hr:21... connected!
453           Logging in as anonymous ... Logged in!
454           ==> TYPE I ... done.  ==> CWD not needed.
455           ==> PORT ... done.    ==> RETR welcome.msg ... done.
456           Length: 1,340 (unauthoritative)
457           
458               0K -> .                                                      [100%]
459           
460           10:08:48 (1.28 MB/s) - `welcome.msg' saved [1340]
461
462    * If you specify a directory, Wget will retrieve the directory
463      listing, parse it and convert it to HTML.  Try:
464
465           wget ftp://prep.ai.mit.edu/pub/gnu/
466           lynx index.html
467
468 \1f
469 File: wget.info,  Node: Advanced Usage,  Next: Guru Usage,  Prev: Simple Usage,  Up: Examples
470
471 Advanced Usage
472 ==============
473
474    * You would like to read the list of URLs from a file?  Not a problem
475      with that:
476
477           wget -i file
478
479      If you specify `-' as file name, the URLs will be read from
480      standard input.
481
482    * Create a mirror image of GNU WWW site (with the same directory
483      structure the original has) with only one try per document, saving
484      the log of the activities to `gnulog':
485
486           wget -r -t1 http://www.gnu.ai.mit.edu/ -o gnulog
487
488    * Retrieve the first layer of yahoo links:
489
490           wget -r -l1 http://www.yahoo.com/
491
492    * Retrieve the index.html of `www.lycos.com', showing the original
493      server headers:
494
495           wget -S http://www.lycos.com/
496
497    * Save the server headers with the file:
498           wget -s http://www.lycos.com/
499           more index.html
500
501    * Retrieve the first two levels of `wuarchive.wustl.edu', saving them
502      to /tmp.
503
504           wget -P/tmp -l2 ftp://wuarchive.wustl.edu/
505
506    * You want to download all the GIFs from an HTTP directory.  `wget
507      http://host/dir/*.gif' doesn't work, since HTTP retrieval does not
508      support globbing.  In that case, use:
509
510           wget -r -l1 --no-parent -A.gif http://host/dir/
511
512      It is a bit of a kludge, but it works.  `-r -l1' means to retrieve
513      recursively (*Note Recursive Retrieval::), with maximum depth of 1.
514      `--no-parent' means that references to the parent directory are
515      ignored (*Note Directory-Based Limits::), and `-A.gif' means to
516      download only the GIF files.  `-A "*.gif"' would have worked too.
517
518    * Suppose you were in the middle of downloading, when Wget was
519      interrupted.  Now you do not want to clobber the files already
520      present.  It would be:
521
522           wget -nc -r http://www.gnu.ai.mit.edu/
523
524    * If you want to encode your own username and password to HTTP or
525      FTP, use the appropriate URL syntax (*Note URL Format::).
526
527           wget ftp://hniksic:mypassword@jagor.srce.hr/.emacs
528
529    * If you do not like the default retrieval visualization (1K dots
530      with 10 dots per cluster and 50 dots per line), you can customize
531      it through dot settings (*Note Wgetrc Commands::).  For example,
532      many people like the "binary" style of retrieval, with 8K dots and
533      512K lines:
534
535           wget --dot-style=binary ftp://prep.ai.mit.edu/pub/gnu/README
536
537      You can experiment with other styles, like:
538
539           wget --dot-style=mega ftp://ftp.xemacs.org/pub/xemacs/xemacs-20.4/xemacs-20.4.tar.gz
540           wget --dot-style=micro http://fly.cc.fer.hr/
541
542      To make these settings permanent, put them in your `.wgetrc', as
543      described before (*Note Sample Wgetrc::).
544
545 \1f
546 File: wget.info,  Node: Guru Usage,  Prev: Advanced Usage,  Up: Examples
547
548 Guru Usage
549 ==========
550
551    * If you wish Wget to keep a mirror of a page (or FTP
552      subdirectories), use `--mirror' (`-m'), which is the shorthand for
553      `-r -N'.  You can put Wget in the crontab file asking it to
554      recheck a site each Sunday:
555
556           crontab
557           0 0 * * 0 wget --mirror ftp://ftp.xemacs.org/pub/xemacs/ -o /home/me/weeklog
558
559    * You may wish to do the same with someone's home page.  But you do
560      not want to download all those images--you're only interested in
561      HTML.
562
563           wget --mirror -A.html http://www.w3.org/
564
565    * But what about mirroring the hosts networkologically close to you?
566      It seems so awfully slow because of all that DNS resolving.  Just
567      use `-D' (*Note Domain Acceptance::).
568
569           wget -rN -Dsrce.hr http://www.srce.hr/
570
571      Now Wget will correctly find out that `regoc.srce.hr' is the same
572      as `www.srce.hr', but will not even take into consideration the
573      link to `www.mit.edu'.
574
575    * You have a presentation and would like the dumb absolute links to
576      be converted to relative?  Use `-k':
577
578           wget -k -r URL
579
580    * You would like the output documents to go to standard output
581      instead of to files?  OK, but Wget will automatically shut up
582      (turn on `--quiet') to prevent mixing of Wget output and the
583      retrieved documents.
584
585           wget -O - http://jagor.srce.hr/ http://www.srce.hr/
586
587      You can also combine the two options and make weird pipelines to
588      retrieve the documents from remote hotlists:
589
590           wget -O - http://cool.list.com/ | wget --force-html -i -
591
592 \1f
593 File: wget.info,  Node: Various,  Next: Appendices,  Prev: Examples,  Up: Top
594
595 Various
596 *******
597
598    This chapter contains all the stuff that could not fit anywhere else.
599
600 * Menu:
601
602 * Proxies::             Support for proxy servers
603 * Distribution::        Getting the latest version.
604 * Mailing List::        Wget mailing list for announcements and discussion.
605 * Reporting Bugs::      How and where to report bugs.
606 * Portability::         The systems Wget works on.
607 * Signals::             Signal-handling performed by Wget.
608
609 \1f
610 File: wget.info,  Node: Proxies,  Next: Distribution,  Prev: Various,  Up: Various
611
612 Proxies
613 =======
614
615    "Proxies" are special-purpose HTTP servers designed to transfer data
616 from remote servers to local clients.  One typical use of proxies is
617 lightening network load for users behind a slow connection.  This is
618 achieved by channeling all HTTP and FTP requests through the proxy
619 which caches the transferred data.  When a cached resource is requested
620 again, proxy will return the data from cache.  Another use for proxies
621 is for companies that separate (for security reasons) their internal
622 networks from the rest of Internet.  In order to obtain information
623 from the Web, their users connect and retrieve remote data using an
624 authorized proxy.
625
626    Wget supports proxies for both HTTP and FTP retrievals.  The
627 standard way to specify proxy location, which Wget recognizes, is using
628 the following environment variables:
629
630 `http_proxy'
631      This variable should contain the URL of the proxy for HTTP
632      connections.
633
634 `ftp_proxy'
635      This variable should contain the URL of the proxy for HTTP
636      connections.  It is quite common that HTTP_PROXY and FTP_PROXY are
637      set to the same URL.
638
639 `no_proxy'
640      This variable should contain a comma-separated list of domain
641      extensions proxy should *not* be used for.  For instance, if the
642      value of `no_proxy' is `.mit.edu', proxy will not be used to
643      retrieve documents from MIT.
644
645    In addition to the environment variables, proxy location and settings
646 may be specified from within Wget itself.
647
648 `-Y on/off'
649 `--proxy=on/off'
650 `proxy = on/off'
651      This option may be used to turn the proxy support on or off.  Proxy
652      support is on by default, provided that the appropriate environment
653      variables are set.
654
655 `http_proxy = URL'
656 `ftp_proxy = URL'
657 `no_proxy = STRING'
658      These startup file variables allow you to override the proxy
659      settings specified by the environment.
660
661    Some proxy servers require authorization to enable you to use them.
662 The authorization consists of "username" and "password", which must be
663 sent by Wget.  As with HTTP authorization, several authentication
664 schemes exist.  For proxy authorization only the `Basic' authentication
665 scheme is currently implemented.
666
667    You may specify your username and password either through the proxy
668 URL or through the command-line options.  Assuming that the company's
669 proxy is located at `proxy.srce.hr' at port 8001, a proxy URL location
670 containing authorization data might look like this:
671
672      http://hniksic:mypassword@proxy.company.com:8001/
673
674    Alternatively, you may use the `proxy-user' and `proxy-password'
675 options, and the equivalent `.wgetrc' settings `proxy_user' and
676 `proxy_passwd' to set the proxy username and password.
677
678 \1f
679 File: wget.info,  Node: Distribution,  Next: Mailing List,  Prev: Proxies,  Up: Various
680
681 Distribution
682 ============
683
684    Like all GNU utilities, the latest version of Wget can be found at
685 the master GNU archive site prep.ai.mit.edu, and its mirrors.  For
686 example, Wget 1.5.3 can be found at
687 `ftp://prep.ai.mit.edu/pub/gnu/wget-1.5.3.tar.gz'
688
689 \1f
690 File: wget.info,  Node: Mailing List,  Next: Reporting Bugs,  Prev: Distribution,  Up: Various
691
692 Mailing List
693 ============
694
695    Wget has its own mailing list at <wget@sunsite.auc.dk>, thanks to
696 Karsten Thygesen.  The mailing list is for discussion of Wget features
697 and web, reporting Wget bugs (those that you think may be of interest
698 to the public) and mailing announcements.  You are welcome to
699 subscribe.  The more people on the list, the better!
700
701    To subscribe, send mail to <wget-subscribe@sunsite.auc.dk>.  the
702 magic word `subscribe' in the subject line.  Unsubscribe by mailing to
703 <wget-unsubscribe@sunsite.auc.dk>.
704
705    The mailing list is archived at `http://fly.cc.fer.hr/archive/wget'.
706
707 \1f
708 File: wget.info,  Node: Reporting Bugs,  Next: Portability,  Prev: Mailing List,  Up: Various
709
710 Reporting Bugs
711 ==============
712
713    You are welcome to send bug reports about GNU Wget to
714 <bug-wget@gnu.org>.  The bugs that you think are of the interest to the
715 public (i.e. more people should be informed about them) can be Cc-ed to
716 the mailing list at <wget@sunsite.auc.dk>.
717
718    Before actually submitting a bug report, please try to follow a few
719 simple guidelines.
720
721   1. Please try to ascertain that the behaviour you see really is a
722      bug.  If Wget crashes, it's a bug.  If Wget does not behave as
723      documented, it's a bug.  If things work strange, but you are not
724      sure about the way they are supposed to work, it might well be a
725      bug.
726
727   2. Try to repeat the bug in as simple circumstances as possible.
728      E.g. if Wget crashes on `wget -rLl0 -t5 -Y0 http://yoyodyne.com -o
729      /tmp/log', you should try to see if it will crash with a simpler
730      set of options.
731
732      Also, while I will probably be interested to know the contents of
733      your `.wgetrc' file, just dumping it into the debug message is
734      probably a bad idea.  Instead, you should first try to see if the
735      bug repeats with `.wgetrc' moved out of the way.  Only if it turns
736      out that `.wgetrc' settings affect the bug, should you mail me the
737      relevant parts of the file.
738
739   3. Please start Wget with `-d' option and send the log (or the
740      relevant parts of it).  If Wget was compiled without debug support,
741      recompile it.  It is *much* easier to trace bugs with debug support
742      on.
743
744   4. If Wget has crashed, try to run it in a debugger, e.g. `gdb `which
745      wget` core' and type `where' to get the backtrace.
746
747   5. Find where the bug is, fix it and send me the patches. :-)
748
749 \1f
750 File: wget.info,  Node: Portability,  Next: Signals,  Prev: Reporting Bugs,  Up: Various
751
752 Portability
753 ===========
754
755    Since Wget uses GNU Autoconf for building and configuring, and avoids
756 using "special" ultra-mega-cool features of any particular Unix, it
757 should compile (and work) on all common Unix flavors.
758
759    Various Wget versions have been compiled and tested under many kinds
760 of Unix systems, including Solaris, Linux, SunOS, OSF (aka Digital
761 Unix), Ultrix, *BSD, IRIX, and others; refer to the file `MACHINES' in
762 the distribution directory for a comprehensive list.  If you compile it
763 on an architecture not listed there, please let me know so I can update
764 it.
765
766    Wget should also compile on the other Unix systems, not listed in
767 `MACHINES'.  If it doesn't, please let me know.
768
769    Thanks to kind contributors, this version of Wget compiles and works
770 on Microsoft Windows 95 and Windows NT platforms.  It has been compiled
771 successfully using MS Visual C++ 4.0, Watcom, and Borland C compilers,
772 with Winsock as networking software.  Naturally, it is crippled of some
773 features available on Unix, but it should work as a substitute for
774 people stuck with Windows.  Note that the Windows port is *neither
775 tested nor maintained* by me--all questions and problems should be
776 reported to Wget mailing list at <wget@sunsite.auc.dk> where the
777 maintainers will look at them.
778
779 \1f
780 File: wget.info,  Node: Signals,  Prev: Portability,  Up: Various
781
782 Signals
783 =======
784
785    Since the purpose of Wget is background work, it catches the hangup
786 signal (`SIGHUP') and ignores it.  If the output was on standard
787 output, it will be redirected to a file named `wget-log'.  Otherwise,
788 `SIGHUP' is ignored.  This is convenient when you wish to redirect the
789 output of Wget after having started it.
790
791      $ wget http://www.ifi.uio.no/~larsi/gnus.tar.gz &
792      $ kill -HUP %%     # Redirect the output to wget-log
793
794    Other than that, Wget will not try to interfere with signals in any
795 way. `C-c', `kill -TERM' and `kill -KILL' should kill it alike.
796
797 \1f
798 File: wget.info,  Node: Appendices,  Next: Copying,  Prev: Various,  Up: Top
799
800 Appendices
801 **********
802
803    This chapter contains some references I consider useful, like the
804 Robots Exclusion Standard specification, as well as a list of
805 contributors to GNU Wget.
806
807 * Menu:
808
809 * Robots::                  Wget as a WWW robot.
810 * Security Considerations:: Security with Wget.
811 * Contributors::            People who helped.
812
813 \1f
814 File: wget.info,  Node: Robots,  Next: Security Considerations,  Prev: Appendices,  Up: Appendices
815
816 Robots
817 ======
818
819    Since Wget is able to traverse the web, it counts as one of the Web
820 "robots".  Thus Wget understands "Robots Exclusion Standard"
821 (RES)--contents of `/robots.txt', used by server administrators to
822 shield parts of their systems from wanderings of Wget.
823
824    Norobots support is turned on only when retrieving recursively, and
825 *never* for the first page.  Thus, you may issue:
826
827      wget -r http://fly.cc.fer.hr/
828
829    First the index of fly.cc.fer.hr will be downloaded.  If Wget finds
830 anything worth downloading on the same host, only *then* will it load
831 the robots, and decide whether or not to load the links after all.
832 `/robots.txt' is loaded only once per host.  Wget does not support the
833 robots `META' tag.
834
835    The description of the norobots standard was written, and is
836 maintained by Martijn Koster <m.koster@webcrawler.com>.  With his
837 permission, I contribute a (slightly modified) texified version of the
838 RES.
839
840 * Menu:
841
842 * Introduction to RES::
843 * RES Format::
844 * User-Agent Field::
845 * Disallow Field::
846 * Norobots Examples::
847
848 \1f
849 File: wget.info,  Node: Introduction to RES,  Next: RES Format,  Prev: Robots,  Up: Robots
850
851 Introduction to RES
852 -------------------
853
854    "WWW Robots" (also called "wanderers" or "spiders") are programs
855 that traverse many pages in the World Wide Web by recursively
856 retrieving linked pages. For more information see the robots page.
857
858    In 1993 and 1994 there have been occasions where robots have visited
859 WWW servers where they weren't welcome for various reasons. Sometimes
860 these reasons were robot specific, e.g. certain robots swamped servers
861 with rapid-fire requests, or retrieved the same files repeatedly. In
862 other situations robots traversed parts of WWW servers that weren't
863 suitable, e.g. very deep virtual trees, duplicated information,
864 temporary information, or cgi-scripts with side-effects (such as
865 voting).
866
867    These incidents indicated the need for established mechanisms for
868 WWW servers to indicate to robots which parts of their server should
869 not be accessed. This standard addresses this need with an operational
870 solution.
871
872    This document represents a consensus on 30 June 1994 on the robots
873 mailing list (`robots@webcrawler.com'), between the majority of robot
874 authors and other people with an interest in robots. It has also been
875 open for discussion on the Technical World Wide Web mailing list
876 (`www-talk@info.cern.ch'). This document is based on a previous working
877 draft under the same title.
878
879    It is not an official standard backed by a standards body, or owned
880 by any commercial organization. It is not enforced by anybody, and there
881 no guarantee that all current and future robots will use it. Consider
882 it a common facility the majority of robot authors offer the WWW
883 community to protect WWW server against unwanted accesses by their
884 robots.
885
886    The latest version of this document can be found at
887 `http://info.webcrawler.com/mak/projects/robots/norobots.html'.
888
889 \1f
890 File: wget.info,  Node: RES Format,  Next: User-Agent Field,  Prev: Introduction to RES,  Up: Robots
891
892 RES Format
893 ----------
894
895    The format and semantics of the `/robots.txt' file are as follows:
896
897    The file consists of one or more records separated by one or more
898 blank lines (terminated by `CR', `CR/NL', or `NL').  Each record
899 contains lines of the form:
900
901      <field>:<optionalspace><value><optionalspace>
902
903    The field name is case insensitive.
904
905    Comments can be included in file using UNIX bourne shell conventions:
906 the `#' character is used to indicate that preceding space (if any) and
907 the remainder of the line up to the line termination is discarded.
908 Lines containing only a comment are discarded completely, and therefore
909 do not indicate a record boundary.
910
911    The record starts with one or more User-agent lines, followed by one
912 or more Disallow lines, as detailed below. Unrecognized headers are
913 ignored.
914
915    The presence of an empty `/robots.txt' file has no explicit
916 associated semantics, it will be treated as if it was not present, i.e.
917 all robots will consider themselves welcome.
918
919 \1f
920 File: wget.info,  Node: User-Agent Field,  Next: Disallow Field,  Prev: RES Format,  Up: Robots
921
922 User-Agent Field
923 ----------------
924
925    The value of this field is the name of the robot the record is
926 describing access policy for.
927
928    If more than one User-agent field is present the record describes an
929 identical access policy for more than one robot.  At least one field
930 needs to be present per record.
931
932    The robot should be liberal in interpreting this field. A case
933 insensitive substring match of the name without version information is
934 recommended.
935
936    If the value is `*', the record describes the default access policy
937 for any robot that has not matched any of the other records. It is not
938 allowed to have multiple such records in the `/robots.txt' file.
939
940 \1f
941 File: wget.info,  Node: Disallow Field,  Next: Norobots Examples,  Prev: User-Agent Field,  Up: Robots
942
943 Disallow Field
944 --------------
945
946    The value of this field specifies a partial URL that is not to be
947 visited. This can be a full path, or a partial path; any URL that
948 starts with this value will not be retrieved. For example,
949 `Disallow: /help' disallows both `/help.html' and `/help/index.html',
950 whereas `Disallow: /help/' would disallow `/help/index.html' but allow
951 `/help.html'.
952
953    Any empty value, indicates that all URLs can be retrieved. At least
954 one Disallow field needs to be present in a record.
955
956 \1f
957 File: wget.info,  Node: Norobots Examples,  Prev: Disallow Field,  Up: Robots
958
959 Norobots Examples
960 -----------------
961
962    The following example `/robots.txt' file specifies that no robots
963 should visit any URL starting with `/cyberworld/map/' or `/tmp/':
964
965      # robots.txt for http://www.site.com/
966      
967      User-agent: *
968      Disallow: /cyberworld/map/ # This is an infinite virtual URL space
969      Disallow: /tmp/ # these will soon disappear
970
971    This example `/robots.txt' file specifies that no robots should
972 visit any URL starting with `/cyberworld/map/', except the robot called
973 `cybermapper':
974
975      # robots.txt for http://www.site.com/
976      
977      User-agent: *
978      Disallow: /cyberworld/map/ # This is an infinite virtual URL space
979      
980      # Cybermapper knows where to go.
981      User-agent: cybermapper
982      Disallow:
983
984    This example indicates that no robots should visit this site further:
985
986      # go away
987      User-agent: *
988      Disallow: /
989
990 \1f
991 File: wget.info,  Node: Security Considerations,  Next: Contributors,  Prev: Robots,  Up: Appendices
992
993 Security Considerations
994 =======================
995
996    When using Wget, you must be aware that it sends unencrypted
997 passwords through the network, which may present a security problem.
998 Here are the main issues, and some solutions.
999
1000   1. The passwords on the command line are visible using `ps'.  If this
1001      is a problem, avoid putting passwords from the command line--e.g.
1002      you can use `.netrc' for this.
1003
1004   2. Using the insecure "basic" authentication scheme, unencrypted
1005      passwords are transmitted through the network routers and gateways.
1006
1007   3. The FTP passwords are also in no way encrypted.  There is no good
1008      solution for this at the moment.
1009
1010   4. Although the "normal" output of Wget tries to hide the passwords,
1011      debugging logs show them, in all forms.  This problem is avoided by
1012      being careful when you send debug logs (yes, even when you send
1013      them to me).
1014
1015 \1f
1016 File: wget.info,  Node: Contributors,  Prev: Security Considerations,  Up: Appendices
1017
1018 Contributors
1019 ============
1020
1021    GNU Wget was written by Hrvoje Niksic <hniksic@srce.hr>.  However,
1022 its development could never have gone as far as it has, were it not for
1023 the help of many people, either with bug reports, feature proposals,
1024 patches, or letters saying "Thanks!".
1025
1026    Special thanks goes to the following people (no particular order):
1027
1028    * Karsten Thygesen--donated the mailing list and the initial FTP
1029      space.
1030
1031    * Shawn McHorse--bug reports and patches.
1032
1033    * Kaveh R. Ghazi--on-the-fly `ansi2knr'-ization.
1034
1035    * Gordon Matzigkeit--`.netrc' support.
1036
1037    * Zlatko Calusic, Tomislav Vujec and Drazen Kacar--feature
1038      suggestions and "philosophical" discussions.
1039
1040    * Darko Budor--initial port to Windows.
1041
1042    * Antonio Rosella--help and suggestions, plust the Italian
1043      translation.
1044
1045    * Tomislav Petrovic, Mario Mikocevic--many bug reports and
1046      suggestions.
1047
1048    * Francois Pinard--many thorough bug reports and discussions.
1049
1050    * Karl Eichwalder--lots of help with internationalization and other
1051      things.
1052
1053    * Junio Hamano--donated support for Opie and HTTP `Digest'
1054      authentication.
1055
1056    * Brian Gough--a generous donation.
1057
1058    The following people have provided patches, bug/build reports, useful
1059 suggestions, beta testing services, fan mail and all the other things
1060 that make maintenance so much fun:
1061
1062    Tim Adam, Martin Baehr, Dieter Baron, Roger Beeman and the Gurus at
1063 Cisco, Mark Boyns, John Burden, Wanderlei Cavassin, Gilles Cedoc, Tim
1064 Charron, Noel Cragg, Kristijan Conkas, Damir Dzeko, Andrew Davison,
1065 Ulrich Drepper, Marc Duponcheel, Aleksandar Erkalovic, Andy Eskilsson,
1066 Masashi Fujita, Howard Gayle, Marcel Gerrits, Hans Grobler, Mathieu
1067 Guillaume, Karl Heuer, Gregor Hoffleit, Erik Magnus Hulthen, Richard
1068 Huveneers, Simon Josefsson, Mario Juric, Goran Kezunovic, Robert Kleine,
1069 Fila Kolodny, Alexander Kourakos, Martin Kraemer, Simos KSenitellis,
1070 Tage Stabell-Kulo, Hrvoje Lacko, Dave Love, Jordan Mendelson, Lin Zhe
1071 Min, Charlie Negyesi, Andrew Pollock, Steve Pothier, Marin Purgar, Jan
1072 Prikryl, Keith Refson, Tobias Ringstrom, Juan Jose Rodrigues, Heinz
1073 Salzmann, Robert Schmidt, Toomas Soome, Sven Sternberger, Markus
1074 Strasser, Szakacsits Szabolcs, Mike Thomas, Russell Vincent, Douglas E.
1075 Wegscheid, Jasmin Zainul, Bojan Zdrnja, Kristijan Zimmer.
1076
1077    Apologies to all who I accidentally left out, and many thanks to all
1078 the subscribers of the Wget mailing list.
1079