]> sjero.net Git - wget/blob - NEWS
[svn] Make -p work with framed pages.
[wget] / NEWS
1 GNU Wget NEWS -- history of user-visible changes.
2
3 Copyright (C) 1997, 1998, 2000, 2001 Free Software Foundation, Inc.
4 See the end for copying conditions.
5
6 Please send GNU Wget bug reports to <bug-wget@gnu.org>.
7 \f
8 * Changes in Wget 1.8.
9
10 ** A new progress indicator is now available and used by default.
11 You can choose the progress bar type with `--progress=TYPE'.  Two
12 types are available, "bar" (the new default), and "dot" (the old
13 dotted indicator).  You can permanently revert to the old progress
14 indicator by putting `progress = dot' in your `.wgetrc'.
15
16 ** You can limit the download rate of the retrieval using the
17 `--limit-rate' option.  For example, `wget --limit-rate=15k URL' will
18 tell Wget not to download the body of the URL faster than 15 kilobytes
19 per second.
20
21 ** Recursive retrieval and link conversion have been revamped:
22
23 *** Wget now traverses links breadth-first.  This makes the
24 calculation of depth much more reliable than before.  Also, recursive
25 downloads are faster and consume *significantly* less memory than
26 before.
27
28 *** Links are converted only when the entire retrieval is complete.
29 This is the only safe thing to do, as only then is it known what URLs
30 have been downloaded.
31
32 *** BASE tags are handled correctly when converting links.  Since Wget
33 already resolves <base href="..."> when resolving handling URLs, link
34 conversion now makes the BASE tags point to an empty string.
35
36 *** HTML anchors are now handled correctly.  Links to an anchor in the
37 same document (<a href="#anchorname">), which used to confuse Wget,
38 are now converted correctly.
39
40 *** When in page-requisites (-p) mode, no-parent (-np) is ignored when
41 retrieving for inline images, stylesheets, and other documents needed
42 to display the page.
43
44 *** Page-requisites (-p) mode now works with frames.  In other words,
45 `wget -p URL-THAT-USES-FRAMES' will now download the frame HTML files,
46 and all the files that they need to be displayed properly.
47
48 ** If a host has more than one IP address, Wget uses the other
49 addresses when accessing the first one fails.
50
51 ** Host directories now contain port information if the URL is at a
52 non-standard port.
53
54 ** Wget now supports the robots.txt directives specified in
55 <http://info.webcrawler.com/mak/projects/robots/norobots-rfc.html>.
56
57 ** URL parser has been fixed, especially the infamous overzealous
58 quoting.  Wget no longer dequotes reserved characters, e.g. `%3F' is
59 no longer translated to `?', nor `%2B' to `+'.  Unsafe characters
60 which are not reserved are still escaped, of course.
61
62 ** No more than 20 successive redirections are allowed.
63 \f
64 * Wget 1.7.1 is a bugfix release with no user-visible changes.
65 \f
66 * Changes in Wget 1.7.
67
68 ** SSL (`https') pages now work if you compile Wget with SSL support;
69 use the `--with-ssl' configure flag.  You need to have OpenSSL
70 installed.
71
72 ** Cookies are now supported.  Wget will accept cookies sent by the
73 server and return them in later requests.  Additionally, it can load
74 and save cookies to disk, in the same format that Netscape uses.
75
76 ** "Keep-alive" (persistent) HTTP connections are now supported.
77 Using keep-alive allows Wget to share one TCP/IP connection for
78 many retrievals, making multiple-file downloads faster and less
79 stressing for the server and the network.
80
81 ** Wget now recognizes FTP directory listings generated by NT and VMS
82 servers.
83
84 ** It is now possible to recurse through FTP sites where logging in
85 puts you in some directory other than '/'.
86
87 ** You may now use `~' to mean home directory in `.wgetrc'.  For
88 example, `load_cookies = ~/.netscape/cookies.txt' works as you would
89 expect.
90
91 ** The HTML parser has been rewritten.  The new one works more
92 reliably, allows finer-grained control over which tags and attributes
93 are detected, and has better support for some features like correctly
94 skipping comments and declarations, decoding entities, etc.  It is
95 also more general.
96
97 ** <meta name="robots"> tags are now respected.
98
99 ** Wget's internal tables now use hash tables instead of linked lists
100 where appropriate.  This results in huge speedups when retrieving
101 large sites (thousands of documents).
102
103 ** Wget now has a man page, automatically generated from the Texinfo
104 documentation.  (The last version that shipped with a man page was
105 1.4.5).  To get this, you need to have pod2man from the Perl
106 distribution installed on your system.
107 \f
108 * Changes in Wget 1.6
109
110 ** Administrative changes.
111
112 *** Maintainership.  Due to Hrvoje being plagued with a "real job",
113 Dan Harkless is the most active maintainer (not that he doesn't have a
114 real job as well).  Hrvoje still participates occasionally, and both
115 are being helped by many other people.
116
117 *** Web page.  Thanks to Jan Prikryl, Wget has an "official" web page.
118 Take a look at:
119
120     http://sunsite.dk/wget/
121
122 *** Anonymous CVS.  Thanks to ever-helpful Karsten Thygesen, Wget
123 sources are now available at an anonymous CVS server.  Take a look at
124 the web page for downloading instructions.
125
126 ** New -K / --backup-converted / backup_converted = on option causes files
127 modified due to -k to be saved with a .orig prefix before being changed.  When
128 using -N as well, it is these .orig files that are compared against the server.
129
130 ** New --follow-tags / follow_tags = ... option allows you to restrict
131 Wget to following only certain HTML tags when doing a recursive
132 retrieval.  -G / --ignore-tags / ignore_tags = ... is just the
133 opposite -- all tags but the ones you specify will be followed.
134
135 ** New --waitretry / waitretry = SECONDS option allows waiting between retries
136 of failed downloads.  Wget will use "linear" backoff, waiting 1 second after the
137 first failure, 2 after the second, up to SECONDS.  waitretry is set to 10 by
138 default in the system wgetrc.
139
140 ** New -p / --page-requisites / page_requisites = on option causes
141 Wget to download all ancillary files necessary to display a given HTML
142 page properly (e.g. inlined images).
143
144 ** New -E / --html-extension / html_extension = on option causes Wget
145 to append ".html" to text/html filenames not ending in regexp
146 "\.[Hh][Tt][Mm][Ll]?".
147
148 ** New type of .wgetrc command -- "lockable Boolean".  Can be set to on, off,
149 always, or never.  This allows the .wgetrc to override the commandline.  So far,
150 passive_ftp is the only .wgetrc command which takes a lockable Boolean.
151
152 ** A number of new translation files have been added.
153
154 ** New --bind-address / bind_address = <address> option for people on hosts 
155 bound to multiple IP addresses.
156
157 ** wget now accepts (illegal per HTTP spec) relative URLs in HTTP redirects.
158 \f
159 * Wget 1.5.3 is a bugfix release with no user-visible changes.
160 \f
161 * Wget 1.5.2 is a bugfix release with no user-visible changes.
162 \f
163 * Wget 1.5.1 is a bugfix release with no user-visible changes.
164 \f
165 * Changes in Wget 1.5.0
166
167 ** Wget speaks many languages!
168
169 On systems with gettext(), Wget will output messages in the language
170 set by the current locale, if available.  At this time we support
171 Czech, German, Croatian, Italian, Norwegian and Portuguese.
172
173 ** Opie (Skey) is now supported with FTP.
174
175 ** HTTP Digest Access Authentication (RFC2069) is now supported.
176
177 ** The new `-b' option makes Wget go to background automatically.
178
179 ** The `-I' and `-X' options now accept wildcard arguments.
180
181 ** The `-w' option now accepts suffixes `s' for seconds, `m' for
182 minutes, `h' for hours, `d' for days and `w' for weeks.
183
184 ** Upon getting SIGHUP, the whole previous log is now copied to
185 `wget-log'.
186
187 ** Wget now understands proxy settings with explicit usernames and
188 passwords, e.g. `http://user:password@proxy.foo.com/'.
189
190 ** You can use the new `--cut-dirs' option to make Wget create less
191 directories.
192
193 ** The `;type=a' appendix to FTP URLs is now recognized.  For
194 instance, the following command will retrieve the welcoming message in
195 ASCII type transfer:
196
197     wget "ftp://ftp.somewhere.com/welcome.msg;type=a"
198
199 ** `--help' and `--version' options have been redone to to conform to
200 standards set by other GNU utilities.
201
202 ** Wget should now be compilable under MS Windows environment.  MS
203 Visual C++ and Watcom C have been used successfully.
204
205 ** If the file length is known, percentages are displayed during
206 download.
207
208 ** The manual page, now hopelessly out of date, is no longer
209 distributed with Wget.
210 \f
211 * Wget 1.4.5 is a bugfix release with no user-visible changes.
212 \f
213 * Wget 1.4.4 is a bugfix release with no user-visible changes.
214 \f
215 * Changes in Wget 1.4.3
216
217 ** Wget is now a GNU utility.
218
219 ** Can do passive FTP.
220
221 ** Reads .netrc.
222
223 ** Info documentation expanded.
224
225 ** Compiles on pre-ANSI compilers.
226
227 ** Global wgetrc now goes to /usr/local/etc (i.e. $sysconfdir).
228
229 ** Lots of bugfixes.
230 \f
231 * Changes in Wget 1.4.2
232
233 ** New mirror site at ftp://sunsite.auc.dk/pub/infosystems/wget/,
234 thanks to Karsten Thygesen.
235
236 ** Mailing list!  Mail to wget-request@sunsite.auc.dk to subscribe.
237
238 ** New option --delete-after for proxy prefetching.
239
240 ** New option --retr-symlinks to retrieve symbolic links like plain
241 files.
242
243 ** rmold.pl -- script to remove files deleted on the remote server
244
245 ** --convert-links should work now.
246
247 ** Minor bugfixes.
248 \f
249 * Changes in Wget 1.4.1
250
251 ** Minor bugfixes.
252
253 ** Added -I (the opposite of -X).
254
255 ** Dot tracing is now customizable; try wget --dot-style=binary
256 \f
257 * Changes in Wget 1.4.0
258
259 ** Wget 1.4.0 [formerly known as Geturl] is an extensive rewrite of
260 Geturl.  Although many things look suspiciously similar, most of the
261 stuff was rewritten, like recursive retrieval, HTTP, FTP and mostly
262 everything else.  Wget should be now easier to debug, maintain and,
263 most importantly, use.
264
265 ** Recursive HTTP should now work without glitches, even with Location
266 changes, server-generated directory listings and other naughty stuff.
267
268 ** HTTP regetting is supported on servers that support Range
269 specification. WWW authorization is supported -- try
270 wget http://user:password@hostname/
271
272 ** FTP support was rewritten and widely enhanced. Globbing should now
273 work flawlessly. Symbolic links are created locally. All the
274 information the Unix-style ls listing can give is now recognized.
275
276 ** Recursive FTP is supported, e.g.
277     wget -r ftp://gnjilux.cc.fer.hr/pub/unix/util/
278
279 ** You can specify "rejected" directories, to which you do not want to
280 enter, e.g. with wget -X /pub
281
282 ** Time-stamping is supported, with both HTTP and FTP. Try wget -N URL.
283
284 ** A new texinfo reference manual is provided.  It can be read with
285 Emacs, standalone info, or converted to HTML, dvi or postscript.
286
287 ** Fixed a long-standing bug, so that Wget now works over SLIP
288 connections.
289
290 ** You can have a system-wide wgetrc (/usr/local/lib/wgetrc by
291 default). Settings in $HOME/.wgetrc override the global ones, of
292 course :-)
293
294 ** You can set up quota in .wgetrc to prevent sucking too much
295 data. Try `quota = 5M' in .wgetrc (or quota = 100K if you want your
296 sysadmin to like you).
297
298 ** Download rate is printed after retrieval.
299
300 ** Wget now sends the `Referer' header when retrieving
301 recursively.
302
303 ** With the new --no-parent option Wget can retrieve FTP recursively
304 through a proxy server.
305
306 ** HTML parser, as well as the whole of Wget was rewritten to be much
307 faster and less memory-consuming (yes, both).
308
309 ** Absolute links can be converted to relative links locally. Check
310 wget -k.
311
312 ** Wget catches hangup, filtering the output to a log file and
313 resuming work. Try kill -HUP %?wget.
314
315 ** User-defined headers can be sent.  Try
316
317     wget http://fly.cc.her.hr/ --header='Accept-Charset: iso-8859-2'
318
319 ** Acceptance/Rejection lists may contain wildcards.
320
321 ** Wget can display HTTP headers and/or FTP server response with the
322 new `-S' option.  It can save the original HTTP headers with `-s'.
323
324 ** socks library is now supported (thanks to Antonio Rosella
325 <Antonio.Rosella@agip.it>). Configure with --with-socks.
326
327 ** There is a nicer display of REST-ed output.
328
329 ** Many new options (like -x to force directory hierarchy, or -m to
330 turn on mirroring options).
331
332 ** Wget is now distributed under GNU General Public License (GPL).
333
334 ** Lots of small features I can't remember. :-)
335
336 ** A host of bugfixes.
337 \f
338 * Changes in Geturl 1.3
339
340 ** Added FTP globbing support (ftp://fly.cc.fer.hr/*)
341
342 ** Added support for no_proxy
343
344 ** Added support for ftp://user:password@host/
345
346 ** Added support for %xx in URL syntax
347
348 ** More natural command-line options
349
350 ** Added -e switch to execute .geturlrc commands from the command-line
351
352 ** Added support for robots.txt
353
354 ** Fixed some minor bugs
355 \f
356 * Geturl 1.2 is a bugfix release with no user-visible changes.
357 \f
358 * Changes in Geturl 1.1
359
360 ** REST supported in FTP
361
362 ** Proxy servers supported
363
364 ** GNU getopt used, which enables command-line arguments to be ordered
365 as you wish, e.g.  geturl http://fly.cc.fer.hr/ -vo log is the same as
366 geturl -vo log http://fly.cc.fer.hr/
367
368 ** Netscape-compatible URL syntax for HTTP supported: host[:port]/dir/file
369
370 ** NcFTP-compatible colon URL syntax for FTP supported: host:/dir/file
371
372 ** <base href="xxx"> supported
373
374 ** autoconf supported
375 \f
376 ----------------------------------------------------------------------
377 Copyright information:
378
379 Copyright (C) 1997, 1998, 2000, 2001 Free Software Foundation, Inc.
380
381    Permission is granted to anyone to make or distribute verbatim
382    copies of this document as received, in any medium, provided that
383    the copyright notice and this permission notice are preserved, thus
384    giving the recipient permission to redistribute in turn.
385
386    Permission is granted to distribute modified versions of this
387    document, or of portions of it, under the above conditions,
388    provided also that they carry prominent notices stating who last
389    changed them.