]> sjero.net Git - wget/blob - src/utils.c
imported patch vms-carat
[wget] / src / utils.c
1 /* Various utility functions.
2    Copyright (C) 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004,
3    2005, 2006, 2007, 2008, 2009 Free Software Foundation, Inc.
4
5 This file is part of GNU Wget.
6
7 GNU Wget is free software; you can redistribute it and/or modify
8 it under the terms of the GNU General Public License as published by
9 the Free Software Foundation; either version 3 of the License, or
10 (at your option) any later version.
11
12 GNU Wget is distributed in the hope that it will be useful,
13 but WITHOUT ANY WARRANTY; without even the implied warranty of
14 MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15 GNU General Public License for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with Wget.  If not, see <http://www.gnu.org/licenses/>.
19
20 Additional permission under GNU GPL version 3 section 7
21
22 If you modify this program, or any covered work, by linking or
23 combining it with the OpenSSL project's OpenSSL library (or a
24 modified version of that library), containing parts covered by the
25 terms of the OpenSSL or SSLeay licenses, the Free Software Foundation
26 grants you additional permission to convey the resulting work.
27 Corresponding Source for a non-source form of such a combination
28 shall include the source code for the parts of OpenSSL used as well
29 as that of the covered work.  */
30
31 #include "wget.h"
32
33 #include <stdio.h>
34 #include <stdlib.h>
35 #include <string.h>
36 #include <time.h>
37 #ifdef HAVE_SYS_TIME_H
38 # include <sys/time.h>
39 #endif
40 #ifdef HAVE_UNISTD_H
41 # include <unistd.h>
42 #endif
43 #ifdef HAVE_MMAP
44 # include <sys/mman.h>
45 #endif
46 #ifdef HAVE_PROCESS_H
47 # include <process.h>  /* getpid() */
48 #endif
49 #ifdef HAVE_UTIME_H
50 # include <utime.h>
51 #endif
52 #ifdef HAVE_SYS_UTIME_H
53 # include <sys/utime.h>
54 #endif
55 #include <errno.h>
56 #include <fcntl.h>
57 #include <assert.h>
58 #include <stdarg.h>
59 #include <locale.h>
60
61 /* For TIOCGWINSZ and friends: */
62 #ifdef HAVE_SYS_IOCTL_H
63 # include <sys/ioctl.h>
64 #endif
65 #ifdef HAVE_TERMIOS_H
66 # include <termios.h>
67 #endif
68
69 /* Needed for Unix version of run_with_timeout. */
70 #include <signal.h>
71 #include <setjmp.h>
72
73 #ifndef HAVE_SIGSETJMP
74 /* If sigsetjmp is a macro, configure won't pick it up. */
75 # ifdef sigsetjmp
76 #  define HAVE_SIGSETJMP
77 # endif
78 #endif
79
80 #if defined HAVE_SIGSETJMP || defined HAVE_SIGBLOCK
81 # define USE_SIGNAL_TIMEOUT
82 #endif
83
84 #include "utils.h"
85 #include "hash.h"
86
87 #ifdef __VMS
88 #include "vms.h"
89 #endif /* def __VMS */
90
91 #ifdef TESTING
92 #include "test.h"
93 #endif
94
95 static void
96 memfatal (const char *context, long attempted_size)
97 {
98   /* Make sure we don't try to store part of the log line, and thus
99      call malloc.  */
100   log_set_save_context (false);
101
102   /* We have different log outputs in different situations:
103      1) output without bytes information
104      2) output with bytes information  */
105   if (attempted_size == UNKNOWN_ATTEMPTED_SIZE)
106     {
107       logprintf (LOG_ALWAYS,
108                  _("%s: %s: Failed to allocate enough memory; memory exhausted.\n"),
109                  exec_name, context);
110     }
111   else
112     {
113       logprintf (LOG_ALWAYS,
114                  _("%s: %s: Failed to allocate %ld bytes; memory exhausted.\n"),
115                  exec_name, context, attempted_size);
116     }
117
118   exit (1);
119 }
120
121 /* Character property table for (re-)escaping VMS ODS5 extended file
122    names.  Note that this table ignores Unicode.
123
124    ODS2 valid characters: 0-9 A-Z a-z $ - _ ~
125
126    ODS5 Invalid characters:
127       C0 control codes (0x00 to 0x1F inclusive)
128       Asterisk (*)
129       Question mark (?)
130
131    ODS5 Invalid characters only in VMS V7.2 (which no one runs, right?):
132       Double quotation marks (")
133       Backslash (\)
134       Colon (:)
135       Left angle bracket (<)
136       Right angle bracket (>)
137       Slash (/)
138       Vertical bar (|)
139
140    Characters escaped by "^":
141       SP  !  "  #  %  &  '  (  )  +  ,  .  :  ;  =
142        @  [  \  ]  ^  `  {  |  }  ~
143
144    Either "^_" or "^ " is accepted as a space.  Period (.) is a special
145    case.  Note that un-escaped < and > can also confuse a directory
146    spec.
147
148    Characters put out as ^xx:
149       7F (DEL)
150       80-9F (C1 control characters)
151       A0 (nonbreaking space)
152       FF (Latin small letter y diaeresis)
153
154    Other cases:
155       Unicode: "^Uxxxx", where "xxxx" is four hex digits.
156
157     Property table values:
158       Normal escape:    1
159       Space:            2
160       Dot:              4
161       Hex-hex escape:   8
162       ODS2 normal:     16
163       ODS2 lower case: 32
164       Hex digit:       64
165 */
166
167 unsigned char char_prop[ 256] = {
168
169 /* NUL SOH STX ETX EOT ENQ ACK BEL   BS  HT  LF  VT  FF  CR  SO  SI */
170     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
171
172 /* DLE DC1 DC2 DC3 DC4 NAK SYN ETB  CAN  EM SUB ESC  FS  GS  RS  US */
173     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
174
175 /*  SP  !   "   #   $   %   &   '    (   )   *   +   ,   -   .   /  */
176     2,  1,  1,  1, 16,  1,  1,  1,   1,  1,  0,  1,  1, 16,  4,  0,
177
178 /*  0   1   2   3   4   5   6   7    8   9   :   ;   <   =   >   ?  */
179    80, 80, 80, 80, 80, 80, 80, 80,  80, 80,  1,  1,  1,  1,  1,  1,
180
181 /*  @   A   B   C   D   E   F   G    H   I   J   K   L   M   N   O  */
182     1, 80, 80, 80, 80, 80, 80, 16,  16, 16, 16, 16, 16, 16, 16, 16,
183
184 /*  P   Q   R   S   T   U   V   W    X   Y   Z   [   \   ]   ^   _  */
185    16, 16, 16, 16, 16, 16, 16, 16,  16, 16, 16,  1,  1,  1,  1, 16,
186
187 /*  `   a   b   c   d   e   f   g    h   i   j   k   l   m   n   o  */
188     1, 96, 96, 96, 96, 96, 96, 32,  32, 32, 32, 32, 32, 32, 32, 32,
189
190 /*  p   q   r   s   t   u   v   w    x   y   z   {   |   }   ~  DEL */
191    32, 32, 32, 32, 32, 32, 32, 32,  32, 32, 32,  1,  1,  1, 17,  8,
192
193     8,  8,  8,  8,  8,  8,  8,  8,   8,  8,  8,  8,  8,  8,  8,  8,
194     8,  8,  8,  8,  8,  8,  8,  8,   8,  8,  8,  8,  8,  8,  8,  8,
195     8,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
196     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
197     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
198     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
199     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
200     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  8
201 };
202
203 /* Utility function: like xstrdup(), but also lowercases S.  */
204
205 char *
206 xstrdup_lower (const char *s)
207 {
208   char *copy = xstrdup (s);
209   char *p = copy;
210   for (; *p; p++)
211     *p = c_tolower (*p);
212   return copy;
213 }
214
215 /* Copy the string formed by two pointers (one on the beginning, other
216    on the char after the last char) to a new, malloc-ed location.
217    0-terminate it.  */
218 char *
219 strdupdelim (const char *beg, const char *end)
220 {
221   char *res = xmalloc (end - beg + 1);
222   memcpy (res, beg, end - beg);
223   res[end - beg] = '\0';
224   return res;
225 }
226
227 /* Parse a string containing comma-separated elements, and return a
228    vector of char pointers with the elements.  Spaces following the
229    commas are ignored.  */
230 char **
231 sepstring (const char *s)
232 {
233   char **res;
234   const char *p;
235   int i = 0;
236
237   if (!s || !*s)
238     return NULL;
239   res = NULL;
240   p = s;
241   while (*s)
242     {
243       if (*s == ',')
244         {
245           res = xrealloc (res, (i + 2) * sizeof (char *));
246           res[i] = strdupdelim (p, s);
247           res[++i] = NULL;
248           ++s;
249           /* Skip the blanks following the ','.  */
250           while (c_isspace (*s))
251             ++s;
252           p = s;
253         }
254       else
255         ++s;
256     }
257   res = xrealloc (res, (i + 2) * sizeof (char *));
258   res[i] = strdupdelim (p, s);
259   res[i + 1] = NULL;
260   return res;
261 }
262 \f
263 /* Like sprintf, but prints into a string of sufficient size freshly
264    allocated with malloc, which is returned.  If unable to print due
265    to invalid format, returns NULL.  Inability to allocate needed
266    memory results in abort, as with xmalloc.  This is in spirit
267    similar to the GNU/BSD extension asprintf, but somewhat easier to
268    use.
269
270    Internally the function either calls vasprintf or loops around
271    vsnprintf until the correct size is found.  Since Wget also ships a
272    fallback implementation of vsnprintf, this should be portable.  */
273
274 /* Constant is using for limits memory allocation for text buffer.
275    Applicable in situation when: vasprintf is not available in the system
276    and vsnprintf return -1 when long line is truncated (in old versions of
277    glibc and in other system where C99 doesn`t support) */
278
279 #define FMT_MAX_LENGTH 1048576
280
281 char *
282 aprintf (const char *fmt, ...)
283 {
284 #if defined HAVE_VASPRINTF && !defined DEBUG_MALLOC
285   /* Use vasprintf. */
286   int ret;
287   va_list args;
288   char *str;
289   va_start (args, fmt);
290   ret = vasprintf (&str, fmt, args);
291   va_end (args);
292   if (ret < 0 && errno == ENOMEM)
293     memfatal ("aprintf", UNKNOWN_ATTEMPTED_SIZE);  /* for consistency
294                                                       with xmalloc/xrealloc */
295   else if (ret < 0)
296     return NULL;
297   return str;
298 #else  /* not HAVE_VASPRINTF */
299
300   /* vasprintf is unavailable.  snprintf into a small buffer and
301      resize it as necessary. */
302   int size = 32;
303   char *str = xmalloc (size);
304
305   /* #### This code will infloop and eventually abort in xrealloc if
306      passed a FMT that causes snprintf to consistently return -1.  */
307
308   while (1)
309     {
310       int n;
311       va_list args;
312
313       va_start (args, fmt);
314       n = vsnprintf (str, size, fmt, args);
315       va_end (args);
316
317       /* If the printing worked, return the string. */
318       if (n > -1 && n < size)
319         return str;
320
321       /* Else try again with a larger buffer. */
322       if (n > -1)               /* C99 */
323         size = n + 1;           /* precisely what is needed */
324       else if (size >= FMT_MAX_LENGTH)  /* We have a huge buffer, */
325         {                               /* maybe we have some wrong
326                                            format string? */
327           logprintf (LOG_ALWAYS,
328                      _("%s: aprintf: text buffer is too big (%ld bytes), "
329                        "aborting.\n"),
330                      exec_name, size);  /* printout a log message */
331           abort ();                     /* and abort... */
332         }
333       else
334         {
335           /* else, we continue to grow our
336            * buffer: Twice the old size. */
337           size <<= 1;
338         }
339       str = xrealloc (str, size);
340     }
341 #endif /* not HAVE_VASPRINTF */
342 }
343
344 /* Concatenate the NULL-terminated list of string arguments into
345    freshly allocated space.  */
346
347 char *
348 concat_strings (const char *str0, ...)
349 {
350   va_list args;
351   int saved_lengths[5];         /* inspired by Apache's apr_pstrcat */
352   char *ret, *p;
353
354   const char *next_str;
355   int total_length = 0;
356   size_t argcount;
357
358   /* Calculate the length of and allocate the resulting string. */
359
360   argcount = 0;
361   va_start (args, str0);
362   for (next_str = str0; next_str != NULL; next_str = va_arg (args, char *))
363     {
364       int len = strlen (next_str);
365       if (argcount < countof (saved_lengths))
366         saved_lengths[argcount++] = len;
367       total_length += len;
368     }
369   va_end (args);
370   p = ret = xmalloc (total_length + 1);
371
372   /* Copy the strings into the allocated space. */
373
374   argcount = 0;
375   va_start (args, str0);
376   for (next_str = str0; next_str != NULL; next_str = va_arg (args, char *))
377     {
378       int len;
379       if (argcount < countof (saved_lengths))
380         len = saved_lengths[argcount++];
381       else
382         len = strlen (next_str);
383       memcpy (p, next_str, len);
384       p += len;
385     }
386   va_end (args);
387   *p = '\0';
388
389   return ret;
390 }
391 \f
392 /* Format the provided time according to the specified format.  The
393    format is a string with format elements supported by strftime.  */
394
395 static char *
396 fmttime (time_t t, const char *fmt)
397 {
398   static char output[32];
399   struct tm *tm = localtime(&t);
400   if (!tm)
401     abort ();
402   if (!strftime(output, sizeof(output), fmt, tm))
403     abort ();
404   return output;
405 }
406
407 /* Return pointer to a static char[] buffer in which zero-terminated
408    string-representation of TM (in form hh:mm:ss) is printed.
409
410    If TM is NULL, the current time will be used.  */
411
412 char *
413 time_str (time_t t)
414 {
415   return fmttime(t, "%H:%M:%S");
416 }
417
418 /* Like the above, but include the date: YYYY-MM-DD hh:mm:ss.  */
419
420 char *
421 datetime_str (time_t t)
422 {
423   return fmttime(t, "%Y-%m-%d %H:%M:%S");
424 }
425 \f
426 /* The Windows versions of the following two functions are defined in
427    mswindows.c. On MSDOS this function should never be called. */
428
429 #ifdef __VMS
430
431 void
432 fork_to_background (void)
433 {
434   return;
435 }
436
437 #else /* def __VMS */
438
439 #if !defined(WINDOWS) && !defined(MSDOS)
440 void
441 fork_to_background (void)
442 {
443   pid_t pid;
444   /* Whether we arrange our own version of opt.lfilename here.  */
445   bool logfile_changed = false;
446
447   if (!opt.lfilename && (!opt.quiet || opt.server_response))
448     {
449       /* We must create the file immediately to avoid either a race
450          condition (which arises from using unique_name and failing to
451          use fopen_excl) or lying to the user about the log file name
452          (which arises from using unique_name, printing the name, and
453          using fopen_excl later on.)  */
454       FILE *new_log_fp = unique_create (DEFAULT_LOGFILE, false, &opt.lfilename);
455       if (new_log_fp)
456         {
457           logfile_changed = true;
458           fclose (new_log_fp);
459         }
460     }
461   pid = fork ();
462   if (pid < 0)
463     {
464       /* parent, error */
465       perror ("fork");
466       exit (1);
467     }
468   else if (pid != 0)
469     {
470       /* parent, no error */
471       printf (_("Continuing in background, pid %d.\n"), (int) pid);
472       if (logfile_changed)
473         printf (_("Output will be written to %s.\n"), quote (opt.lfilename));
474       exit (0);                 /* #### should we use _exit()? */
475     }
476
477   /* child: give up the privileges and keep running. */
478   setsid ();
479   freopen ("/dev/null", "r", stdin);
480   freopen ("/dev/null", "w", stdout);
481   freopen ("/dev/null", "w", stderr);
482 }
483 #endif /* !WINDOWS && !MSDOS */
484
485 #endif /* def __VMS [else] */
486
487 \f
488 /* "Touch" FILE, i.e. make its mtime ("modified time") equal the time
489    specified with TM.  The atime ("access time") is set to the current
490    time.  */
491
492 void
493 touch (const char *file, time_t tm)
494 {
495 #ifdef HAVE_STRUCT_UTIMBUF
496   struct utimbuf times;
497 #else
498   struct {
499     time_t actime;
500     time_t modtime;
501   } times;
502 #endif
503   times.modtime = tm;
504   times.actime = time (NULL);
505   if (utime (file, &times) == -1)
506     logprintf (LOG_NOTQUIET, "utime(%s): %s\n", file, strerror (errno));
507 }
508
509 /* Checks if FILE is a symbolic link, and removes it if it is.  Does
510    nothing under MS-Windows.  */
511 int
512 remove_link (const char *file)
513 {
514   int err = 0;
515   struct_stat st;
516
517   if (lstat (file, &st) == 0 && S_ISLNK (st.st_mode))
518     {
519       DEBUGP (("Unlinking %s (symlink).\n", file));
520       err = unlink (file);
521       if (err != 0)
522         logprintf (LOG_VERBOSE, _("Failed to unlink symlink %s: %s\n"),
523                    quote (file), strerror (errno));
524     }
525   return err;
526 }
527
528 /* Does FILENAME exist?  This is quite a lousy implementation, since
529    it supplies no error codes -- only a yes-or-no answer.  Thus it
530    will return that a file does not exist if, e.g., the directory is
531    unreadable.  I don't mind it too much currently, though.  The
532    proper way should, of course, be to have a third, error state,
533    other than true/false, but that would introduce uncalled-for
534    additional complexity to the callers.  */
535 bool
536 file_exists_p (const char *filename)
537 {
538 #ifdef HAVE_ACCESS
539   return access (filename, F_OK) >= 0;
540 #else
541   struct_stat buf;
542   return stat (filename, &buf) >= 0;
543 #endif
544 }
545
546 /* Returns 0 if PATH is a directory, 1 otherwise (any kind of file).
547    Returns 0 on error.  */
548 bool
549 file_non_directory_p (const char *path)
550 {
551   struct_stat buf;
552   /* Use lstat() rather than stat() so that symbolic links pointing to
553      directories can be identified correctly.  */
554   if (lstat (path, &buf) != 0)
555     return false;
556   return S_ISDIR (buf.st_mode) ? false : true;
557 }
558
559 /* Return the size of file named by FILENAME, or -1 if it cannot be
560    opened or seeked into. */
561 wgint
562 file_size (const char *filename)
563 {
564 #if defined(HAVE_FSEEKO) && defined(HAVE_FTELLO)
565   wgint size;
566   /* We use fseek rather than stat to determine the file size because
567      that way we can also verify that the file is readable without
568      explicitly checking for permissions.  Inspired by the POST patch
569      by Arnaud Wylie.  */
570   FILE *fp = fopen (filename, "rb");
571   if (!fp)
572     return -1;
573   fseeko (fp, 0, SEEK_END);
574   size = ftello (fp);
575   fclose (fp);
576   return size;
577 #else
578   struct_stat st;
579   if (stat (filename, &st) < 0)
580     return -1;
581   return st.st_size;
582 #endif
583 }
584
585 /* 2005-02-19 SMS.
586    If no UNIQ_SEP is defined (as on VMS), have unique_name() return the
587    original name.  With the VMS file systems' versioning, everything
588    should be fine, and appending ".NN" just causes trouble.
589 */
590
591 #ifdef UNIQ_SEP
592
593 /* stat file names named PREFIX.1, PREFIX.2, etc., until one that
594    doesn't exist is found.  Return a freshly allocated copy of the
595    unused file name.  */
596
597 static char *
598 unique_name_1 (const char *prefix)
599 {
600   int count = 1;
601   int plen = strlen (prefix);
602   char *template = (char *)alloca (plen + 1 + 24);
603   char *template_tail = template + plen;
604
605   memcpy (template, prefix, plen);
606   *template_tail++ = UNIQ_SEP;
607
608   do
609     number_to_string (template_tail, count++);
610   while (file_exists_p (template));
611
612   return xstrdup (template);
613 }
614
615 /* Return a unique file name, based on FILE.
616
617    More precisely, if FILE doesn't exist, it is returned unmodified.
618    If not, FILE.1 is tried, then FILE.2, etc.  The first FILE.<number>
619    file name that doesn't exist is returned.
620
621    2005-02-19 SMS.  "." is now UNIQ_SEP, and may be different.
622
623    The resulting file is not created, only verified that it didn't
624    exist at the point in time when the function was called.
625    Therefore, where security matters, don't rely that the file created
626    by this function exists until you open it with O_EXCL or
627    equivalent.
628
629    If ALLOW_PASSTHROUGH is 0, it always returns a freshly allocated
630    string.  Otherwise, it may return FILE if the file doesn't exist
631    (and therefore doesn't need changing).  */
632
633 char *
634 unique_name (const char *file, bool allow_passthrough)
635 {
636   /* If the FILE itself doesn't exist, return it without
637      modification. */
638   if (!file_exists_p (file))
639     return allow_passthrough ? (char *)file : xstrdup (file);
640
641   /* Otherwise, find a numeric suffix that results in unused file name
642      and return it.  */
643   return unique_name_1 (file);
644 }
645
646 #else /* def UNIQ_SEP */
647
648 /* Dummy unique_name() for VMS.  Return the original name as easily as
649    possible.
650 */
651 char *
652 unique_name (const char *file, bool allow_passthrough)
653 {
654   /* Return the FILE itself, without modification, irregardful. */
655   return allow_passthrough ? (char *)file : xstrdup (file);
656 }
657
658 #endif /* def UNIQ_SEP [else] */
659
660 /* Create a file based on NAME, except without overwriting an existing
661    file with that name.  Providing O_EXCL is correctly implemented,
662    this function does not have the race condition associated with
663    opening the file returned by unique_name.  */
664
665 FILE *
666 unique_create (const char *name, bool binary, char **opened_name)
667 {
668   /* unique file name, based on NAME */
669   char *uname = unique_name (name, false);
670   FILE *fp;
671   while ((fp = fopen_excl (uname, binary)) == NULL && errno == EEXIST)
672     {
673       xfree (uname);
674       uname = unique_name (name, false);
675     }
676   if (opened_name && fp != NULL)
677     {
678       if (fp)
679         *opened_name = uname;
680       else
681         {
682           *opened_name = NULL;
683           xfree (uname);
684         }
685     }
686   else
687     xfree (uname);
688   return fp;
689 }
690
691 /* Open the file for writing, with the addition that the file is
692    opened "exclusively".  This means that, if the file already exists,
693    this function will *fail* and errno will be set to EEXIST.  If
694    BINARY is set, the file will be opened in binary mode, equivalent
695    to fopen's "wb".
696
697    If opening the file fails for any reason, including the file having
698    previously existed, this function returns NULL and sets errno
699    appropriately.  */
700
701 FILE *
702 fopen_excl (const char *fname, int binary)
703 {
704   int fd;
705 #ifdef O_EXCL
706
707 /* 2005-04-14 SMS.
708    VMS lacks O_BINARY, but makes up for it in weird and wonderful ways.
709    It also has file versions which obviate all the O_EXCL effort.
710    O_TRUNC (something of a misnomer) requests a new version.
711 */
712 # ifdef __VMS
713 /* Common open() optional arguments:
714    sequential access only, access callback function.
715 */
716 #  define OPEN_OPT_ARGS "fop=sqo", "acc", acc_cb, &open_id
717
718   int open_id;
719   int flags = O_WRONLY | O_CREAT | O_TRUNC;
720
721   if (binary > 1)
722     {
723       open_id = 11;
724       fd = open( fname,                 /* File name. */
725        flags,                           /* Flags. */
726        0777,                            /* Mode for default protection. */
727        "ctx=bin,stm",                   /* Binary, stream access. */
728        "rfm=stmlf",                     /* Stream_LF. */
729        OPEN_OPT_ARGS);                  /* Access callback. */
730     }
731   else if (binary)
732     {
733       open_id = 12;
734       fd = open( fname,                 /* File name. */
735        flags,                           /* Flags. */
736        0777,                            /* Mode for default protection. */
737        "ctx=bin,stm",                   /* Binary, stream access. */
738        "rfm=fix",                       /* Fixed-length, */
739        "mrs=512",                       /* 512-byte records. */
740        OPEN_OPT_ARGS);                  /* Access callback. */
741     }
742   else
743     {
744       open_id = 13;
745       fd = open( fname,                 /* File name. */
746        flags,                           /* Flags. */
747        0777,                            /* Mode for default protection.
748 */
749        "rfm=stmlf",                     /* Stream_LF. */
750        OPEN_OPT_ARGS);                  /* Access callback. */
751     }
752 # else /* def __VMS */
753   int flags = O_WRONLY | O_CREAT | O_EXCL;
754 # ifdef O_BINARY
755   if (binary)
756     flags |= O_BINARY;
757 # endif
758   fd = open (fname, flags, 0666);
759 # endif /* def __VMS [else] */
760
761   if (fd < 0)
762     return NULL;
763   return fdopen (fd, binary ? "wb" : "w");
764 #else  /* not O_EXCL */
765   /* Manually check whether the file exists.  This is prone to race
766      conditions, but systems without O_EXCL haven't deserved
767      better.  */
768   if (file_exists_p (fname))
769     {
770       errno = EEXIST;
771       return NULL;
772     }
773   return fopen (fname, binary ? "wb" : "w");
774 #endif /* not O_EXCL */
775 }
776 \f
777 /* Create DIRECTORY.  If some of the pathname components of DIRECTORY
778    are missing, create them first.  In case any mkdir() call fails,
779    return its error status.  Returns 0 on successful completion.
780
781    The behaviour of this function should be identical to the behaviour
782    of `mkdir -p' on systems where mkdir supports the `-p' option.  */
783 int
784 make_directory (const char *directory)
785 {
786   int i, ret, quit = 0;
787   char *dir;
788
789   /* Make a copy of dir, to be able to write to it.  Otherwise, the
790      function is unsafe if called with a read-only char *argument.  */
791   STRDUP_ALLOCA (dir, directory);
792
793   /* If the first character of dir is '/', skip it (and thus enable
794      creation of absolute-pathname directories.  */
795   for (i = (*dir == '/'); 1; ++i)
796     {
797       for (; dir[i] && dir[i] != '/'; i++)
798         ;
799       if (!dir[i])
800         quit = 1;
801       dir[i] = '\0';
802       /* Check whether the directory already exists.  Allow creation of
803          of intermediate directories to fail, as the initial path components
804          are not necessarily directories!  */
805       if (!file_exists_p (dir))
806         ret = mkdir (dir, 0777);
807       else
808         ret = 0;
809       if (quit)
810         break;
811       else
812         dir[i] = '/';
813     }
814   return ret;
815 }
816
817 /* Merge BASE with FILE.  BASE can be a directory or a file name, FILE
818    should be a file name.
819
820    file_merge("/foo/bar", "baz")  => "/foo/baz"
821    file_merge("/foo/bar/", "baz") => "/foo/bar/baz"
822    file_merge("foo", "bar")       => "bar"
823
824    In other words, it's a simpler and gentler version of uri_merge.  */
825
826 char *
827 file_merge (const char *base, const char *file)
828 {
829   char *result;
830   const char *cut = (const char *)strrchr (base, '/');
831
832   if (!cut)
833     return xstrdup (file);
834
835   result = xmalloc (cut - base + 1 + strlen (file) + 1);
836   memcpy (result, base, cut - base);
837   result[cut - base] = '/';
838   strcpy (result + (cut - base) + 1, file);
839
840   return result;
841 }
842 \f
843 /* Like fnmatch, but performs a case-insensitive match.  */
844
845 int
846 fnmatch_nocase (const char *pattern, const char *string, int flags)
847 {
848 #ifdef FNM_CASEFOLD
849   /* The FNM_CASEFOLD flag started as a GNU extension, but it is now
850      also present on *BSD platforms, and possibly elsewhere.  */
851   return fnmatch (pattern, string, flags | FNM_CASEFOLD);
852 #else
853   /* Turn PATTERN and STRING to lower case and call fnmatch on them. */
854   char *patcopy = (char *) alloca (strlen (pattern) + 1);
855   char *strcopy = (char *) alloca (strlen (string) + 1);
856   char *p;
857   for (p = patcopy; *pattern; pattern++, p++)
858     *p = c_tolower (*pattern);
859   *p = '\0';
860   for (p = strcopy; *string; string++, p++)
861     *p = c_tolower (*string);
862   *p = '\0';
863   return fnmatch (patcopy, strcopy, flags);
864 #endif
865 }
866
867 static bool in_acclist (const char *const *, const char *, bool);
868
869 /* Determine whether a file is acceptable to be followed, according to
870    lists of patterns to accept/reject.  */
871 bool
872 acceptable (const char *s)
873 {
874   int l = strlen (s);
875
876   while (l && s[l] != '/')
877     --l;
878   if (s[l] == '/')
879     s += (l + 1);
880   if (opt.accepts)
881     {
882       if (opt.rejects)
883         return (in_acclist ((const char *const *)opt.accepts, s, true)
884                 && !in_acclist ((const char *const *)opt.rejects, s, true));
885       else
886         return in_acclist ((const char *const *)opt.accepts, s, true);
887     }
888   else if (opt.rejects)
889     return !in_acclist ((const char *const *)opt.rejects, s, true);
890   return true;
891 }
892
893 /* Check if D2 is a subdirectory of D1.  E.g. if D1 is `/something', subdir_p()
894    will return true if and only if D2 begins with `/something/' or is exactly
895    '/something'.  */
896 bool
897 subdir_p (const char *d1, const char *d2)
898 {
899   if (*d1 == '\0')
900     return true;
901   if (!opt.ignore_case)
902     for (; *d1 && *d2 && (*d1 == *d2); ++d1, ++d2)
903       ;
904   else
905     for (; *d1 && *d2 && (c_tolower (*d1) == c_tolower (*d2)); ++d1, ++d2)
906       ;
907
908   return *d1 == '\0' && (*d2 == '\0' || *d2 == '/');
909 }
910
911 /* Iterate through DIRLIST (which must be NULL-terminated), and return the
912    first element that matches DIR, through wildcards or front comparison (as
913    appropriate).  */
914 static bool
915 dir_matches_p (char **dirlist, const char *dir)
916 {
917   char **x;
918   int (*matcher) (const char *, const char *, int)
919     = opt.ignore_case ? fnmatch_nocase : fnmatch;
920
921   for (x = dirlist; *x; x++)
922     {
923       /* Remove leading '/' */
924       char *p = *x + (**x == '/');
925       if (has_wildcards_p (p))
926         {
927           if (matcher (p, dir, FNM_PATHNAME) == 0)
928             break;
929         }
930       else
931         {
932           if (subdir_p (p, dir))
933             break;
934         }
935     }
936
937   return *x ? true : false;
938 }
939
940 /* Returns whether DIRECTORY is acceptable for download, wrt the
941    include/exclude lists.
942
943    The leading `/' is ignored in paths; relative and absolute paths
944    may be freely intermixed.  */
945
946 bool
947 accdir (const char *directory)
948 {
949   /* Remove starting '/'.  */
950   if (*directory == '/')
951     ++directory;
952   if (opt.includes)
953     {
954       if (!dir_matches_p (opt.includes, directory))
955         return false;
956     }
957   if (opt.excludes)
958     {
959       if (dir_matches_p (opt.excludes, directory))
960         return false;
961     }
962   return true;
963 }
964
965 /* Return true if STRING ends with TAIL.  For instance:
966
967    match_tail ("abc", "bc", false)  -> 1
968    match_tail ("abc", "ab", false)  -> 0
969    match_tail ("abc", "abc", false) -> 1
970
971    If FOLD_CASE is true, the comparison will be case-insensitive.  */
972
973 bool
974 match_tail (const char *string, const char *tail, bool fold_case)
975 {
976   int i, j;
977
978   /* We want this to be fast, so we code two loops, one with
979      case-folding, one without. */
980
981   if (!fold_case)
982     {
983       for (i = strlen (string), j = strlen (tail); i >= 0 && j >= 0; i--, j--)
984         if (string[i] != tail[j])
985           break;
986     }
987   else
988     {
989       for (i = strlen (string), j = strlen (tail); i >= 0 && j >= 0; i--, j--)
990         if (c_tolower (string[i]) != c_tolower (tail[j]))
991           break;
992     }
993
994   /* If the tail was exhausted, the match was succesful.  */
995   if (j == -1)
996     return true;
997   else
998     return false;
999 }
1000
1001 /* Checks whether string S matches each element of ACCEPTS.  A list
1002    element are matched either with fnmatch() or match_tail(),
1003    according to whether the element contains wildcards or not.
1004
1005    If the BACKWARD is false, don't do backward comparison -- just compare
1006    them normally.  */
1007 static bool
1008 in_acclist (const char *const *accepts, const char *s, bool backward)
1009 {
1010   for (; *accepts; accepts++)
1011     {
1012       if (has_wildcards_p (*accepts))
1013         {
1014           int res = opt.ignore_case
1015             ? fnmatch_nocase (*accepts, s, 0) : fnmatch (*accepts, s, 0);
1016           /* fnmatch returns 0 if the pattern *does* match the string.  */
1017           if (res == 0)
1018             return true;
1019         }
1020       else
1021         {
1022           if (backward)
1023             {
1024               if (match_tail (s, *accepts, opt.ignore_case))
1025                 return true;
1026             }
1027           else
1028             {
1029               int cmp = opt.ignore_case
1030                 ? strcasecmp (s, *accepts) : strcmp (s, *accepts);
1031               if (cmp == 0)
1032                 return true;
1033             }
1034         }
1035     }
1036   return false;
1037 }
1038
1039 /* Return the location of STR's suffix (file extension).  Examples:
1040    suffix ("foo.bar")       -> "bar"
1041    suffix ("foo.bar.baz")   -> "baz"
1042    suffix ("/foo/bar")      -> NULL
1043    suffix ("/foo.bar/baz")  -> NULL  */
1044 char *
1045 suffix (const char *str)
1046 {
1047   int i;
1048
1049   for (i = strlen (str); i && str[i] != '/' && str[i] != '.'; i--)
1050     ;
1051
1052   if (str[i++] == '.')
1053     return (char *)str + i;
1054   else
1055     return NULL;
1056 }
1057
1058 /* Return true if S contains globbing wildcards (`*', `?', `[' or
1059    `]').  */
1060
1061 bool
1062 has_wildcards_p (const char *s)
1063 {
1064   for (; *s; s++)
1065     if (*s == '*' || *s == '?' || *s == '[' || *s == ']')
1066       return true;
1067   return false;
1068 }
1069
1070 /* Return true if FNAME ends with a typical HTML suffix.  The
1071    following (case-insensitive) suffixes are presumed to be HTML
1072    files:
1073
1074      html
1075      htm
1076      ?html (`?' matches one character)
1077
1078    #### CAVEAT.  This is not necessarily a good indication that FNAME
1079    refers to a file that contains HTML!  */
1080 bool
1081 has_html_suffix_p (const char *fname)
1082 {
1083   char *suf;
1084
1085   if ((suf = suffix (fname)) == NULL)
1086     return false;
1087   if (!strcasecmp (suf, "html"))
1088     return true;
1089   if (!strcasecmp (suf, "htm"))
1090     return true;
1091   if (suf[0] && !strcasecmp (suf + 1, "html"))
1092     return true;
1093   return false;
1094 }
1095
1096 /* Read a line from FP and return the pointer to freshly allocated
1097    storage.  The storage space is obtained through malloc() and should
1098    be freed with free() when it is no longer needed.
1099
1100    The length of the line is not limited, except by available memory.
1101    The newline character at the end of line is retained.  The line is
1102    terminated with a zero character.
1103
1104    After end-of-file is encountered without anything being read, NULL
1105    is returned.  NULL is also returned on error.  To distinguish
1106    between these two cases, use the stdio function ferror().  */
1107
1108 char *
1109 read_whole_line (FILE *fp)
1110 {
1111   int length = 0;
1112   int bufsize = 82;
1113   char *line = xmalloc (bufsize);
1114
1115   while (fgets (line + length, bufsize - length, fp))
1116     {
1117       length += strlen (line + length);
1118       if (length == 0)
1119         /* Possible for example when reading from a binary file where
1120            a line begins with \0.  */
1121         continue;
1122
1123       if (line[length - 1] == '\n')
1124         break;
1125
1126       /* fgets() guarantees to read the whole line, or to use up the
1127          space we've given it.  We can double the buffer
1128          unconditionally.  */
1129       bufsize <<= 1;
1130       line = xrealloc (line, bufsize);
1131     }
1132   if (length == 0 || ferror (fp))
1133     {
1134       xfree (line);
1135       return NULL;
1136     }
1137   if (length + 1 < bufsize)
1138     /* Relieve the memory from our exponential greediness.  We say
1139        `length + 1' because the terminating \0 is not included in
1140        LENGTH.  We don't need to zero-terminate the string ourselves,
1141        though, because fgets() does that.  */
1142     line = xrealloc (line, length + 1);
1143   return line;
1144 }
1145 \f
1146 /* Read FILE into memory.  A pointer to `struct file_memory' are
1147    returned; use struct element `content' to access file contents, and
1148    the element `length' to know the file length.  `content' is *not*
1149    zero-terminated, and you should *not* read or write beyond the [0,
1150    length) range of characters.
1151
1152    After you are done with the file contents, call read_file_free to
1153    release the memory.
1154
1155    Depending on the operating system and the type of file that is
1156    being read, read_file() either mmap's the file into memory, or
1157    reads the file into the core using read().
1158
1159    If file is named "-", fileno(stdin) is used for reading instead.
1160    If you want to read from a real file named "-", use "./-" instead.  */
1161
1162 struct file_memory *
1163 read_file (const char *file)
1164 {
1165   int fd;
1166   struct file_memory *fm;
1167   long size;
1168   bool inhibit_close = false;
1169
1170   /* Some magic in the finest tradition of Perl and its kin: if FILE
1171      is "-", just use stdin.  */
1172   if (HYPHENP (file))
1173     {
1174       fd = fileno (stdin);
1175       inhibit_close = true;
1176       /* Note that we don't inhibit mmap() in this case.  If stdin is
1177          redirected from a regular file, mmap() will still work.  */
1178     }
1179   else
1180     fd = open (file, O_RDONLY);
1181   if (fd < 0)
1182     return NULL;
1183   fm = xnew (struct file_memory);
1184
1185 #ifdef HAVE_MMAP
1186   {
1187     struct_fstat buf;
1188     if (fstat (fd, &buf) < 0)
1189       goto mmap_lose;
1190     fm->length = buf.st_size;
1191     /* NOTE: As far as I know, the callers of this function never
1192        modify the file text.  Relying on this would enable us to
1193        specify PROT_READ and MAP_SHARED for a marginal gain in
1194        efficiency, but at some cost to generality.  */
1195     fm->content = mmap (NULL, fm->length, PROT_READ | PROT_WRITE,
1196                         MAP_PRIVATE, fd, 0);
1197     if (fm->content == (char *)MAP_FAILED)
1198       goto mmap_lose;
1199     if (!inhibit_close)
1200       close (fd);
1201
1202     fm->mmap_p = 1;
1203     return fm;
1204   }
1205
1206  mmap_lose:
1207   /* The most common reason why mmap() fails is that FD does not point
1208      to a plain file.  However, it's also possible that mmap() doesn't
1209      work for a particular type of file.  Therefore, whenever mmap()
1210      fails, we just fall back to the regular method.  */
1211 #endif /* HAVE_MMAP */
1212
1213   fm->length = 0;
1214   size = 512;                   /* number of bytes fm->contents can
1215                                    hold at any given time. */
1216   fm->content = xmalloc (size);
1217   while (1)
1218     {
1219       wgint nread;
1220       if (fm->length > size / 2)
1221         {
1222           /* #### I'm not sure whether the whole exponential-growth
1223              thing makes sense with kernel read.  On Linux at least,
1224              read() refuses to read more than 4K from a file at a
1225              single chunk anyway.  But other Unixes might optimize it
1226              better, and it doesn't *hurt* anything, so I'm leaving
1227              it.  */
1228
1229           /* Normally, we grow SIZE exponentially to make the number
1230              of calls to read() and realloc() logarithmic in relation
1231              to file size.  However, read() can read an amount of data
1232              smaller than requested, and it would be unreasonable to
1233              double SIZE every time *something* was read.  Therefore,
1234              we double SIZE only when the length exceeds half of the
1235              entire allocated size.  */
1236           size <<= 1;
1237           fm->content = xrealloc (fm->content, size);
1238         }
1239       nread = read (fd, fm->content + fm->length, size - fm->length);
1240       if (nread > 0)
1241         /* Successful read. */
1242         fm->length += nread;
1243       else if (nread < 0)
1244         /* Error. */
1245         goto lose;
1246       else
1247         /* EOF */
1248         break;
1249     }
1250   if (!inhibit_close)
1251     close (fd);
1252   if (size > fm->length && fm->length != 0)
1253     /* Due to exponential growth of fm->content, the allocated region
1254        might be much larger than what is actually needed.  */
1255     fm->content = xrealloc (fm->content, fm->length);
1256   fm->mmap_p = 0;
1257   return fm;
1258
1259  lose:
1260   if (!inhibit_close)
1261     close (fd);
1262   xfree (fm->content);
1263   xfree (fm);
1264   return NULL;
1265 }
1266
1267 /* Release the resources held by FM.  Specifically, this calls
1268    munmap() or xfree() on fm->content, depending whether mmap or
1269    malloc/read were used to read in the file.  It also frees the
1270    memory needed to hold the FM structure itself.  */
1271
1272 void
1273 read_file_free (struct file_memory *fm)
1274 {
1275 #ifdef HAVE_MMAP
1276   if (fm->mmap_p)
1277     {
1278       munmap (fm->content, fm->length);
1279     }
1280   else
1281 #endif
1282     {
1283       xfree (fm->content);
1284     }
1285   xfree (fm);
1286 }
1287 \f
1288 /* Free the pointers in a NULL-terminated vector of pointers, then
1289    free the pointer itself.  */
1290 void
1291 free_vec (char **vec)
1292 {
1293   if (vec)
1294     {
1295       char **p = vec;
1296       while (*p)
1297         xfree (*p++);
1298       xfree (vec);
1299     }
1300 }
1301
1302 /* Append vector V2 to vector V1.  The function frees V2 and
1303    reallocates V1 (thus you may not use the contents of neither
1304    pointer after the call).  If V1 is NULL, V2 is returned.  */
1305 char **
1306 merge_vecs (char **v1, char **v2)
1307 {
1308   int i, j;
1309
1310   if (!v1)
1311     return v2;
1312   if (!v2)
1313     return v1;
1314   if (!*v2)
1315     {
1316       /* To avoid j == 0 */
1317       xfree (v2);
1318       return v1;
1319     }
1320   /* Count v1.  */
1321   for (i = 0; v1[i]; i++)
1322     ;
1323   /* Count v2.  */
1324   for (j = 0; v2[j]; j++)
1325     ;
1326   /* Reallocate v1.  */
1327   v1 = xrealloc (v1, (i + j + 1) * sizeof (char **));
1328   memcpy (v1 + i, v2, (j + 1) * sizeof (char *));
1329   xfree (v2);
1330   return v1;
1331 }
1332
1333 /* Append a freshly allocated copy of STR to VEC.  If VEC is NULL, it
1334    is allocated as needed.  Return the new value of the vector. */
1335
1336 char **
1337 vec_append (char **vec, const char *str)
1338 {
1339   int cnt;                      /* count of vector elements, including
1340                                    the one we're about to append */
1341   if (vec != NULL)
1342     {
1343       for (cnt = 0; vec[cnt]; cnt++)
1344         ;
1345       ++cnt;
1346     }
1347   else
1348     cnt = 1;
1349   /* Reallocate the array to fit the new element and the NULL. */
1350   vec = xrealloc (vec, (cnt + 1) * sizeof (char *));
1351   /* Append a copy of STR to the vector. */
1352   vec[cnt - 1] = xstrdup (str);
1353   vec[cnt] = NULL;
1354   return vec;
1355 }
1356 \f
1357 /* Sometimes it's useful to create "sets" of strings, i.e. special
1358    hash tables where you want to store strings as keys and merely
1359    query for their existence.  Here is a set of utility routines that
1360    makes that transparent.  */
1361
1362 void
1363 string_set_add (struct hash_table *ht, const char *s)
1364 {
1365   /* First check whether the set element already exists.  If it does,
1366      do nothing so that we don't have to free() the old element and
1367      then strdup() a new one.  */
1368   if (hash_table_contains (ht, s))
1369     return;
1370
1371   /* We use "1" as value.  It provides us a useful and clear arbitrary
1372      value, and it consumes no memory -- the pointers to the same
1373      string "1" will be shared by all the key-value pairs in all `set'
1374      hash tables.  */
1375   hash_table_put (ht, xstrdup (s), "1");
1376 }
1377
1378 /* Synonym for hash_table_contains... */
1379
1380 int
1381 string_set_contains (struct hash_table *ht, const char *s)
1382 {
1383   return hash_table_contains (ht, s);
1384 }
1385
1386 /* Convert the specified string set to array.  ARRAY should be large
1387    enough to hold hash_table_count(ht) char pointers.  */
1388
1389 void string_set_to_array (struct hash_table *ht, char **array)
1390 {
1391   hash_table_iterator iter;
1392   for (hash_table_iterate (ht, &iter); hash_table_iter_next (&iter); )
1393     *array++ = iter.key;
1394 }
1395
1396 /* Free the string set.  This frees both the storage allocated for
1397    keys and the actual hash table.  (hash_table_destroy would only
1398    destroy the hash table.)  */
1399
1400 void
1401 string_set_free (struct hash_table *ht)
1402 {
1403   hash_table_iterator iter;
1404   for (hash_table_iterate (ht, &iter); hash_table_iter_next (&iter); )
1405     xfree (iter.key);
1406   hash_table_destroy (ht);
1407 }
1408
1409 /* Utility function: simply call xfree() on all keys and values of HT.  */
1410
1411 void
1412 free_keys_and_values (struct hash_table *ht)
1413 {
1414   hash_table_iterator iter;
1415   for (hash_table_iterate (ht, &iter); hash_table_iter_next (&iter); )
1416     {
1417       xfree (iter.key);
1418       xfree (iter.value);
1419     }
1420 }
1421 \f
1422 /* Get digit grouping data for thousand separors by calling
1423    localeconv().  The data includes separator string and grouping info
1424    and is cached after the first call to the function.
1425
1426    In locales that don't set a thousand separator (such as the "C"
1427    locale), this forces it to be ",".  We are now only showing
1428    thousand separators in one place, so this shouldn't be a problem in
1429    practice.  */
1430
1431 static void
1432 get_grouping_data (const char **sep, const char **grouping)
1433 {
1434   static const char *cached_sep;
1435   static const char *cached_grouping;
1436   static bool initialized;
1437   if (!initialized)
1438     {
1439       /* Get the grouping info from the locale. */
1440       struct lconv *lconv = localeconv ();
1441       cached_sep = lconv->thousands_sep;
1442       cached_grouping = lconv->grouping;
1443 #if ! USE_NLS_PROGRESS_BAR
1444       /* We can't count column widths, so ensure that the separator
1445        * is single-byte only (let check below determine what byte). */
1446       if (strlen(cached_sep) > 1)
1447         cached_sep = "";
1448 #endif
1449       if (!*cached_sep)
1450         {
1451           /* Many locales (such as "C" or "hr_HR") don't specify
1452              grouping, which we still want to use it for legibility.
1453              In those locales set the sep char to ',', unless that
1454              character is used for decimal point, in which case set it
1455              to ".".  */
1456           if (*lconv->decimal_point != ',')
1457             cached_sep = ",";
1458           else
1459             cached_sep = ".";
1460           cached_grouping = "\x03";
1461         }
1462       initialized = true;
1463     }
1464   *sep = cached_sep;
1465   *grouping = cached_grouping;
1466 }
1467
1468 /* Return a printed representation of N with thousand separators.
1469    This should respect locale settings, with the exception of the "C"
1470    locale which mandates no separator, but we use one anyway.
1471
1472    Unfortunately, we cannot use %'d (in fact it would be %'j) to get
1473    the separators because it's too non-portable, and it's hard to test
1474    for this feature at configure time.  Besides, it wouldn't display
1475    separators in the "C" locale, still used by many Unix users.  */
1476
1477 const char *
1478 with_thousand_seps (wgint n)
1479 {
1480   static char outbuf[48];
1481   char *p = outbuf + sizeof outbuf;
1482
1483   /* Info received from locale */
1484   const char *grouping, *sep;
1485   int seplen;
1486
1487   /* State information */
1488   int i = 0, groupsize;
1489   const char *atgroup;
1490
1491   bool negative = n < 0;
1492
1493   /* Initialize grouping data. */
1494   get_grouping_data (&sep, &grouping);
1495   seplen = strlen (sep);
1496   atgroup = grouping;
1497   groupsize = *atgroup++;
1498
1499   /* This would overflow on WGINT_MIN, but printing negative numbers
1500      is not an important goal of this fuinction.  */
1501   if (negative)
1502     n = -n;
1503
1504   /* Write the number into the buffer, backwards, inserting the
1505      separators as necessary.  */
1506   *--p = '\0';
1507   while (1)
1508     {
1509       *--p = n % 10 + '0';
1510       n /= 10;
1511       if (n == 0)
1512         break;
1513       /* Prepend SEP to every groupsize'd digit and get new groupsize.  */
1514       if (++i == groupsize)
1515         {
1516           if (seplen == 1)
1517             *--p = *sep;
1518           else
1519             memcpy (p -= seplen, sep, seplen);
1520           i = 0;
1521           if (*atgroup)
1522             groupsize = *atgroup++;
1523         }
1524     }
1525   if (negative)
1526     *--p = '-';
1527
1528   return p;
1529 }
1530
1531 /* N, a byte quantity, is converted to a human-readable abberviated
1532    form a la sizes printed by `ls -lh'.  The result is written to a
1533    static buffer, a pointer to which is returned.
1534
1535    Unlike `with_thousand_seps', this approximates to the nearest unit.
1536    Quoting GNU libit: "Most people visually process strings of 3-4
1537    digits effectively, but longer strings of digits are more prone to
1538    misinterpretation.  Hence, converting to an abbreviated form
1539    usually improves readability."
1540
1541    This intentionally uses kilobyte (KB), megabyte (MB), etc. in their
1542    original computer-related meaning of "powers of 1024".  We don't
1543    use the "*bibyte" names invented in 1998, and seldom used in
1544    practice.  Wikipedia's entry on "binary prefix" discusses this in
1545    some detail.  */
1546
1547 char *
1548 human_readable (HR_NUMTYPE n)
1549 {
1550   /* These suffixes are compatible with those of GNU `ls -lh'. */
1551   static char powers[] =
1552     {
1553       'K',                      /* kilobyte, 2^10 bytes */
1554       'M',                      /* megabyte, 2^20 bytes */
1555       'G',                      /* gigabyte, 2^30 bytes */
1556       'T',                      /* terabyte, 2^40 bytes */
1557       'P',                      /* petabyte, 2^50 bytes */
1558       'E',                      /* exabyte,  2^60 bytes */
1559     };
1560   static char buf[8];
1561   size_t i;
1562
1563   /* If the quantity is smaller than 1K, just print it. */
1564   if (n < 1024)
1565     {
1566       snprintf (buf, sizeof (buf), "%d", (int) n);
1567       return buf;
1568     }
1569
1570   /* Loop over powers, dividing N with 1024 in each iteration.  This
1571      works unchanged for all sizes of wgint, while still avoiding
1572      non-portable `long double' arithmetic.  */
1573   for (i = 0; i < countof (powers); i++)
1574     {
1575       /* At each iteration N is greater than the *subsequent* power.
1576          That way N/1024.0 produces a decimal number in the units of
1577          *this* power.  */
1578       if ((n / 1024) < 1024 || i == countof (powers) - 1)
1579         {
1580           double val = n / 1024.0;
1581           /* Print values smaller than 10 with one decimal digits, and
1582              others without any decimals.  */
1583           snprintf (buf, sizeof (buf), "%.*f%c",
1584                     val < 10 ? 1 : 0, val, powers[i]);
1585           return buf;
1586         }
1587       n /= 1024;
1588     }
1589   return NULL;                  /* unreached */
1590 }
1591
1592 /* Count the digits in the provided number.  Used to allocate space
1593    when printing numbers.  */
1594
1595 int
1596 numdigit (wgint number)
1597 {
1598   int cnt = 1;
1599   if (number < 0)
1600     ++cnt;                      /* accomodate '-' */
1601   while ((number /= 10) != 0)
1602     ++cnt;
1603   return cnt;
1604 }
1605
1606 #define PR(mask) *p++ = n / (mask) + '0'
1607
1608 /* DIGITS_<D> is used to print a D-digit number and should be called
1609    with mask==10^(D-1).  It prints n/mask (the first digit), reducing
1610    n to n%mask (the remaining digits), and calling DIGITS_<D-1>.
1611    Recursively this continues until DIGITS_1 is invoked.  */
1612
1613 #define DIGITS_1(mask) PR (mask)
1614 #define DIGITS_2(mask) PR (mask), n %= (mask), DIGITS_1 ((mask) / 10)
1615 #define DIGITS_3(mask) PR (mask), n %= (mask), DIGITS_2 ((mask) / 10)
1616 #define DIGITS_4(mask) PR (mask), n %= (mask), DIGITS_3 ((mask) / 10)
1617 #define DIGITS_5(mask) PR (mask), n %= (mask), DIGITS_4 ((mask) / 10)
1618 #define DIGITS_6(mask) PR (mask), n %= (mask), DIGITS_5 ((mask) / 10)
1619 #define DIGITS_7(mask) PR (mask), n %= (mask), DIGITS_6 ((mask) / 10)
1620 #define DIGITS_8(mask) PR (mask), n %= (mask), DIGITS_7 ((mask) / 10)
1621 #define DIGITS_9(mask) PR (mask), n %= (mask), DIGITS_8 ((mask) / 10)
1622 #define DIGITS_10(mask) PR (mask), n %= (mask), DIGITS_9 ((mask) / 10)
1623
1624 /* DIGITS_<11-20> are only used on machines with 64-bit wgints. */
1625
1626 #define DIGITS_11(mask) PR (mask), n %= (mask), DIGITS_10 ((mask) / 10)
1627 #define DIGITS_12(mask) PR (mask), n %= (mask), DIGITS_11 ((mask) / 10)
1628 #define DIGITS_13(mask) PR (mask), n %= (mask), DIGITS_12 ((mask) / 10)
1629 #define DIGITS_14(mask) PR (mask), n %= (mask), DIGITS_13 ((mask) / 10)
1630 #define DIGITS_15(mask) PR (mask), n %= (mask), DIGITS_14 ((mask) / 10)
1631 #define DIGITS_16(mask) PR (mask), n %= (mask), DIGITS_15 ((mask) / 10)
1632 #define DIGITS_17(mask) PR (mask), n %= (mask), DIGITS_16 ((mask) / 10)
1633 #define DIGITS_18(mask) PR (mask), n %= (mask), DIGITS_17 ((mask) / 10)
1634 #define DIGITS_19(mask) PR (mask), n %= (mask), DIGITS_18 ((mask) / 10)
1635
1636 /* Shorthand for casting to wgint. */
1637 #define W wgint
1638
1639 /* Print NUMBER to BUFFER in base 10.  This is equivalent to
1640    `sprintf(buffer, "%lld", (long long) number)', only typically much
1641    faster and portable to machines without long long.
1642
1643    The speedup may make a difference in programs that frequently
1644    convert numbers to strings.  Some implementations of sprintf,
1645    particularly the one in some versions of GNU libc, have been known
1646    to be quite slow when converting integers to strings.
1647
1648    Return the pointer to the location where the terminating zero was
1649    printed.  (Equivalent to calling buffer+strlen(buffer) after the
1650    function is done.)
1651
1652    BUFFER should be large enough to accept as many bytes as you expect
1653    the number to take up.  On machines with 64-bit wgints the maximum
1654    needed size is 24 bytes.  That includes the digits needed for the
1655    largest 64-bit number, the `-' sign in case it's negative, and the
1656    terminating '\0'.  */
1657
1658 char *
1659 number_to_string (char *buffer, wgint number)
1660 {
1661   char *p = buffer;
1662   wgint n = number;
1663
1664   int last_digit_char = 0;
1665
1666 #if (SIZEOF_WGINT != 4) && (SIZEOF_WGINT != 8)
1667   /* We are running in a very strange environment.  Leave the correct
1668      printing to sprintf.  */
1669   p += sprintf (buf, "%j", (intmax_t) (n));
1670 #else  /* (SIZEOF_WGINT == 4) || (SIZEOF_WGINT == 8) */
1671
1672   if (n < 0)
1673     {
1674       if (n < -WGINT_MAX)
1675         {
1676           /* n = -n would overflow because -n would evaluate to a
1677              wgint value larger than WGINT_MAX.  Need to make n
1678              smaller and handle the last digit separately.  */
1679           int last_digit = n % 10;
1680           /* The sign of n%10 is implementation-defined. */
1681           if (last_digit < 0)
1682             last_digit_char = '0' - last_digit;
1683           else
1684             last_digit_char = '0' + last_digit;
1685           /* After n is made smaller, -n will not overflow. */
1686           n /= 10;
1687         }
1688
1689       *p++ = '-';
1690       n = -n;
1691     }
1692
1693   /* Use the DIGITS_ macro appropriate for N's number of digits.  That
1694      way printing any N is fully open-coded without a loop or jump.
1695      (Also see description of DIGITS_*.)  */
1696
1697   if      (n < 10)                       DIGITS_1 (1);
1698   else if (n < 100)                      DIGITS_2 (10);
1699   else if (n < 1000)                     DIGITS_3 (100);
1700   else if (n < 10000)                    DIGITS_4 (1000);
1701   else if (n < 100000)                   DIGITS_5 (10000);
1702   else if (n < 1000000)                  DIGITS_6 (100000);
1703   else if (n < 10000000)                 DIGITS_7 (1000000);
1704   else if (n < 100000000)                DIGITS_8 (10000000);
1705   else if (n < 1000000000)               DIGITS_9 (100000000);
1706 #if SIZEOF_WGINT == 4
1707   /* wgint is 32 bits wide: no number has more than 10 digits. */
1708   else                                   DIGITS_10 (1000000000);
1709 #else
1710   /* wgint is 64 bits wide: handle numbers with 9-19 decimal digits.
1711      Constants are constructed by compile-time multiplication to avoid
1712      dealing with different notations for 64-bit constants
1713      (nL/nLL/nI64, depending on the compiler and architecture).  */
1714   else if (n < 10*(W)1000000000)         DIGITS_10 (1000000000);
1715   else if (n < 100*(W)1000000000)        DIGITS_11 (10*(W)1000000000);
1716   else if (n < 1000*(W)1000000000)       DIGITS_12 (100*(W)1000000000);
1717   else if (n < 10000*(W)1000000000)      DIGITS_13 (1000*(W)1000000000);
1718   else if (n < 100000*(W)1000000000)     DIGITS_14 (10000*(W)1000000000);
1719   else if (n < 1000000*(W)1000000000)    DIGITS_15 (100000*(W)1000000000);
1720   else if (n < 10000000*(W)1000000000)   DIGITS_16 (1000000*(W)1000000000);
1721   else if (n < 100000000*(W)1000000000)  DIGITS_17 (10000000*(W)1000000000);
1722   else if (n < 1000000000*(W)1000000000) DIGITS_18 (100000000*(W)1000000000);
1723   else                                   DIGITS_19 (1000000000*(W)1000000000);
1724 #endif
1725
1726   if (last_digit_char)
1727     *p++ = last_digit_char;
1728
1729   *p = '\0';
1730 #endif /* (SIZEOF_WGINT == 4) || (SIZEOF_WGINT == 8) */
1731
1732   return p;
1733 }
1734
1735 #undef PR
1736 #undef W
1737 #undef SPRINTF_WGINT
1738 #undef DIGITS_1
1739 #undef DIGITS_2
1740 #undef DIGITS_3
1741 #undef DIGITS_4
1742 #undef DIGITS_5
1743 #undef DIGITS_6
1744 #undef DIGITS_7
1745 #undef DIGITS_8
1746 #undef DIGITS_9
1747 #undef DIGITS_10
1748 #undef DIGITS_11
1749 #undef DIGITS_12
1750 #undef DIGITS_13
1751 #undef DIGITS_14
1752 #undef DIGITS_15
1753 #undef DIGITS_16
1754 #undef DIGITS_17
1755 #undef DIGITS_18
1756 #undef DIGITS_19
1757
1758 #define RING_SIZE 3
1759
1760 /* Print NUMBER to a statically allocated string and return a pointer
1761    to the printed representation.
1762
1763    This function is intended to be used in conjunction with printf.
1764    It is hard to portably print wgint values:
1765     a) you cannot use printf("%ld", number) because wgint can be long
1766        long on 32-bit machines with LFS.
1767     b) you cannot use printf("%lld", number) because NUMBER could be
1768        long on 32-bit machines without LFS, or on 64-bit machines,
1769        which do not require LFS.  Also, Windows doesn't support %lld.
1770     c) you cannot use printf("%j", (int_max_t) number) because not all
1771        versions of printf support "%j", the most notable being the one
1772        on Windows.
1773     d) you cannot #define WGINT_FMT to the appropriate format and use
1774        printf(WGINT_FMT, number) because that would break translations
1775        for user-visible messages, such as printf("Downloaded: %d
1776        bytes\n", number).
1777
1778    What you should use instead is printf("%s", number_to_static_string
1779    (number)).
1780
1781    CAVEAT: since the function returns pointers to static data, you
1782    must be careful to copy its result before calling it again.
1783    However, to make it more useful with printf, the function maintains
1784    an internal ring of static buffers to return.  That way things like
1785    printf("%s %s", number_to_static_string (num1),
1786    number_to_static_string (num2)) work as expected.  Three buffers
1787    are currently used, which means that "%s %s %s" will work, but "%s
1788    %s %s %s" won't.  If you need to print more than three wgints,
1789    bump the RING_SIZE (or rethink your message.)  */
1790
1791 char *
1792 number_to_static_string (wgint number)
1793 {
1794   static char ring[RING_SIZE][24];
1795   static int ringpos;
1796   char *buf = ring[ringpos];
1797   number_to_string (buf, number);
1798   ringpos = (ringpos + 1) % RING_SIZE;
1799   return buf;
1800 }
1801 \f
1802 /* Determine the width of the terminal we're running on.  If that's
1803    not possible, return 0.  */
1804
1805 int
1806 determine_screen_width (void)
1807 {
1808   /* If there's a way to get the terminal size using POSIX
1809      tcgetattr(), somebody please tell me.  */
1810 #ifdef TIOCGWINSZ
1811   int fd;
1812   struct winsize wsz;
1813
1814   if (opt.lfilename != NULL)
1815     return 0;
1816
1817   fd = fileno (stderr);
1818   if (ioctl (fd, TIOCGWINSZ, &wsz) < 0)
1819     return 0;                   /* most likely ENOTTY */
1820
1821   return wsz.ws_col;
1822 #elif defined(WINDOWS)
1823   CONSOLE_SCREEN_BUFFER_INFO csbi;
1824   if (!GetConsoleScreenBufferInfo (GetStdHandle (STD_ERROR_HANDLE), &csbi))
1825     return 0;
1826   return csbi.dwSize.X;
1827 #else  /* neither TIOCGWINSZ nor WINDOWS */
1828   return 0;
1829 #endif /* neither TIOCGWINSZ nor WINDOWS */
1830 }
1831 \f
1832 /* Whether the rnd system (either rand or [dl]rand48) has been
1833    seeded.  */
1834 static int rnd_seeded;
1835
1836 /* Return a random number between 0 and MAX-1, inclusive.
1837
1838    If the system does not support lrand48 and MAX is greater than the
1839    value of RAND_MAX+1 on the system, the returned value will be in
1840    the range [0, RAND_MAX].  This may be fixed in a future release.
1841    The random number generator is seeded automatically the first time
1842    it is called.
1843
1844    This uses lrand48 where available, rand elsewhere.  DO NOT use it
1845    for cryptography.  It is only meant to be used in situations where
1846    quality of the random numbers returned doesn't really matter.  */
1847
1848 int
1849 random_number (int max)
1850 {
1851 #ifdef HAVE_DRAND48
1852   if (!rnd_seeded)
1853     {
1854       srand48 ((long) time (NULL) ^ (long) getpid ());
1855       rnd_seeded = 1;
1856     }
1857   return lrand48 () % max;
1858 #else  /* not HAVE_DRAND48 */
1859
1860   double bounded;
1861   int rnd;
1862   if (!rnd_seeded)
1863     {
1864       srand ((unsigned) time (NULL) ^ (unsigned) getpid ());
1865       rnd_seeded = 1;
1866     }
1867   rnd = rand ();
1868
1869   /* Like rand() % max, but uses the high-order bits for better
1870      randomness on architectures where rand() is implemented using a
1871      simple congruential generator.  */
1872
1873   bounded = (double) max * rnd / (RAND_MAX + 1.0);
1874   return (int) bounded;
1875
1876 #endif /* not HAVE_DRAND48 */
1877 }
1878
1879 /* Return a random uniformly distributed floating point number in the
1880    [0, 1) range.  Uses drand48 where available, and a really lame
1881    kludge elsewhere.  */
1882
1883 double
1884 random_float (void)
1885 {
1886 #ifdef HAVE_DRAND48
1887   if (!rnd_seeded)
1888     {
1889       srand48 ((long) time (NULL) ^ (long) getpid ());
1890       rnd_seeded = 1;
1891     }
1892   return drand48 ();
1893 #else  /* not HAVE_DRAND48 */
1894   return (  random_number (10000) / 10000.0
1895           + random_number (10000) / (10000.0 * 10000.0)
1896           + random_number (10000) / (10000.0 * 10000.0 * 10000.0)
1897           + random_number (10000) / (10000.0 * 10000.0 * 10000.0 * 10000.0));
1898 #endif /* not HAVE_DRAND48 */
1899 }
1900 \f
1901 /* Implementation of run_with_timeout, a generic timeout-forcing
1902    routine for systems with Unix-like signal handling.  */
1903
1904 #ifdef USE_SIGNAL_TIMEOUT
1905 # ifdef HAVE_SIGSETJMP
1906 #  define SETJMP(env) sigsetjmp (env, 1)
1907
1908 static sigjmp_buf run_with_timeout_env;
1909
1910 static void
1911 abort_run_with_timeout (int sig)
1912 {
1913   assert (sig == SIGALRM);
1914   siglongjmp (run_with_timeout_env, -1);
1915 }
1916 # else /* not HAVE_SIGSETJMP */
1917 #  define SETJMP(env) setjmp (env)
1918
1919 static jmp_buf run_with_timeout_env;
1920
1921 static void
1922 abort_run_with_timeout (int sig)
1923 {
1924   assert (sig == SIGALRM);
1925   /* We don't have siglongjmp to preserve the set of blocked signals;
1926      if we longjumped out of the handler at this point, SIGALRM would
1927      remain blocked.  We must unblock it manually. */
1928   int mask = siggetmask ();
1929   mask &= ~sigmask (SIGALRM);
1930   sigsetmask (mask);
1931
1932   /* Now it's safe to longjump. */
1933   longjmp (run_with_timeout_env, -1);
1934 }
1935 # endif /* not HAVE_SIGSETJMP */
1936
1937 /* Arrange for SIGALRM to be delivered in TIMEOUT seconds.  This uses
1938    setitimer where available, alarm otherwise.
1939
1940    TIMEOUT should be non-zero.  If the timeout value is so small that
1941    it would be rounded to zero, it is rounded to the least legal value
1942    instead (1us for setitimer, 1s for alarm).  That ensures that
1943    SIGALRM will be delivered in all cases.  */
1944
1945 static void
1946 alarm_set (double timeout)
1947 {
1948 #ifdef ITIMER_REAL
1949   /* Use the modern itimer interface. */
1950   struct itimerval itv;
1951   xzero (itv);
1952   itv.it_value.tv_sec = (long) timeout;
1953   itv.it_value.tv_usec = 1000000 * (timeout - (long)timeout);
1954   if (itv.it_value.tv_sec == 0 && itv.it_value.tv_usec == 0)
1955     /* Ensure that we wait for at least the minimum interval.
1956        Specifying zero would mean "wait forever".  */
1957     itv.it_value.tv_usec = 1;
1958   setitimer (ITIMER_REAL, &itv, NULL);
1959 #else  /* not ITIMER_REAL */
1960   /* Use the old alarm() interface. */
1961   int secs = (int) timeout;
1962   if (secs == 0)
1963     /* Round TIMEOUTs smaller than 1 to 1, not to zero.  This is
1964        because alarm(0) means "never deliver the alarm", i.e. "wait
1965        forever", which is not what someone who specifies a 0.5s
1966        timeout would expect.  */
1967     secs = 1;
1968   alarm (secs);
1969 #endif /* not ITIMER_REAL */
1970 }
1971
1972 /* Cancel the alarm set with alarm_set. */
1973
1974 static void
1975 alarm_cancel (void)
1976 {
1977 #ifdef ITIMER_REAL
1978   struct itimerval disable;
1979   xzero (disable);
1980   setitimer (ITIMER_REAL, &disable, NULL);
1981 #else  /* not ITIMER_REAL */
1982   alarm (0);
1983 #endif /* not ITIMER_REAL */
1984 }
1985
1986 /* Call FUN(ARG), but don't allow it to run for more than TIMEOUT
1987    seconds.  Returns true if the function was interrupted with a
1988    timeout, false otherwise.
1989
1990    This works by setting up SIGALRM to be delivered in TIMEOUT seconds
1991    using setitimer() or alarm().  The timeout is enforced by
1992    longjumping out of the SIGALRM handler.  This has several
1993    advantages compared to the traditional approach of relying on
1994    signals causing system calls to exit with EINTR:
1995
1996      * The callback function is *forcibly* interrupted after the
1997        timeout expires, (almost) regardless of what it was doing and
1998        whether it was in a syscall.  For example, a calculation that
1999        takes a long time is interrupted as reliably as an IO
2000        operation.
2001
2002      * It works with both SYSV and BSD signals because it doesn't
2003        depend on the default setting of SA_RESTART.
2004
2005      * It doesn't require special handler setup beyond a simple call
2006        to signal().  (It does use sigsetjmp/siglongjmp, but they're
2007        optional.)
2008
2009    The only downside is that, if FUN allocates internal resources that
2010    are normally freed prior to exit from the functions, they will be
2011    lost in case of timeout.  */
2012
2013 bool
2014 run_with_timeout (double timeout, void (*fun) (void *), void *arg)
2015 {
2016   int saved_errno;
2017
2018   if (timeout == 0)
2019     {
2020       fun (arg);
2021       return false;
2022     }
2023
2024   signal (SIGALRM, abort_run_with_timeout);
2025   if (SETJMP (run_with_timeout_env) != 0)
2026     {
2027       /* Longjumped out of FUN with a timeout. */
2028       signal (SIGALRM, SIG_DFL);
2029       return true;
2030     }
2031   alarm_set (timeout);
2032   fun (arg);
2033
2034   /* Preserve errno in case alarm() or signal() modifies it. */
2035   saved_errno = errno;
2036   alarm_cancel ();
2037   signal (SIGALRM, SIG_DFL);
2038   errno = saved_errno;
2039
2040   return false;
2041 }
2042
2043 #else  /* not USE_SIGNAL_TIMEOUT */
2044
2045 #ifndef WINDOWS
2046 /* A stub version of run_with_timeout that just calls FUN(ARG).  Don't
2047    define it under Windows, because Windows has its own version of
2048    run_with_timeout that uses threads.  */
2049
2050 bool
2051 run_with_timeout (double timeout, void (*fun) (void *), void *arg)
2052 {
2053   fun (arg);
2054   return false;
2055 }
2056 #endif /* not WINDOWS */
2057 #endif /* not USE_SIGNAL_TIMEOUT */
2058 \f
2059 #ifndef WINDOWS
2060
2061 /* Sleep the specified amount of seconds.  On machines without
2062    nanosleep(), this may sleep shorter if interrupted by signals.  */
2063
2064 void
2065 xsleep (double seconds)
2066 {
2067 #ifdef HAVE_NANOSLEEP
2068   /* nanosleep is the preferred interface because it offers high
2069      accuracy and, more importantly, because it allows us to reliably
2070      restart receiving a signal such as SIGWINCH.  (There was an
2071      actual Debian bug report about --limit-rate malfunctioning while
2072      the terminal was being resized.)  */
2073   struct timespec sleep, remaining;
2074   sleep.tv_sec = (long) seconds;
2075   sleep.tv_nsec = 1000000000 * (seconds - (long) seconds);
2076   while (nanosleep (&sleep, &remaining) < 0 && errno == EINTR)
2077     /* If nanosleep has been interrupted by a signal, adjust the
2078        sleeping period and return to sleep.  */
2079     sleep = remaining;
2080 #elif defined(HAVE_USLEEP)
2081   /* If usleep is available, use it in preference to select.  */
2082   if (seconds >= 1)
2083     {
2084       /* On some systems, usleep cannot handle values larger than
2085          1,000,000.  If the period is larger than that, use sleep
2086          first, then add usleep for subsecond accuracy.  */
2087       sleep (seconds);
2088       seconds -= (long) seconds;
2089     }
2090   usleep (seconds * 1000000);
2091 #else /* fall back select */
2092   /* Note that, although Windows supports select, it can't be used to
2093      implement sleeping because Winsock's select doesn't implement
2094      timeout when it is passed NULL pointers for all fd sets.  (But it
2095      does under Cygwin, which implements Unix-compatible select.)  */
2096   struct timeval sleep;
2097   sleep.tv_sec = (long) seconds;
2098   sleep.tv_usec = 1000000 * (seconds - (long) seconds);
2099   select (0, NULL, NULL, NULL, &sleep);
2100   /* If select returns -1 and errno is EINTR, it means we were
2101      interrupted by a signal.  But without knowing how long we've
2102      actually slept, we can't return to sleep.  Using gettimeofday to
2103      track sleeps is slow and unreliable due to clock skew.  */
2104 #endif
2105 }
2106
2107 #endif /* not WINDOWS */
2108
2109 /* Encode the octets in DATA of length LENGTH to base64 format,
2110    storing the result to DEST.  The output will be zero-terminated,
2111    and must point to a writable buffer of at least
2112    1+BASE64_LENGTH(length) bytes.  The function returns the length of
2113    the resulting base64 data, not counting the terminating zero.
2114
2115    This implementation does not emit newlines after 76 characters of
2116    base64 data.  */
2117
2118 int
2119 base64_encode (const void *data, int length, char *dest)
2120 {
2121   /* Conversion table.  */
2122   static const char tbl[64] = {
2123     'A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P',
2124     'Q','R','S','T','U','V','W','X','Y','Z','a','b','c','d','e','f',
2125     'g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v',
2126     'w','x','y','z','0','1','2','3','4','5','6','7','8','9','+','/'
2127   };
2128   /* Access bytes in DATA as unsigned char, otherwise the shifts below
2129      don't work for data with MSB set. */
2130   const unsigned char *s = data;
2131   /* Theoretical ANSI violation when length < 3. */
2132   const unsigned char *end = (const unsigned char *) data + length - 2;
2133   char *p = dest;
2134
2135   /* Transform the 3x8 bits to 4x6 bits, as required by base64.  */
2136   for (; s < end; s += 3)
2137     {
2138       *p++ = tbl[s[0] >> 2];
2139       *p++ = tbl[((s[0] & 3) << 4) + (s[1] >> 4)];
2140       *p++ = tbl[((s[1] & 0xf) << 2) + (s[2] >> 6)];
2141       *p++ = tbl[s[2] & 0x3f];
2142     }
2143
2144   /* Pad the result if necessary...  */
2145   switch (length % 3)
2146     {
2147     case 1:
2148       *p++ = tbl[s[0] >> 2];
2149       *p++ = tbl[(s[0] & 3) << 4];
2150       *p++ = '=';
2151       *p++ = '=';
2152       break;
2153     case 2:
2154       *p++ = tbl[s[0] >> 2];
2155       *p++ = tbl[((s[0] & 3) << 4) + (s[1] >> 4)];
2156       *p++ = tbl[((s[1] & 0xf) << 2)];
2157       *p++ = '=';
2158       break;
2159     }
2160   /* ...and zero-terminate it.  */
2161   *p = '\0';
2162
2163   return p - dest;
2164 }
2165
2166 /* Store in C the next non-whitespace character from the string, or \0
2167    when end of string is reached.  */
2168 #define NEXT_CHAR(c, p) do {                    \
2169   c = (unsigned char) *p++;                     \
2170 } while (c_isspace (c))
2171
2172 #define IS_ASCII(c) (((c) & 0x80) == 0)
2173
2174 /* Decode data from BASE64 (a null-terminated string) into memory
2175    pointed to by DEST.  DEST is assumed to be large enough to
2176    accomodate the decoded data, which is guaranteed to be no more than
2177    3/4*strlen(base64).
2178
2179    Since DEST is assumed to contain binary data, it is not
2180    NUL-terminated.  The function returns the length of the data
2181    written to TO.  -1 is returned in case of error caused by malformed
2182    base64 input.
2183
2184    This function originates from Free Recode.  */
2185
2186 int
2187 base64_decode (const char *base64, void *dest)
2188 {
2189   /* Table of base64 values for first 128 characters.  Note that this
2190      assumes ASCII (but so does Wget in other places).  */
2191   static const signed char base64_char_to_value[128] =
2192     {
2193       -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  /*   0-  9 */
2194       -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  /*  10- 19 */
2195       -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  /*  20- 29 */
2196       -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  /*  30- 39 */
2197       -1,  -1,  -1,  62,  -1,  -1,  -1,  63,  52,  53,  /*  40- 49 */
2198       54,  55,  56,  57,  58,  59,  60,  61,  -1,  -1,  /*  50- 59 */
2199       -1,  -1,  -1,  -1,  -1,  0,   1,   2,   3,   4,   /*  60- 69 */
2200       5,   6,   7,   8,   9,   10,  11,  12,  13,  14,  /*  70- 79 */
2201       15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  /*  80- 89 */
2202       25,  -1,  -1,  -1,  -1,  -1,  -1,  26,  27,  28,  /*  90- 99 */
2203       29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  /* 100-109 */
2204       39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  /* 110-119 */
2205       49,  50,  51,  -1,  -1,  -1,  -1,  -1             /* 120-127 */
2206     };
2207 #define BASE64_CHAR_TO_VALUE(c) ((int) base64_char_to_value[c])
2208 #define IS_BASE64(c) ((IS_ASCII (c) && BASE64_CHAR_TO_VALUE (c) >= 0) || c == '=')
2209
2210   const char *p = base64;
2211   char *q = dest;
2212
2213   while (1)
2214     {
2215       unsigned char c;
2216       unsigned long value;
2217
2218       /* Process first byte of a quadruplet.  */
2219       NEXT_CHAR (c, p);
2220       if (!c)
2221         break;
2222       if (c == '=' || !IS_BASE64 (c))
2223         return -1;              /* illegal char while decoding base64 */
2224       value = BASE64_CHAR_TO_VALUE (c) << 18;
2225
2226       /* Process second byte of a quadruplet.  */
2227       NEXT_CHAR (c, p);
2228       if (!c)
2229         return -1;              /* premature EOF while decoding base64 */
2230       if (c == '=' || !IS_BASE64 (c))
2231         return -1;              /* illegal char while decoding base64 */
2232       value |= BASE64_CHAR_TO_VALUE (c) << 12;
2233       *q++ = value >> 16;
2234
2235       /* Process third byte of a quadruplet.  */
2236       NEXT_CHAR (c, p);
2237       if (!c)
2238         return -1;              /* premature EOF while decoding base64 */
2239       if (!IS_BASE64 (c))
2240         return -1;              /* illegal char while decoding base64 */
2241
2242       if (c == '=')
2243         {
2244           NEXT_CHAR (c, p);
2245           if (!c)
2246             return -1;          /* premature EOF while decoding base64 */
2247           if (c != '=')
2248             return -1;          /* padding `=' expected but not found */
2249           continue;
2250         }
2251
2252       value |= BASE64_CHAR_TO_VALUE (c) << 6;
2253       *q++ = 0xff & value >> 8;
2254
2255       /* Process fourth byte of a quadruplet.  */
2256       NEXT_CHAR (c, p);
2257       if (!c)
2258         return -1;              /* premature EOF while decoding base64 */
2259       if (c == '=')
2260         continue;
2261       if (!IS_BASE64 (c))
2262         return -1;              /* illegal char while decoding base64 */
2263
2264       value |= BASE64_CHAR_TO_VALUE (c);
2265       *q++ = 0xff & value;
2266     }
2267 #undef IS_BASE64
2268 #undef BASE64_CHAR_TO_VALUE
2269
2270   return q - (char *) dest;
2271 }
2272
2273 #undef IS_ASCII
2274 #undef NEXT_CHAR
2275 \f
2276 /* Simple merge sort for use by stable_sort.  Implementation courtesy
2277    Zeljko Vrba with additional debugging by Nenad Barbutov.  */
2278
2279 static void
2280 mergesort_internal (void *base, void *temp, size_t size, size_t from, size_t to,
2281                     int (*cmpfun) (const void *, const void *))
2282 {
2283 #define ELT(array, pos) ((char *)(array) + (pos) * size)
2284   if (from < to)
2285     {
2286       size_t i, j, k;
2287       size_t mid = (to + from) / 2;
2288       mergesort_internal (base, temp, size, from, mid, cmpfun);
2289       mergesort_internal (base, temp, size, mid + 1, to, cmpfun);
2290       i = from;
2291       j = mid + 1;
2292       for (k = from; (i <= mid) && (j <= to); k++)
2293         if (cmpfun (ELT (base, i), ELT (base, j)) <= 0)
2294           memcpy (ELT (temp, k), ELT (base, i++), size);
2295         else
2296           memcpy (ELT (temp, k), ELT (base, j++), size);
2297       while (i <= mid)
2298         memcpy (ELT (temp, k++), ELT (base, i++), size);
2299       while (j <= to)
2300         memcpy (ELT (temp, k++), ELT (base, j++), size);
2301       for (k = from; k <= to; k++)
2302         memcpy (ELT (base, k), ELT (temp, k), size);
2303     }
2304 #undef ELT
2305 }
2306
2307 /* Stable sort with interface exactly like standard library's qsort.
2308    Uses mergesort internally, allocating temporary storage with
2309    alloca.  */
2310
2311 void
2312 stable_sort (void *base, size_t nmemb, size_t size,
2313              int (*cmpfun) (const void *, const void *))
2314 {
2315   if (size > 1)
2316     {
2317       void *temp = alloca (nmemb * size * sizeof (void *));
2318       mergesort_internal (base, temp, size, 0, nmemb - 1, cmpfun);
2319     }
2320 }
2321 \f
2322 /* Print a decimal number.  If it is equal to or larger than ten, the
2323    number is rounded.  Otherwise it is printed with one significant
2324    digit without trailing zeros and with no more than three fractional
2325    digits total.  For example, 0.1 is printed as "0.1", 0.035 is
2326    printed as "0.04", 0.0091 as "0.009", and 0.0003 as simply "0".
2327
2328    This is useful for displaying durations because it provides
2329    order-of-magnitude information without unnecessary clutter --
2330    long-running downloads are shown without the fractional part, and
2331    short ones still retain one significant digit.  */
2332
2333 const char *
2334 print_decimal (double number)
2335 {
2336   static char buf[32];
2337   double n = number >= 0 ? number : -number;
2338
2339   if (n >= 9.95)
2340     /* Cut off at 9.95 because the below %.1f would round 9.96 to
2341        "10.0" instead of "10".  OTOH 9.94 will print as "9.9".  */
2342     snprintf (buf, sizeof buf, "%.0f", number);
2343   else if (n >= 0.95)
2344     snprintf (buf, sizeof buf, "%.1f", number);
2345   else if (n >= 0.001)
2346     snprintf (buf, sizeof buf, "%.1g", number);
2347   else if (n >= 0.0005)
2348     /* round [0.0005, 0.001) to 0.001 */
2349     snprintf (buf, sizeof buf, "%.3f", number);
2350   else
2351     /* print numbers close to 0 as 0, not 0.000 */
2352     strcpy (buf, "0");
2353
2354   return buf;
2355 }
2356
2357 #ifdef TESTING
2358
2359 const char *
2360 test_subdir_p()
2361 {
2362   int i;
2363   struct {
2364     char *d1;
2365     char *d2;
2366     bool result;
2367   } test_array[] = {
2368     { "/somedir", "/somedir", true },
2369     { "/somedir", "/somedir/d2", true },
2370     { "/somedir/d1", "/somedir", false },
2371   };
2372
2373   for (i = 0; i < countof(test_array); ++i)
2374     {
2375       bool res = subdir_p (test_array[i].d1, test_array[i].d2);
2376
2377       mu_assert ("test_subdir_p: wrong result",
2378                  res == test_array[i].result);
2379     }
2380
2381   return NULL;
2382 }
2383
2384 const char *
2385 test_dir_matches_p()
2386 {
2387   int i;
2388   struct {
2389     char *dirlist[3];
2390     char *dir;
2391     bool result;
2392   } test_array[] = {
2393     { { "/somedir", "/someotherdir", NULL }, "somedir", true },
2394     { { "/somedir", "/someotherdir", NULL }, "anotherdir", false },
2395     { { "/somedir", "/*otherdir", NULL }, "anotherdir", true },
2396     { { "/somedir/d1", "/someotherdir", NULL }, "somedir/d1", true },
2397     { { "*/*d1", "/someotherdir", NULL }, "somedir/d1", true },
2398     { { "/somedir/d1", "/someotherdir", NULL }, "d1", false },
2399     { { "!COMPLETE", NULL, NULL }, "!COMPLETE", true },
2400     { { "*COMPLETE", NULL, NULL }, "!COMPLETE", true },
2401     { { "*/!COMPLETE", NULL, NULL }, "foo/!COMPLETE", true },
2402     { { "*COMPLETE", NULL, NULL }, "foo/!COMPLETE", false },
2403     { { "*/*COMPLETE", NULL, NULL }, "foo/!COMPLETE", true },
2404     { { "/dir with spaces", NULL, NULL }, "dir with spaces", true },
2405     { { "/dir*with*spaces", NULL, NULL }, "dir with spaces", true },
2406     { { "/Tmp/has", NULL, NULL }, "/Tmp/has space", false },
2407     { { "/Tmp/has", NULL, NULL }, "/Tmp/has,comma", false },
2408   };
2409
2410   for (i = 0; i < countof(test_array); ++i)
2411     {
2412       bool res = dir_matches_p (test_array[i].dirlist, test_array[i].dir);
2413
2414       mu_assert ("test_dir_matches_p: wrong result",
2415                  res == test_array[i].result);
2416     }
2417
2418   return NULL;
2419 }
2420
2421 #endif /* TESTING */
2422