]> sjero.net Git - wget/blob - src/utils.c
Fix ISDIGIT to c_isdigit.
[wget] / src / utils.c
1 /* Various utility functions.
2    Copyright (C) 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003,
3    2004, 2005, 2006, 2007, 2008 Free Software Foundation, Inc.
4
5 This file is part of GNU Wget.
6
7 GNU Wget is free software; you can redistribute it and/or modify
8 it under the terms of the GNU General Public License as published by
9 the Free Software Foundation; either version 3 of the License, or
10 (at your option) any later version.
11
12 GNU Wget is distributed in the hope that it will be useful,
13 but WITHOUT ANY WARRANTY; without even the implied warranty of
14 MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15 GNU General Public License for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with Wget.  If not, see <http://www.gnu.org/licenses/>.
19
20 Additional permission under GNU GPL version 3 section 7
21
22 If you modify this program, or any covered work, by linking or
23 combining it with the OpenSSL project's OpenSSL library (or a
24 modified version of that library), containing parts covered by the
25 terms of the OpenSSL or SSLeay licenses, the Free Software Foundation
26 grants you additional permission to convey the resulting work.
27 Corresponding Source for a non-source form of such a combination
28 shall include the source code for the parts of OpenSSL used as well
29 as that of the covered work.  */
30
31 #include "wget.h"
32
33 #include <stdio.h>
34 #include <stdlib.h>
35 #include <string.h>
36 #include <time.h>
37 #ifdef HAVE_SYS_TIME_H
38 # include <sys/time.h>
39 #endif
40 #ifdef HAVE_UNISTD_H
41 # include <unistd.h>
42 #endif
43 #ifdef HAVE_MMAP
44 # include <sys/mman.h>
45 #endif
46 #ifdef HAVE_PROCESS_H
47 # include <process.h>  /* getpid() */
48 #endif
49 #ifdef HAVE_UTIME_H
50 # include <utime.h>
51 #endif
52 #ifdef HAVE_SYS_UTIME_H
53 # include <sys/utime.h>
54 #endif
55 #include <errno.h>
56 #include <fcntl.h>
57 #include <assert.h>
58 #include <stdarg.h>
59 #include <locale.h>
60
61 /* For TIOCGWINSZ and friends: */
62 #ifdef HAVE_SYS_IOCTL_H
63 # include <sys/ioctl.h>
64 #endif
65 #ifdef HAVE_TERMIOS_H
66 # include <termios.h>
67 #endif
68
69 /* Needed for Unix version of run_with_timeout. */
70 #include <signal.h>
71 #include <setjmp.h>
72
73 #ifndef HAVE_SIGSETJMP
74 /* If sigsetjmp is a macro, configure won't pick it up. */
75 # ifdef sigsetjmp
76 #  define HAVE_SIGSETJMP
77 # endif
78 #endif
79
80 #if defined HAVE_SIGSETJMP || defined HAVE_SIGBLOCK
81 # define USE_SIGNAL_TIMEOUT
82 #endif
83
84 #include "utils.h"
85 #include "hash.h"
86
87 #ifdef __VMS
88 #include "vms.h"
89 #endif /* def __VMS */
90
91 #ifdef TESTING
92 #include "test.h"
93 #endif 
94
95 /* Character property table for (re-)escaping VMS ODS5 extended file
96    names.  Note that this table ignores Unicode.
97
98    ODS2 valid characters: 0-9 A-Z a-z $ - _ ~
99
100    ODS5 Invalid characters:
101       C0 control codes (0x00 to 0x1F inclusive)
102       Asterisk (*)
103       Question mark (?)
104
105    ODS5 Invalid characters only in VMS V7.2 (which no one runs, right?):
106       Double quotation marks (")
107       Backslash (\)
108       Colon (:)
109       Left angle bracket (<)
110       Right angle bracket (>)
111       Slash (/)
112       Vertical bar (|)
113
114    Characters escaped by "^":
115       SP  !  #  %  &  '  (  )  +  ,  .  ;  =  @  [  ]  ^  `  {  }  ~
116
117    Either "^_" or "^ " is accepted as a space.  Period (.) is a special
118    case.  Note that un-escaped < and > can also confuse a directory
119    spec.
120
121    Characters put out as ^xx:
122       7F (DEL)
123       80-9F (C1 control characters)
124       A0 (nonbreaking space)
125       FF (Latin small letter y diaeresis)
126
127    Other cases:
128       Unicode: "^Uxxxx", where "xxxx" is four hex digits.
129
130     Property table values:
131       Normal escape:    1
132       Space:            2
133       Dot:              4
134       Hex-hex escape:   8
135       ODS2 normal:     16
136       ODS2 lower case: 32
137       Hex digit:       64
138 */
139
140 unsigned char char_prop[ 256] = {
141
142 /* NUL SOH STX ETX EOT ENQ ACK BEL   BS  HT  LF  VT  FF  CR  SO  SI */
143     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
144
145 /* DLE DC1 DC2 DC3 DC4 NAK SYN ETB  CAN  EM SUB ESC  FS  GS  RS  US */
146     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
147
148 /*  SP  !   "   #   $   %   &   '    (   )   *   +   ,   -   .   /  */
149     2,  1,  0,  1, 16,  1,  1,  1,   1,  1,  0,  1,  1, 16,  4,  0,
150
151 /*  0   1   2   3   4   5   6   7    8   9   :   ;   <   =   >   ?  */
152    80, 80, 80, 80, 80, 80, 80, 80,  80, 80,  0,  1,  1,  1,  1,  1,
153
154 /*  @   A   B   C   D   E   F   G    H   I   J   K   L   M   N   O  */
155     1, 80, 80, 80, 80, 80, 80, 16,  16, 16, 16, 16, 16, 16, 16, 16,
156
157 /*  P   Q   R   S   T   U   V   W    X   Y   Z   [   \   ]   ^   _  */
158    16, 16, 16, 16, 16, 16, 16, 16,  16, 16, 16,  1,  0,  1,  1, 16,
159
160 /*  `   a   b   c   d   e   f   g    h   i   j   k   l   m   n   o  */
161     1, 96, 96, 96, 96, 96, 96, 32,  32, 32, 32, 32, 32, 32, 32, 32,
162
163 /*  p   q   r   s   t   u   v   w    x   y   z   {   |   }   ~  DEL */
164    32, 32, 32, 32, 32, 32, 32, 32,  32, 32, 32,  1,  0,  1, 17,  8,
165
166     8,  8,  8,  8,  8,  8,  8,  8,   8,  8,  8,  8,  8,  8,  8,  8,
167     8,  8,  8,  8,  8,  8,  8,  8,   8,  8,  8,  8,  8,  8,  8,  8,
168     8,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
169     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
170     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
171     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
172     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  0,
173     0,  0,  0,  0,  0,  0,  0,  0,   0,  0,  0,  0,  0,  0,  0,  8
174 };
175
176 /* Utility function: like xstrdup(), but also lowercases S.  */
177
178 char *
179 xstrdup_lower (const char *s)
180 {
181   char *copy = xstrdup (s);
182   char *p = copy;
183   for (; *p; p++)
184     *p = c_tolower (*p);
185   return copy;
186 }
187
188 /* Copy the string formed by two pointers (one on the beginning, other
189    on the char after the last char) to a new, malloc-ed location.
190    0-terminate it.  */
191 char *
192 strdupdelim (const char *beg, const char *end)
193 {
194   char *res = xmalloc (end - beg + 1);
195   memcpy (res, beg, end - beg);
196   res[end - beg] = '\0';
197   return res;
198 }
199
200 /* Parse a string containing comma-separated elements, and return a
201    vector of char pointers with the elements.  Spaces following the
202    commas are ignored.  */
203 char **
204 sepstring (const char *s)
205 {
206   char **res;
207   const char *p;
208   int i = 0;
209
210   if (!s || !*s)
211     return NULL;
212   res = NULL;
213   p = s;
214   while (*s)
215     {
216       if (*s == ',')
217         {
218           res = xrealloc (res, (i + 2) * sizeof (char *));
219           res[i] = strdupdelim (p, s);
220           res[++i] = NULL;
221           ++s;
222           /* Skip the blanks following the ','.  */
223           while (c_isspace (*s))
224             ++s;
225           p = s;
226         }
227       else
228         ++s;
229     }
230   res = xrealloc (res, (i + 2) * sizeof (char *));
231   res[i] = strdupdelim (p, s);
232   res[i + 1] = NULL;
233   return res;
234 }
235 \f
236 /* Like sprintf, but prints into a string of sufficient size freshly
237    allocated with malloc, which is returned.  If unable to print due
238    to invalid format, returns NULL.  Inability to allocate needed
239    memory results in abort, as with xmalloc.  This is in spirit
240    similar to the GNU/BSD extension asprintf, but somewhat easier to
241    use.
242
243    Internally the function either calls vasprintf or loops around
244    vsnprintf until the correct size is found.  Since Wget also ships a
245    fallback implementation of vsnprintf, this should be portable.  */
246
247 /* Constant is using for limits memory allocation for text buffer.
248    Applicable in situation when: vasprintf is not available in the system 
249    and vsnprintf return -1 when long line is truncated (in old versions of
250    glibc and in other system where C99 doesn`t support) */
251
252 #define FMT_MAX_LENGTH 1048576
253
254 char *
255 aprintf (const char *fmt, ...)
256 {
257 #if defined HAVE_VASPRINTF && !defined DEBUG_MALLOC
258   /* Use vasprintf. */
259   int ret;
260   va_list args;
261   char *str;
262   va_start (args, fmt);
263   ret = vasprintf (&str, fmt, args);
264   va_end (args);
265   if (ret < 0 && errno == ENOMEM)
266     memfatal ("aprintf", UNKNOWN_ATTEMPTED_SIZE);  /* for consistency
267                                                       with xmalloc/xrealloc */
268   else if (ret < 0)
269     return NULL;
270   return str;
271 #else  /* not HAVE_VASPRINTF */
272
273   /* vasprintf is unavailable.  snprintf into a small buffer and
274      resize it as necessary. */
275   int size = 32;
276   char *str = xmalloc (size);
277
278   /* #### This code will infloop and eventually abort in xrealloc if
279      passed a FMT that causes snprintf to consistently return -1.  */
280
281   while (1)
282     {
283       int n;
284       va_list args;
285
286       va_start (args, fmt);
287       n = vsnprintf (str, size, fmt, args);
288       va_end (args);
289
290       /* If the printing worked, return the string. */
291       if (n > -1 && n < size)
292         return str;
293
294       /* Else try again with a larger buffer. */
295       if (n > -1)               /* C99 */
296         size = n + 1;           /* precisely what is needed */
297       else if (size >= FMT_MAX_LENGTH)  /* We have a huge buffer, */
298         {                               /* maybe we have some wrong
299                                            format string? */
300           logprintf (LOG_ALWAYS, 
301                      _("%s: aprintf: text buffer is too big (%ld bytes), "
302                        "aborting.\n"),
303                      exec_name, size);  /* printout a log message */
304           abort ();                     /* and abort... */
305         }
306       else
307         {
308           /* else, we continue to grow our
309            * buffer: Twice the old size. */
310           size <<= 1;
311         }
312       str = xrealloc (str, size);
313     }
314 #endif /* not HAVE_VASPRINTF */
315 }
316
317 /* Concatenate the NULL-terminated list of string arguments into
318    freshly allocated space.  */
319
320 char *
321 concat_strings (const char *str0, ...)
322 {
323   va_list args;
324   int saved_lengths[5];         /* inspired by Apache's apr_pstrcat */
325   char *ret, *p;
326
327   const char *next_str;
328   int total_length = 0;
329   int argcount;
330
331   /* Calculate the length of and allocate the resulting string. */
332
333   argcount = 0;
334   va_start (args, str0);
335   for (next_str = str0; next_str != NULL; next_str = va_arg (args, char *))
336     {
337       int len = strlen (next_str);
338       if (argcount < countof (saved_lengths))
339         saved_lengths[argcount++] = len;
340       total_length += len;
341     }
342   va_end (args);
343   p = ret = xmalloc (total_length + 1);
344
345   /* Copy the strings into the allocated space. */
346
347   argcount = 0;
348   va_start (args, str0);
349   for (next_str = str0; next_str != NULL; next_str = va_arg (args, char *))
350     {
351       int len;
352       if (argcount < countof (saved_lengths))
353         len = saved_lengths[argcount++];
354       else
355         len = strlen (next_str);
356       memcpy (p, next_str, len);
357       p += len;
358     }
359   va_end (args);
360   *p = '\0';
361
362   return ret;
363 }
364 \f
365 /* Format the provided time according to the specified format.  The
366    format is a string with format elements supported by strftime.  */
367
368 static char *
369 fmttime (time_t t, const char *fmt)
370 {
371   static char output[32];
372   struct tm *tm = localtime(&t);
373   if (!tm)
374     abort ();
375   if (!strftime(output, sizeof(output), fmt, tm))
376     abort ();
377   return output;
378 }
379
380 /* Return pointer to a static char[] buffer in which zero-terminated
381    string-representation of TM (in form hh:mm:ss) is printed.
382
383    If TM is NULL, the current time will be used.  */
384
385 char *
386 time_str (time_t t)
387 {
388   return fmttime(t, "%H:%M:%S");
389 }
390
391 /* Like the above, but include the date: YYYY-MM-DD hh:mm:ss.  */
392
393 char *
394 datetime_str (time_t t)
395 {
396   return fmttime(t, "%Y-%m-%d %H:%M:%S");
397 }
398 \f
399 /* The Windows versions of the following two functions are defined in
400    mswindows.c. On MSDOS this function should never be called. */
401
402 #ifdef __VMS
403
404 void
405 fork_to_background (void)
406 {
407   return;
408 }
409
410 #else /* def __VMS */
411
412 #if !defined(WINDOWS) && !defined(MSDOS)
413 void
414 fork_to_background (void)
415 {
416   pid_t pid;
417   /* Whether we arrange our own version of opt.lfilename here.  */
418   bool logfile_changed = false;
419
420   if (!opt.lfilename && (!opt.quiet || opt.server_response))
421     {
422       /* We must create the file immediately to avoid either a race
423          condition (which arises from using unique_name and failing to
424          use fopen_excl) or lying to the user about the log file name
425          (which arises from using unique_name, printing the name, and
426          using fopen_excl later on.)  */
427       FILE *new_log_fp = unique_create (DEFAULT_LOGFILE, false, &opt.lfilename);
428       if (new_log_fp)
429         {
430           logfile_changed = true;
431           fclose (new_log_fp);
432         }
433     }
434   pid = fork ();
435   if (pid < 0)
436     {
437       /* parent, error */
438       perror ("fork");
439       exit (1);
440     }
441   else if (pid != 0)
442     {
443       /* parent, no error */
444       printf (_("Continuing in background, pid %d.\n"), (int) pid);
445       if (logfile_changed)
446         printf (_("Output will be written to `%s'.\n"), opt.lfilename);
447       exit (0);                 /* #### should we use _exit()? */
448     }
449
450   /* child: give up the privileges and keep running. */
451   setsid ();
452   freopen ("/dev/null", "r", stdin);
453   freopen ("/dev/null", "w", stdout);
454   freopen ("/dev/null", "w", stderr);
455 }
456 #endif /* !WINDOWS && !MSDOS */
457
458 #endif /* def __VMS [else] */
459
460 \f
461 /* "Touch" FILE, i.e. make its mtime ("modified time") equal the time
462    specified with TM.  The atime ("access time") is set to the current
463    time.  */
464
465 void
466 touch (const char *file, time_t tm)
467 {
468 #ifdef HAVE_STRUCT_UTIMBUF
469   struct utimbuf times;
470 #else
471   struct {
472     time_t actime;
473     time_t modtime;
474   } times;
475 #endif
476   times.modtime = tm;
477   times.actime = time (NULL);
478   if (utime (file, &times) == -1)
479     logprintf (LOG_NOTQUIET, "utime(%s): %s\n", file, strerror (errno));
480 }
481
482 /* Checks if FILE is a symbolic link, and removes it if it is.  Does
483    nothing under MS-Windows.  */
484 int
485 remove_link (const char *file)
486 {
487   int err = 0;
488   struct_stat st;
489
490   if (lstat (file, &st) == 0 && S_ISLNK (st.st_mode))
491     {
492       DEBUGP (("Unlinking %s (symlink).\n", file));
493       err = unlink (file);
494       if (err != 0)
495         logprintf (LOG_VERBOSE, _("Failed to unlink symlink `%s': %s\n"),
496                    file, strerror (errno));
497     }
498   return err;
499 }
500
501 /* Does FILENAME exist?  This is quite a lousy implementation, since
502    it supplies no error codes -- only a yes-or-no answer.  Thus it
503    will return that a file does not exist if, e.g., the directory is
504    unreadable.  I don't mind it too much currently, though.  The
505    proper way should, of course, be to have a third, error state,
506    other than true/false, but that would introduce uncalled-for
507    additional complexity to the callers.  */
508 bool
509 file_exists_p (const char *filename)
510 {
511 #ifdef HAVE_ACCESS
512   return access (filename, F_OK) >= 0;
513 #else
514   struct_stat buf;
515   return stat (filename, &buf) >= 0;
516 #endif
517 }
518
519 /* Returns 0 if PATH is a directory, 1 otherwise (any kind of file).
520    Returns 0 on error.  */
521 bool
522 file_non_directory_p (const char *path)
523 {
524   struct_stat buf;
525   /* Use lstat() rather than stat() so that symbolic links pointing to
526      directories can be identified correctly.  */
527   if (lstat (path, &buf) != 0)
528     return false;
529   return S_ISDIR (buf.st_mode) ? false : true;
530 }
531
532 /* Return the size of file named by FILENAME, or -1 if it cannot be
533    opened or seeked into. */
534 wgint
535 file_size (const char *filename)
536 {
537 #if defined(HAVE_FSEEKO) && defined(HAVE_FTELLO)
538   wgint size;
539   /* We use fseek rather than stat to determine the file size because
540      that way we can also verify that the file is readable without
541      explicitly checking for permissions.  Inspired by the POST patch
542      by Arnaud Wylie.  */
543   FILE *fp = fopen (filename, "rb");
544   if (!fp)
545     return -1;
546   fseeko (fp, 0, SEEK_END);
547   size = ftello (fp);
548   fclose (fp);
549   return size;
550 #else
551   struct_stat st;
552   if (stat (filename, &st) < 0)
553     return -1;
554   return st.st_size;
555 #endif
556 }
557
558 /* 2005-02-19 SMS.
559    If no UNIQ_SEP is defined (as on VMS), have unique_name() return the
560    original name.  With the VMS file systems' versioning, everything
561    should be fine, and appending ".NN" just causes trouble.
562 */
563
564 #ifdef UNIQ_SEP
565
566 /* stat file names named PREFIX.1, PREFIX.2, etc., until one that
567    doesn't exist is found.  Return a freshly allocated copy of the
568    unused file name.  */
569
570 static char *
571 unique_name_1 (const char *prefix)
572 {
573   int count = 1;
574   int plen = strlen (prefix);
575   char *template = (char *)alloca (plen + 1 + 24);
576   char *template_tail = template + plen;
577
578   memcpy (template, prefix, plen);
579   *template_tail++ = UNIQ_SEP;
580
581   do
582     number_to_string (template_tail, count++);
583   while (file_exists_p (template));
584
585   return xstrdup (template);
586 }
587
588 /* Return a unique file name, based on FILE.
589
590    More precisely, if FILE doesn't exist, it is returned unmodified.
591    If not, FILE.1 is tried, then FILE.2, etc.  The first FILE.<number>
592    file name that doesn't exist is returned.
593
594    2005-02-19 SMS.  "." is now UNIQ_SEP, and may be different.
595
596    The resulting file is not created, only verified that it didn't
597    exist at the point in time when the function was called.
598    Therefore, where security matters, don't rely that the file created
599    by this function exists until you open it with O_EXCL or
600    equivalent.
601
602    If ALLOW_PASSTHROUGH is 0, it always returns a freshly allocated
603    string.  Otherwise, it may return FILE if the file doesn't exist
604    (and therefore doesn't need changing).  */
605
606 char *
607 unique_name (const char *file, bool allow_passthrough)
608 {
609   /* If the FILE itself doesn't exist, return it without
610      modification. */
611   if (!file_exists_p (file))
612     return allow_passthrough ? (char *)file : xstrdup (file);
613
614   /* Otherwise, find a numeric suffix that results in unused file name
615      and return it.  */
616   return unique_name_1 (file);
617 }
618
619 #else /* def UNIQ_SEP */
620
621 /* Dummy unique_name() for VMS.  Return the original name as easily as
622    possible.
623 */
624 char *
625 unique_name (const char *file, bool allow_passthrough)
626 {
627   /* Return the FILE itself, without modification, irregardful. */
628   return allow_passthrough ? (char *)file : xstrdup (file);
629 }
630
631 #endif /* def UNIQ_SEP [else] */
632
633 /* Create a file based on NAME, except without overwriting an existing
634    file with that name.  Providing O_EXCL is correctly implemented,
635    this function does not have the race condition associated with
636    opening the file returned by unique_name.  */
637
638 FILE *
639 unique_create (const char *name, bool binary, char **opened_name)
640 {
641   /* unique file name, based on NAME */
642   char *uname = unique_name (name, false);
643   FILE *fp;
644   while ((fp = fopen_excl (uname, binary)) == NULL && errno == EEXIST)
645     {
646       xfree (uname);
647       uname = unique_name (name, false);
648     }
649   if (opened_name && fp != NULL)
650     {
651       if (fp)
652         *opened_name = uname;
653       else
654         {
655           *opened_name = NULL;
656           xfree (uname);
657         }
658     }
659   else
660     xfree (uname);
661   return fp;
662 }
663
664 /* Open the file for writing, with the addition that the file is
665    opened "exclusively".  This means that, if the file already exists,
666    this function will *fail* and errno will be set to EEXIST.  If
667    BINARY is set, the file will be opened in binary mode, equivalent
668    to fopen's "wb".
669
670    If opening the file fails for any reason, including the file having
671    previously existed, this function returns NULL and sets errno
672    appropriately.  */
673    
674 FILE *
675 fopen_excl (const char *fname, bool binary)
676 {
677   int fd;
678 #ifdef O_EXCL
679
680 /* 2005-04-14 SMS.
681    VMS lacks O_BINARY, but makes up for it in weird and wonderful ways.
682    It also has file versions which obviate all the O_EXCL effort.
683    O_TRUNC (something of a misnomer) requests a new version.
684 */
685 # ifdef __VMS
686 /* Common open() optional arguments:
687    sequential access only, access callback function.
688 */
689 #  define OPEN_OPT_ARGS "fop=sqo", "acc", acc_cb, &open_id
690
691   int open_id;
692   int flags = O_WRONLY | O_CREAT | O_TRUNC;
693
694   if (binary > 1)
695     {
696       open_id = 11;
697       fd = open( fname,                 /* File name. */
698        flags,                           /* Flags. */
699        0777,                            /* Mode for default protection. */
700        "ctx=bin,stm",                   /* Binary, stream access. */
701        "rfm=stmlf",                     /* Stream_LF. */
702        OPEN_OPT_ARGS);                  /* Access callback. */
703     }
704   else if (binary)
705     {
706       open_id = 12;
707       fd = open( fname,                 /* File name. */
708        flags,                           /* Flags. */
709        0777,                            /* Mode for default protection. */
710        "ctx=bin,stm",                   /* Binary, stream access. */
711        "rfm=fix",                       /* Fixed-length, */
712        "mrs=512",                       /* 512-byte records. */
713        OPEN_OPT_ARGS);                  /* Access callback. */
714     }
715   else
716     {
717       open_id = 13;
718       fd = open( fname,                 /* File name. */
719        flags,                           /* Flags. */
720        0777,                            /* Mode for default protection.
721 */
722        "rfm=stmlf",                     /* Stream_LF. */
723        OPEN_OPT_ARGS);                  /* Access callback. */
724     }
725 # else /* def __VMS */
726   int flags = O_WRONLY | O_CREAT | O_EXCL;
727 # ifdef O_BINARY
728   if (binary)
729     flags |= O_BINARY;
730 # endif
731   fd = open (fname, flags, 0666);
732 # endif /* def __VMS [else] */
733
734   if (fd < 0)
735     return NULL;
736   return fdopen (fd, binary ? "wb" : "w");
737 #else  /* not O_EXCL */
738   /* Manually check whether the file exists.  This is prone to race
739      conditions, but systems without O_EXCL haven't deserved
740      better.  */
741   if (file_exists_p (fname))
742     {
743       errno = EEXIST;
744       return NULL;
745     }
746   return fopen (fname, binary ? "wb" : "w");
747 #endif /* not O_EXCL */
748 }
749 \f
750 /* Create DIRECTORY.  If some of the pathname components of DIRECTORY
751    are missing, create them first.  In case any mkdir() call fails,
752    return its error status.  Returns 0 on successful completion.
753
754    The behaviour of this function should be identical to the behaviour
755    of `mkdir -p' on systems where mkdir supports the `-p' option.  */
756 int
757 make_directory (const char *directory)
758 {
759   int i, ret, quit = 0;
760   char *dir;
761
762   /* Make a copy of dir, to be able to write to it.  Otherwise, the
763      function is unsafe if called with a read-only char *argument.  */
764   STRDUP_ALLOCA (dir, directory);
765
766   /* If the first character of dir is '/', skip it (and thus enable
767      creation of absolute-pathname directories.  */
768   for (i = (*dir == '/'); 1; ++i)
769     {
770       for (; dir[i] && dir[i] != '/'; i++)
771         ;
772       if (!dir[i])
773         quit = 1;
774       dir[i] = '\0';
775       /* Check whether the directory already exists.  Allow creation of
776          of intermediate directories to fail, as the initial path components
777          are not necessarily directories!  */
778       if (!file_exists_p (dir))
779         ret = mkdir (dir, 0777);
780       else
781         ret = 0;
782       if (quit)
783         break;
784       else
785         dir[i] = '/';
786     }
787   return ret;
788 }
789
790 /* Merge BASE with FILE.  BASE can be a directory or a file name, FILE
791    should be a file name.
792
793    file_merge("/foo/bar", "baz")  => "/foo/baz"
794    file_merge("/foo/bar/", "baz") => "/foo/bar/baz"
795    file_merge("foo", "bar")       => "bar"
796
797    In other words, it's a simpler and gentler version of uri_merge.  */
798
799 char *
800 file_merge (const char *base, const char *file)
801 {
802   char *result;
803   const char *cut = (const char *)strrchr (base, '/');
804
805   if (!cut)
806     return xstrdup (file);
807
808   result = xmalloc (cut - base + 1 + strlen (file) + 1);
809   memcpy (result, base, cut - base);
810   result[cut - base] = '/';
811   strcpy (result + (cut - base) + 1, file);
812
813   return result;
814 }
815 \f
816 /* Like fnmatch, but performs a case-insensitive match.  */
817
818 int
819 fnmatch_nocase (const char *pattern, const char *string, int flags)
820 {
821 #ifdef FNM_CASEFOLD
822   /* The FNM_CASEFOLD flag started as a GNU extension, but it is now
823      also present on *BSD platforms, and possibly elsewhere.  */
824   return fnmatch (pattern, string, flags | FNM_CASEFOLD);
825 #else
826   /* Turn PATTERN and STRING to lower case and call fnmatch on them. */
827   char *patcopy = (char *) alloca (strlen (pattern) + 1);
828   char *strcopy = (char *) alloca (strlen (string) + 1);
829   char *p;
830   for (p = patcopy; *pattern; pattern++, p++)
831     *p = c_tolower (*pattern);
832   *p = '\0';
833   for (p = strcopy; *string; string++, p++)
834     *p = c_tolower (*string);
835   *p = '\0';
836   return fnmatch (patcopy, strcopy, flags);
837 #endif
838 }
839
840 static bool in_acclist (const char *const *, const char *, bool);
841
842 /* Determine whether a file is acceptable to be followed, according to
843    lists of patterns to accept/reject.  */
844 bool
845 acceptable (const char *s)
846 {
847   int l = strlen (s);
848
849   while (l && s[l] != '/')
850     --l;
851   if (s[l] == '/')
852     s += (l + 1);
853   if (opt.accepts)
854     {
855       if (opt.rejects)
856         return (in_acclist ((const char *const *)opt.accepts, s, true)
857                 && !in_acclist ((const char *const *)opt.rejects, s, true));
858       else
859         return in_acclist ((const char *const *)opt.accepts, s, true);
860     }
861   else if (opt.rejects)
862     return !in_acclist ((const char *const *)opt.rejects, s, true);
863   return true;
864 }
865
866 /* Check if D2 is a subdirectory of D1.  E.g. if D1 is `/something', subdir_p()
867    will return true if and only if D2 begins with `/something/' or is exactly 
868    '/something'.  */
869 bool
870 subdir_p (const char *d1, const char *d2)
871 {
872   if (*d1 == '\0')
873     return true;
874   if (!opt.ignore_case)
875     for (; *d1 && *d2 && (*d1 == *d2); ++d1, ++d2)
876       ;
877   else
878     for (; *d1 && *d2 && (c_tolower (*d1) == c_tolower (*d2)); ++d1, ++d2)
879       ;
880   
881   return *d1 == '\0' && (*d2 == '\0' || *d2 == '/');
882 }
883
884 /* Iterate through DIRLIST (which must be NULL-terminated), and return the
885    first element that matches DIR, through wildcards or front comparison (as
886    appropriate).  */
887 static bool
888 dir_matches_p (char **dirlist, const char *dir)
889 {
890   char **x;
891   int (*matcher) (const char *, const char *, int)
892     = opt.ignore_case ? fnmatch_nocase : fnmatch;
893
894   for (x = dirlist; *x; x++)
895     {
896       /* Remove leading '/' */
897       char *p = *x + (**x == '/');
898       if (has_wildcards_p (p))
899         {
900           if (matcher (p, dir, FNM_PATHNAME) == 0)
901             break;
902         }
903       else
904         {
905           if (subdir_p (p, dir))
906             break;
907         }
908     }
909       
910   return *x ? true : false;
911 }
912
913 /* Returns whether DIRECTORY is acceptable for download, wrt the
914    include/exclude lists.
915
916    The leading `/' is ignored in paths; relative and absolute paths
917    may be freely intermixed.  */
918
919 bool
920 accdir (const char *directory)
921 {
922   /* Remove starting '/'.  */
923   if (*directory == '/')
924     ++directory;
925   if (opt.includes)
926     {
927       if (!dir_matches_p (opt.includes, directory))
928         return false;
929     }
930   if (opt.excludes)
931     {
932       if (dir_matches_p (opt.excludes, directory))
933         return false;
934     }
935   return true;
936 }
937
938 /* Return true if STRING ends with TAIL.  For instance:
939
940    match_tail ("abc", "bc", false)  -> 1
941    match_tail ("abc", "ab", false)  -> 0
942    match_tail ("abc", "abc", false) -> 1
943
944    If FOLD_CASE is true, the comparison will be case-insensitive.  */
945
946 bool
947 match_tail (const char *string, const char *tail, bool fold_case)
948 {
949   int i, j;
950
951   /* We want this to be fast, so we code two loops, one with
952      case-folding, one without. */
953
954   if (!fold_case)
955     {
956       for (i = strlen (string), j = strlen (tail); i >= 0 && j >= 0; i--, j--)
957         if (string[i] != tail[j])
958           break;
959     }
960   else
961     {
962       for (i = strlen (string), j = strlen (tail); i >= 0 && j >= 0; i--, j--)
963         if (c_tolower (string[i]) != c_tolower (tail[j]))
964           break;
965     }
966
967   /* If the tail was exhausted, the match was succesful.  */
968   if (j == -1)
969     return true;
970   else
971     return false;
972 }
973
974 /* Checks whether string S matches each element of ACCEPTS.  A list
975    element are matched either with fnmatch() or match_tail(),
976    according to whether the element contains wildcards or not.
977
978    If the BACKWARD is false, don't do backward comparison -- just compare
979    them normally.  */
980 static bool
981 in_acclist (const char *const *accepts, const char *s, bool backward)
982 {
983   for (; *accepts; accepts++)
984     {
985       if (has_wildcards_p (*accepts))
986         {
987           int res = opt.ignore_case
988             ? fnmatch_nocase (*accepts, s, 0) : fnmatch (*accepts, s, 0);
989           /* fnmatch returns 0 if the pattern *does* match the string.  */
990           if (res == 0)
991             return true;
992         }
993       else
994         {
995           if (backward)
996             {
997               if (match_tail (s, *accepts, opt.ignore_case))
998                 return true;
999             }
1000           else
1001             {
1002               int cmp = opt.ignore_case
1003                 ? strcasecmp (s, *accepts) : strcmp (s, *accepts);
1004               if (cmp == 0)
1005                 return true;
1006             }
1007         }
1008     }
1009   return false;
1010 }
1011
1012 /* Return the location of STR's suffix (file extension).  Examples:
1013    suffix ("foo.bar")       -> "bar"
1014    suffix ("foo.bar.baz")   -> "baz"
1015    suffix ("/foo/bar")      -> NULL
1016    suffix ("/foo.bar/baz")  -> NULL  */
1017 char *
1018 suffix (const char *str)
1019 {
1020   int i;
1021
1022   for (i = strlen (str); i && str[i] != '/' && str[i] != '.'; i--)
1023     ;
1024
1025   if (str[i++] == '.')
1026     return (char *)str + i;
1027   else
1028     return NULL;
1029 }
1030
1031 /* Return true if S contains globbing wildcards (`*', `?', `[' or
1032    `]').  */
1033
1034 bool
1035 has_wildcards_p (const char *s)
1036 {
1037   for (; *s; s++)
1038     if (*s == '*' || *s == '?' || *s == '[' || *s == ']')
1039       return true;
1040   return false;
1041 }
1042
1043 /* Return true if FNAME ends with a typical HTML suffix.  The
1044    following (case-insensitive) suffixes are presumed to be HTML
1045    files:
1046    
1047      html
1048      htm
1049      ?html (`?' matches one character)
1050
1051    #### CAVEAT.  This is not necessarily a good indication that FNAME
1052    refers to a file that contains HTML!  */
1053 bool
1054 has_html_suffix_p (const char *fname)
1055 {
1056   char *suf;
1057
1058   if ((suf = suffix (fname)) == NULL)
1059     return false;
1060   if (!strcasecmp (suf, "html"))
1061     return true;
1062   if (!strcasecmp (suf, "htm"))
1063     return true;
1064   if (suf[0] && !strcasecmp (suf + 1, "html"))
1065     return true;
1066   return false;
1067 }
1068
1069 /* Read a line from FP and return the pointer to freshly allocated
1070    storage.  The storage space is obtained through malloc() and should
1071    be freed with free() when it is no longer needed.
1072
1073    The length of the line is not limited, except by available memory.
1074    The newline character at the end of line is retained.  The line is
1075    terminated with a zero character.
1076
1077    After end-of-file is encountered without anything being read, NULL
1078    is returned.  NULL is also returned on error.  To distinguish
1079    between these two cases, use the stdio function ferror().  */
1080
1081 char *
1082 read_whole_line (FILE *fp)
1083 {
1084   int length = 0;
1085   int bufsize = 82;
1086   char *line = xmalloc (bufsize);
1087
1088   while (fgets (line + length, bufsize - length, fp))
1089     {
1090       length += strlen (line + length);
1091       if (length == 0)
1092         /* Possible for example when reading from a binary file where
1093            a line begins with \0.  */
1094         continue;
1095
1096       if (line[length - 1] == '\n')
1097         break;
1098
1099       /* fgets() guarantees to read the whole line, or to use up the
1100          space we've given it.  We can double the buffer
1101          unconditionally.  */
1102       bufsize <<= 1;
1103       line = xrealloc (line, bufsize);
1104     }
1105   if (length == 0 || ferror (fp))
1106     {
1107       xfree (line);
1108       return NULL;
1109     }
1110   if (length + 1 < bufsize)
1111     /* Relieve the memory from our exponential greediness.  We say
1112        `length + 1' because the terminating \0 is not included in
1113        LENGTH.  We don't need to zero-terminate the string ourselves,
1114        though, because fgets() does that.  */
1115     line = xrealloc (line, length + 1);
1116   return line;
1117 }
1118 \f
1119 /* Read FILE into memory.  A pointer to `struct file_memory' are
1120    returned; use struct element `content' to access file contents, and
1121    the element `length' to know the file length.  `content' is *not*
1122    zero-terminated, and you should *not* read or write beyond the [0,
1123    length) range of characters.
1124
1125    After you are done with the file contents, call read_file_free to
1126    release the memory.
1127
1128    Depending on the operating system and the type of file that is
1129    being read, read_file() either mmap's the file into memory, or
1130    reads the file into the core using read().
1131
1132    If file is named "-", fileno(stdin) is used for reading instead.
1133    If you want to read from a real file named "-", use "./-" instead.  */
1134
1135 struct file_memory *
1136 read_file (const char *file)
1137 {
1138   int fd;
1139   struct file_memory *fm;
1140   long size;
1141   bool inhibit_close = false;
1142
1143   /* Some magic in the finest tradition of Perl and its kin: if FILE
1144      is "-", just use stdin.  */
1145   if (HYPHENP (file))
1146     {
1147       fd = fileno (stdin);
1148       inhibit_close = true;
1149       /* Note that we don't inhibit mmap() in this case.  If stdin is
1150          redirected from a regular file, mmap() will still work.  */
1151     }
1152   else
1153     fd = open (file, O_RDONLY);
1154   if (fd < 0)
1155     return NULL;
1156   fm = xnew (struct file_memory);
1157
1158 #ifdef HAVE_MMAP
1159   {
1160     struct_fstat buf;
1161     if (fstat (fd, &buf) < 0)
1162       goto mmap_lose;
1163     fm->length = buf.st_size;
1164     /* NOTE: As far as I know, the callers of this function never
1165        modify the file text.  Relying on this would enable us to
1166        specify PROT_READ and MAP_SHARED for a marginal gain in
1167        efficiency, but at some cost to generality.  */
1168     fm->content = mmap (NULL, fm->length, PROT_READ | PROT_WRITE,
1169                         MAP_PRIVATE, fd, 0);
1170     if (fm->content == (char *)MAP_FAILED)
1171       goto mmap_lose;
1172     if (!inhibit_close)
1173       close (fd);
1174
1175     fm->mmap_p = 1;
1176     return fm;
1177   }
1178
1179  mmap_lose:
1180   /* The most common reason why mmap() fails is that FD does not point
1181      to a plain file.  However, it's also possible that mmap() doesn't
1182      work for a particular type of file.  Therefore, whenever mmap()
1183      fails, we just fall back to the regular method.  */
1184 #endif /* HAVE_MMAP */
1185
1186   fm->length = 0;
1187   size = 512;                   /* number of bytes fm->contents can
1188                                    hold at any given time. */
1189   fm->content = xmalloc (size);
1190   while (1)
1191     {
1192       wgint nread;
1193       if (fm->length > size / 2)
1194         {
1195           /* #### I'm not sure whether the whole exponential-growth
1196              thing makes sense with kernel read.  On Linux at least,
1197              read() refuses to read more than 4K from a file at a
1198              single chunk anyway.  But other Unixes might optimize it
1199              better, and it doesn't *hurt* anything, so I'm leaving
1200              it.  */
1201
1202           /* Normally, we grow SIZE exponentially to make the number
1203              of calls to read() and realloc() logarithmic in relation
1204              to file size.  However, read() can read an amount of data
1205              smaller than requested, and it would be unreasonable to
1206              double SIZE every time *something* was read.  Therefore,
1207              we double SIZE only when the length exceeds half of the
1208              entire allocated size.  */
1209           size <<= 1;
1210           fm->content = xrealloc (fm->content, size);
1211         }
1212       nread = read (fd, fm->content + fm->length, size - fm->length);
1213       if (nread > 0)
1214         /* Successful read. */
1215         fm->length += nread;
1216       else if (nread < 0)
1217         /* Error. */
1218         goto lose;
1219       else
1220         /* EOF */
1221         break;
1222     }
1223   if (!inhibit_close)
1224     close (fd);
1225   if (size > fm->length && fm->length != 0)
1226     /* Due to exponential growth of fm->content, the allocated region
1227        might be much larger than what is actually needed.  */
1228     fm->content = xrealloc (fm->content, fm->length);
1229   fm->mmap_p = 0;
1230   return fm;
1231
1232  lose:
1233   if (!inhibit_close)
1234     close (fd);
1235   xfree (fm->content);
1236   xfree (fm);
1237   return NULL;
1238 }
1239
1240 /* Release the resources held by FM.  Specifically, this calls
1241    munmap() or xfree() on fm->content, depending whether mmap or
1242    malloc/read were used to read in the file.  It also frees the
1243    memory needed to hold the FM structure itself.  */
1244
1245 void
1246 read_file_free (struct file_memory *fm)
1247 {
1248 #ifdef HAVE_MMAP
1249   if (fm->mmap_p)
1250     {
1251       munmap (fm->content, fm->length);
1252     }
1253   else
1254 #endif
1255     {
1256       xfree (fm->content);
1257     }
1258   xfree (fm);
1259 }
1260 \f
1261 /* Free the pointers in a NULL-terminated vector of pointers, then
1262    free the pointer itself.  */
1263 void
1264 free_vec (char **vec)
1265 {
1266   if (vec)
1267     {
1268       char **p = vec;
1269       while (*p)
1270         xfree (*p++);
1271       xfree (vec);
1272     }
1273 }
1274
1275 /* Append vector V2 to vector V1.  The function frees V2 and
1276    reallocates V1 (thus you may not use the contents of neither
1277    pointer after the call).  If V1 is NULL, V2 is returned.  */
1278 char **
1279 merge_vecs (char **v1, char **v2)
1280 {
1281   int i, j;
1282
1283   if (!v1)
1284     return v2;
1285   if (!v2)
1286     return v1;
1287   if (!*v2)
1288     {
1289       /* To avoid j == 0 */
1290       xfree (v2);
1291       return v1;
1292     }
1293   /* Count v1.  */
1294   for (i = 0; v1[i]; i++)
1295     ;
1296   /* Count v2.  */
1297   for (j = 0; v2[j]; j++)
1298     ;
1299   /* Reallocate v1.  */
1300   v1 = xrealloc (v1, (i + j + 1) * sizeof (char **));
1301   memcpy (v1 + i, v2, (j + 1) * sizeof (char *));
1302   xfree (v2);
1303   return v1;
1304 }
1305
1306 /* Append a freshly allocated copy of STR to VEC.  If VEC is NULL, it
1307    is allocated as needed.  Return the new value of the vector. */
1308
1309 char **
1310 vec_append (char **vec, const char *str)
1311 {
1312   int cnt;                      /* count of vector elements, including
1313                                    the one we're about to append */
1314   if (vec != NULL)
1315     {
1316       for (cnt = 0; vec[cnt]; cnt++)
1317         ;
1318       ++cnt;
1319     }
1320   else
1321     cnt = 1;
1322   /* Reallocate the array to fit the new element and the NULL. */
1323   vec = xrealloc (vec, (cnt + 1) * sizeof (char *));
1324   /* Append a copy of STR to the vector. */
1325   vec[cnt - 1] = xstrdup (str);
1326   vec[cnt] = NULL;
1327   return vec;
1328 }
1329 \f
1330 /* Sometimes it's useful to create "sets" of strings, i.e. special
1331    hash tables where you want to store strings as keys and merely
1332    query for their existence.  Here is a set of utility routines that
1333    makes that transparent.  */
1334
1335 void
1336 string_set_add (struct hash_table *ht, const char *s)
1337 {
1338   /* First check whether the set element already exists.  If it does,
1339      do nothing so that we don't have to free() the old element and
1340      then strdup() a new one.  */
1341   if (hash_table_contains (ht, s))
1342     return;
1343
1344   /* We use "1" as value.  It provides us a useful and clear arbitrary
1345      value, and it consumes no memory -- the pointers to the same
1346      string "1" will be shared by all the key-value pairs in all `set'
1347      hash tables.  */
1348   hash_table_put (ht, xstrdup (s), "1");
1349 }
1350
1351 /* Synonym for hash_table_contains... */
1352
1353 int
1354 string_set_contains (struct hash_table *ht, const char *s)
1355 {
1356   return hash_table_contains (ht, s);
1357 }
1358
1359 /* Convert the specified string set to array.  ARRAY should be large
1360    enough to hold hash_table_count(ht) char pointers.  */
1361
1362 void string_set_to_array (struct hash_table *ht, char **array)
1363 {
1364   hash_table_iterator iter;
1365   for (hash_table_iterate (ht, &iter); hash_table_iter_next (&iter); )
1366     *array++ = iter.key;
1367 }
1368
1369 /* Free the string set.  This frees both the storage allocated for
1370    keys and the actual hash table.  (hash_table_destroy would only
1371    destroy the hash table.)  */
1372
1373 void
1374 string_set_free (struct hash_table *ht)
1375 {
1376   hash_table_iterator iter;
1377   for (hash_table_iterate (ht, &iter); hash_table_iter_next (&iter); )
1378     xfree (iter.key);
1379   hash_table_destroy (ht);
1380 }
1381
1382 /* Utility function: simply call xfree() on all keys and values of HT.  */
1383
1384 void
1385 free_keys_and_values (struct hash_table *ht)
1386 {
1387   hash_table_iterator iter;
1388   for (hash_table_iterate (ht, &iter); hash_table_iter_next (&iter); )
1389     {
1390       xfree (iter.key);
1391       xfree (iter.value);
1392     }
1393 }
1394 \f
1395 /* Get digit grouping data for thousand separors by calling
1396    localeconv().  The data includes separator string and grouping info
1397    and is cached after the first call to the function.
1398
1399    In locales that don't set a thousand separator (such as the "C"
1400    locale), this forces it to be ",".  We are now only showing
1401    thousand separators in one place, so this shouldn't be a problem in
1402    practice.  */
1403
1404 static void
1405 get_grouping_data (const char **sep, const char **grouping)
1406 {
1407   static const char *cached_sep;
1408   static const char *cached_grouping;
1409   static bool initialized;
1410   if (!initialized)
1411     {
1412       /* Get the grouping info from the locale. */
1413       struct lconv *lconv = localeconv ();
1414       cached_sep = lconv->thousands_sep;
1415       cached_grouping = lconv->grouping;
1416 #if ! USE_NLS_PROGRESS_BAR
1417       /* We can't count column widths, so ensure that the separator
1418        * is single-byte only (let check below determine what byte). */
1419       if (strlen(cached_sep) > 1)
1420         cached_sep = "";
1421 #endif
1422       if (!*cached_sep)
1423         {
1424           /* Many locales (such as "C" or "hr_HR") don't specify
1425              grouping, which we still want to use it for legibility.
1426              In those locales set the sep char to ',', unless that
1427              character is used for decimal point, in which case set it
1428              to ".".  */
1429           if (*lconv->decimal_point != ',')
1430             cached_sep = ",";
1431           else
1432             cached_sep = ".";
1433           cached_grouping = "\x03";
1434         }
1435       initialized = true;
1436     }
1437   *sep = cached_sep;
1438   *grouping = cached_grouping;
1439 }
1440
1441 /* Return a printed representation of N with thousand separators.
1442    This should respect locale settings, with the exception of the "C"
1443    locale which mandates no separator, but we use one anyway.
1444
1445    Unfortunately, we cannot use %'d (in fact it would be %'j) to get
1446    the separators because it's too non-portable, and it's hard to test
1447    for this feature at configure time.  Besides, it wouldn't display
1448    separators in the "C" locale, still used by many Unix users.  */
1449
1450 const char *
1451 with_thousand_seps (wgint n)
1452 {
1453   static char outbuf[48];
1454   char *p = outbuf + sizeof outbuf;
1455
1456   /* Info received from locale */
1457   const char *grouping, *sep;
1458   int seplen;
1459
1460   /* State information */
1461   int i = 0, groupsize;
1462   const char *atgroup;
1463
1464   bool negative = n < 0;
1465
1466   /* Initialize grouping data. */
1467   get_grouping_data (&sep, &grouping);
1468   seplen = strlen (sep);
1469   atgroup = grouping;
1470   groupsize = *atgroup++;
1471
1472   /* This would overflow on WGINT_MIN, but printing negative numbers
1473      is not an important goal of this fuinction.  */
1474   if (negative)
1475     n = -n;
1476
1477   /* Write the number into the buffer, backwards, inserting the
1478      separators as necessary.  */
1479   *--p = '\0';
1480   while (1)
1481     {
1482       *--p = n % 10 + '0';
1483       n /= 10;
1484       if (n == 0)
1485         break;
1486       /* Prepend SEP to every groupsize'd digit and get new groupsize.  */
1487       if (++i == groupsize)
1488         {
1489           if (seplen == 1)
1490             *--p = *sep;
1491           else
1492             memcpy (p -= seplen, sep, seplen);
1493           i = 0;
1494           if (*atgroup)
1495             groupsize = *atgroup++;
1496         }
1497     }
1498   if (negative)
1499     *--p = '-';
1500
1501   return p;
1502 }
1503
1504 /* N, a byte quantity, is converted to a human-readable abberviated
1505    form a la sizes printed by `ls -lh'.  The result is written to a
1506    static buffer, a pointer to which is returned.
1507
1508    Unlike `with_thousand_seps', this approximates to the nearest unit.
1509    Quoting GNU libit: "Most people visually process strings of 3-4
1510    digits effectively, but longer strings of digits are more prone to
1511    misinterpretation.  Hence, converting to an abbreviated form
1512    usually improves readability."
1513
1514    This intentionally uses kilobyte (KB), megabyte (MB), etc. in their
1515    original computer-related meaning of "powers of 1024".  We don't
1516    use the "*bibyte" names invented in 1998, and seldom used in
1517    practice.  Wikipedia's entry on "binary prefix" discusses this in
1518    some detail.  */
1519
1520 char *
1521 human_readable (HR_NUMTYPE n)
1522 {
1523   /* These suffixes are compatible with those of GNU `ls -lh'. */
1524   static char powers[] =
1525     {
1526       'K',                      /* kilobyte, 2^10 bytes */
1527       'M',                      /* megabyte, 2^20 bytes */
1528       'G',                      /* gigabyte, 2^30 bytes */
1529       'T',                      /* terabyte, 2^40 bytes */
1530       'P',                      /* petabyte, 2^50 bytes */
1531       'E',                      /* exabyte,  2^60 bytes */
1532     };
1533   static char buf[8];
1534   int i;
1535
1536   /* If the quantity is smaller than 1K, just print it. */
1537   if (n < 1024)
1538     {
1539       snprintf (buf, sizeof (buf), "%d", (int) n);
1540       return buf;
1541     }
1542
1543   /* Loop over powers, dividing N with 1024 in each iteration.  This
1544      works unchanged for all sizes of wgint, while still avoiding
1545      non-portable `long double' arithmetic.  */
1546   for (i = 0; i < countof (powers); i++)
1547     {
1548       /* At each iteration N is greater than the *subsequent* power.
1549          That way N/1024.0 produces a decimal number in the units of
1550          *this* power.  */
1551       if ((n / 1024) < 1024 || i == countof (powers) - 1)
1552         {
1553           double val = n / 1024.0;
1554           /* Print values smaller than 10 with one decimal digits, and
1555              others without any decimals.  */
1556           snprintf (buf, sizeof (buf), "%.*f%c",
1557                     val < 10 ? 1 : 0, val, powers[i]);
1558           return buf;
1559         }
1560       n /= 1024;
1561     }
1562   return NULL;                  /* unreached */
1563 }
1564
1565 /* Count the digits in the provided number.  Used to allocate space
1566    when printing numbers.  */
1567
1568 int
1569 numdigit (wgint number)
1570 {
1571   int cnt = 1;
1572   if (number < 0)
1573     ++cnt;                      /* accomodate '-' */
1574   while ((number /= 10) != 0)
1575     ++cnt;
1576   return cnt;
1577 }
1578
1579 #define PR(mask) *p++ = n / (mask) + '0'
1580
1581 /* DIGITS_<D> is used to print a D-digit number and should be called
1582    with mask==10^(D-1).  It prints n/mask (the first digit), reducing
1583    n to n%mask (the remaining digits), and calling DIGITS_<D-1>.
1584    Recursively this continues until DIGITS_1 is invoked.  */
1585
1586 #define DIGITS_1(mask) PR (mask)
1587 #define DIGITS_2(mask) PR (mask), n %= (mask), DIGITS_1 ((mask) / 10)
1588 #define DIGITS_3(mask) PR (mask), n %= (mask), DIGITS_2 ((mask) / 10)
1589 #define DIGITS_4(mask) PR (mask), n %= (mask), DIGITS_3 ((mask) / 10)
1590 #define DIGITS_5(mask) PR (mask), n %= (mask), DIGITS_4 ((mask) / 10)
1591 #define DIGITS_6(mask) PR (mask), n %= (mask), DIGITS_5 ((mask) / 10)
1592 #define DIGITS_7(mask) PR (mask), n %= (mask), DIGITS_6 ((mask) / 10)
1593 #define DIGITS_8(mask) PR (mask), n %= (mask), DIGITS_7 ((mask) / 10)
1594 #define DIGITS_9(mask) PR (mask), n %= (mask), DIGITS_8 ((mask) / 10)
1595 #define DIGITS_10(mask) PR (mask), n %= (mask), DIGITS_9 ((mask) / 10)
1596
1597 /* DIGITS_<11-20> are only used on machines with 64-bit wgints. */
1598
1599 #define DIGITS_11(mask) PR (mask), n %= (mask), DIGITS_10 ((mask) / 10)
1600 #define DIGITS_12(mask) PR (mask), n %= (mask), DIGITS_11 ((mask) / 10)
1601 #define DIGITS_13(mask) PR (mask), n %= (mask), DIGITS_12 ((mask) / 10)
1602 #define DIGITS_14(mask) PR (mask), n %= (mask), DIGITS_13 ((mask) / 10)
1603 #define DIGITS_15(mask) PR (mask), n %= (mask), DIGITS_14 ((mask) / 10)
1604 #define DIGITS_16(mask) PR (mask), n %= (mask), DIGITS_15 ((mask) / 10)
1605 #define DIGITS_17(mask) PR (mask), n %= (mask), DIGITS_16 ((mask) / 10)
1606 #define DIGITS_18(mask) PR (mask), n %= (mask), DIGITS_17 ((mask) / 10)
1607 #define DIGITS_19(mask) PR (mask), n %= (mask), DIGITS_18 ((mask) / 10)
1608
1609 /* Shorthand for casting to wgint. */
1610 #define W wgint
1611
1612 /* Print NUMBER to BUFFER in base 10.  This is equivalent to
1613    `sprintf(buffer, "%lld", (long long) number)', only typically much
1614    faster and portable to machines without long long.
1615
1616    The speedup may make a difference in programs that frequently
1617    convert numbers to strings.  Some implementations of sprintf,
1618    particularly the one in some versions of GNU libc, have been known
1619    to be quite slow when converting integers to strings.
1620
1621    Return the pointer to the location where the terminating zero was
1622    printed.  (Equivalent to calling buffer+strlen(buffer) after the
1623    function is done.)
1624
1625    BUFFER should be large enough to accept as many bytes as you expect
1626    the number to take up.  On machines with 64-bit wgints the maximum
1627    needed size is 24 bytes.  That includes the digits needed for the
1628    largest 64-bit number, the `-' sign in case it's negative, and the
1629    terminating '\0'.  */
1630
1631 char *
1632 number_to_string (char *buffer, wgint number)
1633 {
1634   char *p = buffer;
1635   wgint n = number;
1636
1637   int last_digit_char = 0;
1638
1639 #if (SIZEOF_WGINT != 4) && (SIZEOF_WGINT != 8)
1640   /* We are running in a very strange environment.  Leave the correct
1641      printing to sprintf.  */
1642   p += sprintf (buf, "%j", (intmax_t) (n));
1643 #else  /* (SIZEOF_WGINT == 4) || (SIZEOF_WGINT == 8) */
1644
1645   if (n < 0)
1646     {
1647       if (n < -WGINT_MAX)
1648         {
1649           /* n = -n would overflow because -n would evaluate to a
1650              wgint value larger than WGINT_MAX.  Need to make n
1651              smaller and handle the last digit separately.  */
1652           int last_digit = n % 10;
1653           /* The sign of n%10 is implementation-defined. */
1654           if (last_digit < 0)
1655             last_digit_char = '0' - last_digit;
1656           else
1657             last_digit_char = '0' + last_digit;
1658           /* After n is made smaller, -n will not overflow. */
1659           n /= 10;
1660         }
1661
1662       *p++ = '-';
1663       n = -n;
1664     }
1665
1666   /* Use the DIGITS_ macro appropriate for N's number of digits.  That
1667      way printing any N is fully open-coded without a loop or jump.
1668      (Also see description of DIGITS_*.)  */
1669
1670   if      (n < 10)                       DIGITS_1 (1);
1671   else if (n < 100)                      DIGITS_2 (10);
1672   else if (n < 1000)                     DIGITS_3 (100);
1673   else if (n < 10000)                    DIGITS_4 (1000);
1674   else if (n < 100000)                   DIGITS_5 (10000);
1675   else if (n < 1000000)                  DIGITS_6 (100000);
1676   else if (n < 10000000)                 DIGITS_7 (1000000);
1677   else if (n < 100000000)                DIGITS_8 (10000000);
1678   else if (n < 1000000000)               DIGITS_9 (100000000);
1679 #if SIZEOF_WGINT == 4
1680   /* wgint is 32 bits wide: no number has more than 10 digits. */
1681   else                                   DIGITS_10 (1000000000);
1682 #else
1683   /* wgint is 64 bits wide: handle numbers with 9-19 decimal digits.
1684      Constants are constructed by compile-time multiplication to avoid
1685      dealing with different notations for 64-bit constants
1686      (nL/nLL/nI64, depending on the compiler and architecture).  */
1687   else if (n < 10*(W)1000000000)         DIGITS_10 (1000000000);
1688   else if (n < 100*(W)1000000000)        DIGITS_11 (10*(W)1000000000);
1689   else if (n < 1000*(W)1000000000)       DIGITS_12 (100*(W)1000000000);
1690   else if (n < 10000*(W)1000000000)      DIGITS_13 (1000*(W)1000000000);
1691   else if (n < 100000*(W)1000000000)     DIGITS_14 (10000*(W)1000000000);
1692   else if (n < 1000000*(W)1000000000)    DIGITS_15 (100000*(W)1000000000);
1693   else if (n < 10000000*(W)1000000000)   DIGITS_16 (1000000*(W)1000000000);
1694   else if (n < 100000000*(W)1000000000)  DIGITS_17 (10000000*(W)1000000000);
1695   else if (n < 1000000000*(W)1000000000) DIGITS_18 (100000000*(W)1000000000);
1696   else                                   DIGITS_19 (1000000000*(W)1000000000);
1697 #endif
1698
1699   if (last_digit_char)
1700     *p++ = last_digit_char;
1701
1702   *p = '\0';
1703 #endif /* (SIZEOF_WGINT == 4) || (SIZEOF_WGINT == 8) */
1704
1705   return p;
1706 }
1707
1708 #undef PR
1709 #undef W
1710 #undef SPRINTF_WGINT
1711 #undef DIGITS_1
1712 #undef DIGITS_2
1713 #undef DIGITS_3
1714 #undef DIGITS_4
1715 #undef DIGITS_5
1716 #undef DIGITS_6
1717 #undef DIGITS_7
1718 #undef DIGITS_8
1719 #undef DIGITS_9
1720 #undef DIGITS_10
1721 #undef DIGITS_11
1722 #undef DIGITS_12
1723 #undef DIGITS_13
1724 #undef DIGITS_14
1725 #undef DIGITS_15
1726 #undef DIGITS_16
1727 #undef DIGITS_17
1728 #undef DIGITS_18
1729 #undef DIGITS_19
1730
1731 #define RING_SIZE 3
1732
1733 /* Print NUMBER to a statically allocated string and return a pointer
1734    to the printed representation.
1735
1736    This function is intended to be used in conjunction with printf.
1737    It is hard to portably print wgint values:
1738     a) you cannot use printf("%ld", number) because wgint can be long
1739        long on 32-bit machines with LFS.
1740     b) you cannot use printf("%lld", number) because NUMBER could be
1741        long on 32-bit machines without LFS, or on 64-bit machines,
1742        which do not require LFS.  Also, Windows doesn't support %lld.
1743     c) you cannot use printf("%j", (int_max_t) number) because not all
1744        versions of printf support "%j", the most notable being the one
1745        on Windows.
1746     d) you cannot #define WGINT_FMT to the appropriate format and use
1747        printf(WGINT_FMT, number) because that would break translations
1748        for user-visible messages, such as printf("Downloaded: %d
1749        bytes\n", number).
1750
1751    What you should use instead is printf("%s", number_to_static_string
1752    (number)).
1753
1754    CAVEAT: since the function returns pointers to static data, you
1755    must be careful to copy its result before calling it again.
1756    However, to make it more useful with printf, the function maintains
1757    an internal ring of static buffers to return.  That way things like
1758    printf("%s %s", number_to_static_string (num1),
1759    number_to_static_string (num2)) work as expected.  Three buffers
1760    are currently used, which means that "%s %s %s" will work, but "%s
1761    %s %s %s" won't.  If you need to print more than three wgints,
1762    bump the RING_SIZE (or rethink your message.)  */
1763
1764 char *
1765 number_to_static_string (wgint number)
1766 {
1767   static char ring[RING_SIZE][24];
1768   static int ringpos;
1769   char *buf = ring[ringpos];
1770   number_to_string (buf, number);
1771   ringpos = (ringpos + 1) % RING_SIZE;
1772   return buf;
1773 }
1774 \f
1775 /* Determine the width of the terminal we're running on.  If that's
1776    not possible, return 0.  */
1777
1778 int
1779 determine_screen_width (void)
1780 {
1781   /* If there's a way to get the terminal size using POSIX
1782      tcgetattr(), somebody please tell me.  */
1783 #ifdef TIOCGWINSZ
1784   int fd;
1785   struct winsize wsz;
1786
1787   if (opt.lfilename != NULL)
1788     return 0;
1789
1790   fd = fileno (stderr);
1791   if (ioctl (fd, TIOCGWINSZ, &wsz) < 0)
1792     return 0;                   /* most likely ENOTTY */
1793
1794   return wsz.ws_col;
1795 #elif defined(WINDOWS)
1796   CONSOLE_SCREEN_BUFFER_INFO csbi;
1797   if (!GetConsoleScreenBufferInfo (GetStdHandle (STD_ERROR_HANDLE), &csbi))
1798     return 0;
1799   return csbi.dwSize.X;
1800 #else  /* neither TIOCGWINSZ nor WINDOWS */
1801   return 0;
1802 #endif /* neither TIOCGWINSZ nor WINDOWS */
1803 }
1804 \f
1805 /* Whether the rnd system (either rand or [dl]rand48) has been
1806    seeded.  */
1807 static int rnd_seeded;
1808
1809 /* Return a random number between 0 and MAX-1, inclusive.
1810
1811    If the system does not support lrand48 and MAX is greater than the
1812    value of RAND_MAX+1 on the system, the returned value will be in
1813    the range [0, RAND_MAX].  This may be fixed in a future release.
1814    The random number generator is seeded automatically the first time
1815    it is called.
1816
1817    This uses lrand48 where available, rand elsewhere.  DO NOT use it
1818    for cryptography.  It is only meant to be used in situations where
1819    quality of the random numbers returned doesn't really matter.  */
1820
1821 int
1822 random_number (int max)
1823 {
1824 #ifdef HAVE_DRAND48
1825   if (!rnd_seeded)
1826     {
1827       srand48 ((long) time (NULL) ^ (long) getpid ());
1828       rnd_seeded = 1;
1829     }
1830   return lrand48 () % max;
1831 #else  /* not HAVE_DRAND48 */
1832
1833   double bounded;
1834   int rnd;
1835   if (!rnd_seeded)
1836     {
1837       srand ((unsigned) time (NULL) ^ (unsigned) getpid ());
1838       rnd_seeded = 1;
1839     }
1840   rnd = rand ();
1841
1842   /* Like rand() % max, but uses the high-order bits for better
1843      randomness on architectures where rand() is implemented using a
1844      simple congruential generator.  */
1845
1846   bounded = (double) max * rnd / (RAND_MAX + 1.0);
1847   return (int) bounded;
1848
1849 #endif /* not HAVE_DRAND48 */
1850 }
1851
1852 /* Return a random uniformly distributed floating point number in the
1853    [0, 1) range.  Uses drand48 where available, and a really lame
1854    kludge elsewhere.  */
1855
1856 double
1857 random_float (void)
1858 {
1859 #ifdef HAVE_DRAND48
1860   if (!rnd_seeded)
1861     {
1862       srand48 ((long) time (NULL) ^ (long) getpid ());
1863       rnd_seeded = 1;
1864     }
1865   return drand48 ();
1866 #else  /* not HAVE_DRAND48 */
1867   return (  random_number (10000) / 10000.0
1868           + random_number (10000) / (10000.0 * 10000.0)
1869           + random_number (10000) / (10000.0 * 10000.0 * 10000.0)
1870           + random_number (10000) / (10000.0 * 10000.0 * 10000.0 * 10000.0));
1871 #endif /* not HAVE_DRAND48 */
1872 }
1873 \f
1874 /* Implementation of run_with_timeout, a generic timeout-forcing
1875    routine for systems with Unix-like signal handling.  */
1876
1877 #ifdef USE_SIGNAL_TIMEOUT
1878 # ifdef HAVE_SIGSETJMP
1879 #  define SETJMP(env) sigsetjmp (env, 1)
1880
1881 static sigjmp_buf run_with_timeout_env;
1882
1883 static void
1884 abort_run_with_timeout (int sig)
1885 {
1886   assert (sig == SIGALRM);
1887   siglongjmp (run_with_timeout_env, -1);
1888 }
1889 # else /* not HAVE_SIGSETJMP */
1890 #  define SETJMP(env) setjmp (env)
1891
1892 static jmp_buf run_with_timeout_env;
1893
1894 static void
1895 abort_run_with_timeout (int sig)
1896 {
1897   assert (sig == SIGALRM);
1898   /* We don't have siglongjmp to preserve the set of blocked signals;
1899      if we longjumped out of the handler at this point, SIGALRM would
1900      remain blocked.  We must unblock it manually. */
1901   int mask = siggetmask ();
1902   mask &= ~sigmask (SIGALRM);
1903   sigsetmask (mask);
1904
1905   /* Now it's safe to longjump. */
1906   longjmp (run_with_timeout_env, -1);
1907 }
1908 # endif /* not HAVE_SIGSETJMP */
1909
1910 /* Arrange for SIGALRM to be delivered in TIMEOUT seconds.  This uses
1911    setitimer where available, alarm otherwise.
1912
1913    TIMEOUT should be non-zero.  If the timeout value is so small that
1914    it would be rounded to zero, it is rounded to the least legal value
1915    instead (1us for setitimer, 1s for alarm).  That ensures that
1916    SIGALRM will be delivered in all cases.  */
1917
1918 static void
1919 alarm_set (double timeout)
1920 {
1921 #ifdef ITIMER_REAL
1922   /* Use the modern itimer interface. */
1923   struct itimerval itv;
1924   xzero (itv);
1925   itv.it_value.tv_sec = (long) timeout;
1926   itv.it_value.tv_usec = 1000000 * (timeout - (long)timeout);
1927   if (itv.it_value.tv_sec == 0 && itv.it_value.tv_usec == 0)
1928     /* Ensure that we wait for at least the minimum interval.
1929        Specifying zero would mean "wait forever".  */
1930     itv.it_value.tv_usec = 1;
1931   setitimer (ITIMER_REAL, &itv, NULL);
1932 #else  /* not ITIMER_REAL */
1933   /* Use the old alarm() interface. */
1934   int secs = (int) timeout;
1935   if (secs == 0)
1936     /* Round TIMEOUTs smaller than 1 to 1, not to zero.  This is
1937        because alarm(0) means "never deliver the alarm", i.e. "wait
1938        forever", which is not what someone who specifies a 0.5s
1939        timeout would expect.  */
1940     secs = 1;
1941   alarm (secs);
1942 #endif /* not ITIMER_REAL */
1943 }
1944
1945 /* Cancel the alarm set with alarm_set. */
1946
1947 static void
1948 alarm_cancel (void)
1949 {
1950 #ifdef ITIMER_REAL
1951   struct itimerval disable;
1952   xzero (disable);
1953   setitimer (ITIMER_REAL, &disable, NULL);
1954 #else  /* not ITIMER_REAL */
1955   alarm (0);
1956 #endif /* not ITIMER_REAL */
1957 }
1958
1959 /* Call FUN(ARG), but don't allow it to run for more than TIMEOUT
1960    seconds.  Returns true if the function was interrupted with a
1961    timeout, false otherwise.
1962
1963    This works by setting up SIGALRM to be delivered in TIMEOUT seconds
1964    using setitimer() or alarm().  The timeout is enforced by
1965    longjumping out of the SIGALRM handler.  This has several
1966    advantages compared to the traditional approach of relying on
1967    signals causing system calls to exit with EINTR:
1968
1969      * The callback function is *forcibly* interrupted after the
1970        timeout expires, (almost) regardless of what it was doing and
1971        whether it was in a syscall.  For example, a calculation that
1972        takes a long time is interrupted as reliably as an IO
1973        operation.
1974
1975      * It works with both SYSV and BSD signals because it doesn't
1976        depend on the default setting of SA_RESTART.
1977
1978      * It doesn't require special handler setup beyond a simple call
1979        to signal().  (It does use sigsetjmp/siglongjmp, but they're
1980        optional.)
1981
1982    The only downside is that, if FUN allocates internal resources that
1983    are normally freed prior to exit from the functions, they will be
1984    lost in case of timeout.  */
1985
1986 bool
1987 run_with_timeout (double timeout, void (*fun) (void *), void *arg)
1988 {
1989   int saved_errno;
1990
1991   if (timeout == 0)
1992     {
1993       fun (arg);
1994       return false;
1995     }
1996
1997   signal (SIGALRM, abort_run_with_timeout);
1998   if (SETJMP (run_with_timeout_env) != 0)
1999     {
2000       /* Longjumped out of FUN with a timeout. */
2001       signal (SIGALRM, SIG_DFL);
2002       return true;
2003     }
2004   alarm_set (timeout);
2005   fun (arg);
2006
2007   /* Preserve errno in case alarm() or signal() modifies it. */
2008   saved_errno = errno;
2009   alarm_cancel ();
2010   signal (SIGALRM, SIG_DFL);
2011   errno = saved_errno;
2012
2013   return false;
2014 }
2015
2016 #else  /* not USE_SIGNAL_TIMEOUT */
2017
2018 #ifndef WINDOWS
2019 /* A stub version of run_with_timeout that just calls FUN(ARG).  Don't
2020    define it under Windows, because Windows has its own version of
2021    run_with_timeout that uses threads.  */
2022
2023 bool
2024 run_with_timeout (double timeout, void (*fun) (void *), void *arg)
2025 {
2026   fun (arg);
2027   return false;
2028 }
2029 #endif /* not WINDOWS */
2030 #endif /* not USE_SIGNAL_TIMEOUT */
2031 \f
2032 #ifndef WINDOWS
2033
2034 /* Sleep the specified amount of seconds.  On machines without
2035    nanosleep(), this may sleep shorter if interrupted by signals.  */
2036
2037 void
2038 xsleep (double seconds)
2039 {
2040 #ifdef HAVE_NANOSLEEP
2041   /* nanosleep is the preferred interface because it offers high
2042      accuracy and, more importantly, because it allows us to reliably
2043      restart receiving a signal such as SIGWINCH.  (There was an
2044      actual Debian bug report about --limit-rate malfunctioning while
2045      the terminal was being resized.)  */
2046   struct timespec sleep, remaining;
2047   sleep.tv_sec = (long) seconds;
2048   sleep.tv_nsec = 1000000000 * (seconds - (long) seconds);
2049   while (nanosleep (&sleep, &remaining) < 0 && errno == EINTR)
2050     /* If nanosleep has been interrupted by a signal, adjust the
2051        sleeping period and return to sleep.  */
2052     sleep = remaining;
2053 #elif defined(HAVE_USLEEP)
2054   /* If usleep is available, use it in preference to select.  */
2055   if (seconds >= 1)
2056     {
2057       /* On some systems, usleep cannot handle values larger than
2058          1,000,000.  If the period is larger than that, use sleep
2059          first, then add usleep for subsecond accuracy.  */
2060       sleep (seconds);
2061       seconds -= (long) seconds;
2062     }
2063   usleep (seconds * 1000000);
2064 #else /* fall back select */
2065   /* Note that, although Windows supports select, it can't be used to
2066      implement sleeping because Winsock's select doesn't implement
2067      timeout when it is passed NULL pointers for all fd sets.  (But it
2068      does under Cygwin, which implements Unix-compatible select.)  */
2069   struct timeval sleep;
2070   sleep.tv_sec = (long) seconds;
2071   sleep.tv_usec = 1000000 * (seconds - (long) seconds);
2072   select (0, NULL, NULL, NULL, &sleep);
2073   /* If select returns -1 and errno is EINTR, it means we were
2074      interrupted by a signal.  But without knowing how long we've
2075      actually slept, we can't return to sleep.  Using gettimeofday to
2076      track sleeps is slow and unreliable due to clock skew.  */
2077 #endif
2078 }
2079
2080 #endif /* not WINDOWS */
2081
2082 /* Encode the octets in DATA of length LENGTH to base64 format,
2083    storing the result to DEST.  The output will be zero-terminated,
2084    and must point to a writable buffer of at least
2085    1+BASE64_LENGTH(length) bytes.  The function returns the length of
2086    the resulting base64 data, not counting the terminating zero.
2087
2088    This implementation does not emit newlines after 76 characters of
2089    base64 data.  */
2090
2091 int
2092 base64_encode (const void *data, int length, char *dest)
2093 {
2094   /* Conversion table.  */
2095   static const char tbl[64] = {
2096     'A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P',
2097     'Q','R','S','T','U','V','W','X','Y','Z','a','b','c','d','e','f',
2098     'g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v',
2099     'w','x','y','z','0','1','2','3','4','5','6','7','8','9','+','/'
2100   };
2101   /* Access bytes in DATA as unsigned char, otherwise the shifts below
2102      don't work for data with MSB set. */
2103   const unsigned char *s = data;
2104   /* Theoretical ANSI violation when length < 3. */
2105   const unsigned char *end = (const unsigned char *) data + length - 2;
2106   char *p = dest;
2107
2108   /* Transform the 3x8 bits to 4x6 bits, as required by base64.  */
2109   for (; s < end; s += 3)
2110     {
2111       *p++ = tbl[s[0] >> 2];
2112       *p++ = tbl[((s[0] & 3) << 4) + (s[1] >> 4)];
2113       *p++ = tbl[((s[1] & 0xf) << 2) + (s[2] >> 6)];
2114       *p++ = tbl[s[2] & 0x3f];
2115     }
2116
2117   /* Pad the result if necessary...  */
2118   switch (length % 3)
2119     {
2120     case 1:
2121       *p++ = tbl[s[0] >> 2];
2122       *p++ = tbl[(s[0] & 3) << 4];
2123       *p++ = '=';
2124       *p++ = '=';
2125       break;
2126     case 2:
2127       *p++ = tbl[s[0] >> 2];
2128       *p++ = tbl[((s[0] & 3) << 4) + (s[1] >> 4)];
2129       *p++ = tbl[((s[1] & 0xf) << 2)];
2130       *p++ = '=';
2131       break;
2132     }
2133   /* ...and zero-terminate it.  */
2134   *p = '\0';
2135
2136   return p - dest;
2137 }
2138
2139 /* Store in C the next non-whitespace character from the string, or \0
2140    when end of string is reached.  */
2141 #define NEXT_CHAR(c, p) do {                    \
2142   c = (unsigned char) *p++;                     \
2143 } while (c_isspace (c))
2144
2145 #define IS_ASCII(c) (((c) & 0x80) == 0)
2146
2147 /* Decode data from BASE64 (a null-terminated string) into memory
2148    pointed to by DEST.  DEST is assumed to be large enough to
2149    accomodate the decoded data, which is guaranteed to be no more than
2150    3/4*strlen(base64).
2151
2152    Since DEST is assumed to contain binary data, it is not
2153    NUL-terminated.  The function returns the length of the data
2154    written to TO.  -1 is returned in case of error caused by malformed
2155    base64 input.
2156
2157    This function originates from Free Recode.  */
2158
2159 int
2160 base64_decode (const char *base64, void *dest)
2161 {
2162   /* Table of base64 values for first 128 characters.  Note that this
2163      assumes ASCII (but so does Wget in other places).  */
2164   static const signed char base64_char_to_value[128] =
2165     {
2166       -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  /*   0-  9 */
2167       -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  /*  10- 19 */
2168       -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  /*  20- 29 */
2169       -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  -1,  /*  30- 39 */
2170       -1,  -1,  -1,  62,  -1,  -1,  -1,  63,  52,  53,  /*  40- 49 */
2171       54,  55,  56,  57,  58,  59,  60,  61,  -1,  -1,  /*  50- 59 */
2172       -1,  -1,  -1,  -1,  -1,  0,   1,   2,   3,   4,   /*  60- 69 */
2173       5,   6,   7,   8,   9,   10,  11,  12,  13,  14,  /*  70- 79 */
2174       15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  /*  80- 89 */
2175       25,  -1,  -1,  -1,  -1,  -1,  -1,  26,  27,  28,  /*  90- 99 */
2176       29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  /* 100-109 */
2177       39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  /* 110-119 */
2178       49,  50,  51,  -1,  -1,  -1,  -1,  -1             /* 120-127 */
2179     };
2180 #define BASE64_CHAR_TO_VALUE(c) ((int) base64_char_to_value[c])
2181 #define IS_BASE64(c) ((IS_ASCII (c) && BASE64_CHAR_TO_VALUE (c) >= 0) || c == '=')
2182
2183   const char *p = base64;
2184   char *q = dest;
2185
2186   while (1)
2187     {
2188       unsigned char c;
2189       unsigned long value;
2190
2191       /* Process first byte of a quadruplet.  */
2192       NEXT_CHAR (c, p);
2193       if (!c)
2194         break;
2195       if (c == '=' || !IS_BASE64 (c))
2196         return -1;              /* illegal char while decoding base64 */
2197       value = BASE64_CHAR_TO_VALUE (c) << 18;
2198
2199       /* Process second byte of a quadruplet.  */
2200       NEXT_CHAR (c, p);
2201       if (!c)
2202         return -1;              /* premature EOF while decoding base64 */
2203       if (c == '=' || !IS_BASE64 (c))
2204         return -1;              /* illegal char while decoding base64 */
2205       value |= BASE64_CHAR_TO_VALUE (c) << 12;
2206       *q++ = value >> 16;
2207
2208       /* Process third byte of a quadruplet.  */
2209       NEXT_CHAR (c, p);
2210       if (!c)
2211         return -1;              /* premature EOF while decoding base64 */
2212       if (!IS_BASE64 (c))
2213         return -1;              /* illegal char while decoding base64 */
2214
2215       if (c == '=')
2216         {
2217           NEXT_CHAR (c, p);
2218           if (!c)
2219             return -1;          /* premature EOF while decoding base64 */
2220           if (c != '=')
2221             return -1;          /* padding `=' expected but not found */
2222           continue;
2223         }
2224
2225       value |= BASE64_CHAR_TO_VALUE (c) << 6;
2226       *q++ = 0xff & value >> 8;
2227
2228       /* Process fourth byte of a quadruplet.  */
2229       NEXT_CHAR (c, p);
2230       if (!c)
2231         return -1;              /* premature EOF while decoding base64 */
2232       if (c == '=')
2233         continue;
2234       if (!IS_BASE64 (c))
2235         return -1;              /* illegal char while decoding base64 */
2236
2237       value |= BASE64_CHAR_TO_VALUE (c);
2238       *q++ = 0xff & value;
2239     }
2240 #undef IS_BASE64
2241 #undef BASE64_CHAR_TO_VALUE
2242
2243   return q - (char *) dest;
2244 }
2245
2246 #undef IS_ASCII
2247 #undef NEXT_CHAR
2248 \f
2249 /* Simple merge sort for use by stable_sort.  Implementation courtesy
2250    Zeljko Vrba with additional debugging by Nenad Barbutov.  */
2251
2252 static void
2253 mergesort_internal (void *base, void *temp, size_t size, size_t from, size_t to,
2254                     int (*cmpfun) (const void *, const void *))
2255 {
2256 #define ELT(array, pos) ((char *)(array) + (pos) * size)
2257   if (from < to)
2258     {
2259       size_t i, j, k;
2260       size_t mid = (to + from) / 2;
2261       mergesort_internal (base, temp, size, from, mid, cmpfun);
2262       mergesort_internal (base, temp, size, mid + 1, to, cmpfun);
2263       i = from;
2264       j = mid + 1;
2265       for (k = from; (i <= mid) && (j <= to); k++)
2266         if (cmpfun (ELT (base, i), ELT (base, j)) <= 0)
2267           memcpy (ELT (temp, k), ELT (base, i++), size);
2268         else
2269           memcpy (ELT (temp, k), ELT (base, j++), size);
2270       while (i <= mid)
2271         memcpy (ELT (temp, k++), ELT (base, i++), size);
2272       while (j <= to)
2273         memcpy (ELT (temp, k++), ELT (base, j++), size);
2274       for (k = from; k <= to; k++)
2275         memcpy (ELT (base, k), ELT (temp, k), size);
2276     }
2277 #undef ELT
2278 }
2279
2280 /* Stable sort with interface exactly like standard library's qsort.
2281    Uses mergesort internally, allocating temporary storage with
2282    alloca.  */
2283
2284 void
2285 stable_sort (void *base, size_t nmemb, size_t size,
2286              int (*cmpfun) (const void *, const void *))
2287 {
2288   if (size > 1)
2289     {
2290       void *temp = alloca (nmemb * size * sizeof (void *));
2291       mergesort_internal (base, temp, size, 0, nmemb - 1, cmpfun);
2292     }
2293 }
2294 \f
2295 /* Print a decimal number.  If it is equal to or larger than ten, the
2296    number is rounded.  Otherwise it is printed with one significant
2297    digit without trailing zeros and with no more than three fractional
2298    digits total.  For example, 0.1 is printed as "0.1", 0.035 is
2299    printed as "0.04", 0.0091 as "0.009", and 0.0003 as simply "0".
2300
2301    This is useful for displaying durations because it provides
2302    order-of-magnitude information without unnecessary clutter --
2303    long-running downloads are shown without the fractional part, and
2304    short ones still retain one significant digit.  */
2305
2306 const char *
2307 print_decimal (double number)
2308 {
2309   static char buf[32];
2310   double n = number >= 0 ? number : -number;
2311
2312   if (n >= 9.95)
2313     /* Cut off at 9.95 because the below %.1f would round 9.96 to
2314        "10.0" instead of "10".  OTOH 9.94 will print as "9.9".  */
2315     snprintf (buf, sizeof buf, "%.0f", number);
2316   else if (n >= 0.95)
2317     snprintf (buf, sizeof buf, "%.1f", number);
2318   else if (n >= 0.001)
2319     snprintf (buf, sizeof buf, "%.1g", number);
2320   else if (n >= 0.0005)
2321     /* round [0.0005, 0.001) to 0.001 */
2322     snprintf (buf, sizeof buf, "%.3f", number);
2323   else
2324     /* print numbers close to 0 as 0, not 0.000 */
2325     strcpy (buf, "0");
2326
2327   return buf;
2328 }
2329
2330 #ifdef TESTING
2331
2332 const char *
2333 test_subdir_p()
2334 {
2335   int i;
2336   struct {
2337     char *d1;
2338     char *d2;
2339     bool result;
2340   } test_array[] = {
2341     { "/somedir", "/somedir", true },
2342     { "/somedir", "/somedir/d2", true },
2343     { "/somedir/d1", "/somedir", false },
2344   };
2345   
2346   for (i = 0; i < countof(test_array); ++i) 
2347     {
2348       bool res = subdir_p (test_array[i].d1, test_array[i].d2);
2349
2350       mu_assert ("test_subdir_p: wrong result", 
2351                  res == test_array[i].result);
2352     }
2353
2354   return NULL;
2355 }
2356
2357 const char *
2358 test_dir_matches_p()
2359 {
2360   int i;
2361   struct {
2362     char *dirlist[3];
2363     char *dir;
2364     bool result;
2365   } test_array[] = {
2366     { { "/somedir", "/someotherdir", NULL }, "somedir", true },
2367     { { "/somedir", "/someotherdir", NULL }, "anotherdir", false },
2368     { { "/somedir", "/*otherdir", NULL }, "anotherdir", true },
2369     { { "/somedir/d1", "/someotherdir", NULL }, "somedir/d1", true },
2370     { { "*/*d1", "/someotherdir", NULL }, "somedir/d1", true },
2371     { { "/somedir/d1", "/someotherdir", NULL }, "d1", false },
2372     { { "!COMPLETE", NULL, NULL }, "!COMPLETE", true },
2373     { { "*COMPLETE", NULL, NULL }, "!COMPLETE", true },
2374     { { "*/!COMPLETE", NULL, NULL }, "foo/!COMPLETE", true },
2375     { { "*COMPLETE", NULL, NULL }, "foo/!COMPLETE", false },
2376     { { "*/*COMPLETE", NULL, NULL }, "foo/!COMPLETE", true },
2377     { { "/dir with spaces", NULL, NULL }, "dir with spaces", true },
2378     { { "/dir*with*spaces", NULL, NULL }, "dir with spaces", true },
2379   };
2380   
2381   for (i = 0; i < countof(test_array); ++i) 
2382     {
2383       bool res = dir_matches_p (test_array[i].dirlist, test_array[i].dir);
2384       
2385       mu_assert ("test_dir_matches_p: wrong result", 
2386                  res == test_array[i].result);
2387     }
2388
2389   return NULL;
2390 }
2391
2392 #endif /* TESTING */
2393