le script me recrée aussi des pages pour chaque tag, et une liste des urls contenues dans mes seens
j’utilise ensuite #httrack pour charger l’ensemble des liens.
# httrack —list ../seen/urls.txt —get -N « %d/%M.%st » -c8
résultat :
HTTrack Website Copier/3.44-1 mirror complete in 8 hours 22 minutes 57 seconds : 4125 links scanned, 3235 files written (342212746 bytes overall) [321697197 bytes received at 10660 bytes/sec], 162345214 bytes transfered using HTTP compression in 2753 files, ratio 23%, 1.2 requests per connection
(436 errors, 173 warnings, 160 messages)