« Disparition » de sites pirates : que s’est-il passé avec DuckDuckGo ? - Numerama
▻https://www.numerama.com/tech/926821-disparition-de-sites-pirates-que-sest-il-passe-avec-duckduckgo.html
« Disparition » de sites pirates : que s’est-il passé avec DuckDuckGo ? - Numerama
▻https://www.numerama.com/tech/926821-disparition-de-sites-pirates-que-sest-il-passe-avec-duckduckgo.html
internetarchive/heritrix3: Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.
▻https://github.com/internetarchive/heritrix3
Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.
– Le wiki de documentation: ▻https://github.com/internetarchive/heritrix3/wiki
– téléchargement: ▻http://builds.archive.org/maven2/org/archive/heritrix/heritrix
Olivier PAPON ? sur Twitter : « ?NEW ? ▻https://t.co/jO0w0gPfrT devient aussi un crawler ?️ surpuissant : 1000 urls/sec et 5M de pages/site ?. Une belle liste de features à découvrir : historique des crawls, codes http, profondeur, urls crawlées/bloquées... #SEO #crawler. Enjoy and please RT ? ?… ▻https://t.co/arKXrU1pCG »
▻https://twitter.com/seolyzer_io/status/1105034807069806592
Les #Bots, #Spiders, #Crawlers à autoriser sur votre site Web
▻http://www.dsfc.net/internet/moteurs-internet/bots-spiders-crawlers-a-autoriser-sur-votre-site-web
Contrairement à certains SEO, j’ai toujours considéré qu’il y avait un intérêt à être indexé dans des #Moteurs de recherche « mineurs ».
#.htaccess #Formateur_Apache #Formateur_Référencement_naturel #Formateur_SEO #Moteurs_de_recherche #Search_Engines
Heritrix - Heritrix - IA Webteam Confluence
▻https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web #crawler project. Heritrix (sometimes spelled heretrix, or misspelled or mis-said as heratrix/heritix/ heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt.
#spider #wget #achive #aspirateur
après compilation et dédoublonnage des 2 listes proposées, ça donnerait le code suivant : ▻http://spip.pastebin.fr/39305
N’est ce pas un peu trop gros comme expression régulière pour un preg_match() ?
Au dessus on filtre déja bot|slurp|crawler|spider|webvac|yandex|
donc si tu enlèves ceux qui matchent cela devrait aller mieux en théorie
Les pages perso de Free ne sont pas référencées sur Bing - Freenews : L’actualité des Freenautes - Toute l’actualité pour votre Freebox Revolution
►http://www.freenews.fr/spip.php?article11083
Certains ont déjà pu le constater, depuis maintenant quelques mois, les pages personnelles hébergées sur Free.fr ne sont plus référencées sur le moteur de recherche Bing de Microsoft [...] le crawler (robot indexant les pages) de Bing a un comportement trop agressif, causant une surcharge bien trop importante sur les serveurs des pages perso