#crawler

cy_altern @cy_altern CC BY-SA 23/04/2022

1

1

« Disparition » de sites pirates : que s’est-il passé avec DuckDuckGo ? - Numerama
▻https://www.numerama.com/tech/926821-disparition-de-sites-pirates-que-sest-il-passe-avec-duckduckgo.html
#DuckDuckGo #crawler #indexation #censure #filtrage

cy_altern @cy_altern CC BY-SA

Écrire un commentaire
cy_altern @cy_altern CC BY-SA 23/07/2020

internetarchive/heritrix3: Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.
▻https://github.com/internetarchive/heritrix3
Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.
– Le wiki de documentation: ▻https://github.com/internetarchive/heritrix3/wiki
– téléchargement: ▻http://builds.archive.org/maven2/org/archive/heritrix/heritrix
#heritrix #crawler #aspirateur_site #internetarchive

cy_altern @cy_altern CC BY-SA

Écrire un commentaire
Mr Cerbere @mr_cerbere 12/03/2019

Olivier PAPON ? sur Twitter : « ?NEW ? ▻https://t.co/jO0w0gPfrT devient aussi un crawler ?️ surpuissant : 1000 urls/sec et 5M de pages/site ?. Une belle liste de features à découvrir : historique des crawls, codes http, profondeur, urls crawlées/bloquées... #SEO #crawler. Enjoy and please RT ? ?… ▻https://t.co/arKXrU1pCG »
▻https://twitter.com/seolyzer_io/status/1105034807069806592

Mr Cerbere @mr_cerbere

Écrire un commentaire
bloginfo @bloginfo CC BY-NC-ND 7/02/2016

Les #Bots, #Spiders, #Crawlers à autoriser sur votre site Web
▻http://www.dsfc.net/internet/moteurs-internet/bots-spiders-crawlers-a-autoriser-sur-votre-site-web
http://www3.pictures.zimbio.com/gi/Missy+Franklin+2012+T+Winter+National+Championships+9kIpFgITJlxl.jpg
Contrairement à certains SEO, j’ai toujours considéré qu’il y avait un intérêt à être indexé dans des #Moteurs de recherche « mineurs ».
#.htaccess #Formateur_Apache #Formateur_Référencement_naturel #Formateur_SEO #Moteurs_de_recherche #Search_Engines

bloginfo @bloginfo CC BY-NC-ND

Écrire un commentaire
cy_altern @cy_altern CC BY-SA 1/11/2015

1

1

Heritrix - Heritrix - IA Webteam Confluence
▻https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web #crawler project. Heritrix (sometimes spelled heretrix, or misspelled or mis-said as heratrix/heritix/ heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt.
#spider #wget #achive #aspirateur

cy_altern @cy_altern CC BY-SA
- Fil @fil 1/11/2015
  
  #archivage_militant fais-moi signe si tu réussis à l’installer et à l’utiliser ?
  
  Fil @fil
Écrire un commentaire
cy_altern @cy_altern CC BY-SA 4/01/2015

1

1

Detects a few common Search Bots
▻https://gist.github.com/ScottPhillips/2904459
un script #php simple pour la #détection des robots d’indexation. A utiliser avec un preg_match("/$crawlers_names/i", $user_agent) 1 pour éviter le foreach
#bot #crawler #robot

cy_altern @cy_altern CC BY-SA
- Ben @ben CC BY-NC 4/01/2015
  
  j’avais repéré cette liste aussi ▻https://github.com/YOURLS/dont-log-bots/blob/master/plugin.php#L21 ( en faisant une recherche sur github sur l’un des bots)
  
  Ben @ben CC BY-NC
- b_b @b_b PUBLIC DOMAIN 2/03/2015
  
  ... plop :)
  @cy_altern @ben @nicod_ ça serait pas intéressant de compléter notre liste dans l’écran de sécurité à partir des deux citées ici ?
  
  b_b @b_b PUBLIC DOMAIN
- cy_altern @cy_altern CC BY-SA 5/03/2015
  
  après compilation et dédoublonnage des 2 listes proposées, ça donnerait le code suivant : ▻http://spip.pastebin.fr/39305
  N’est ce pas un peu trop gros comme expression régulière pour un preg_match() ?
  
  cy_altern @cy_altern CC BY-SA
- kent1 @kent1 ART LIBRE 9/01/2018
  
  Au dessus on filtre déja bot|slurp|crawler|spider|webvac|yandex| donc si tu enlèves ceux qui matchent cela devrait aller mieux en théorie
  
  kent1 @kent1 ART LIBRE
- kent1 @kent1 ART LIBRE 9/01/2018
  
  Version mise à jour : ▻http://spip.pastebin.fr/52828
  
  kent1 @kent1 ART LIBRE
Écrire un commentaire
SammyFisherJr @sammyfisherjr CC BY-NC-SA 18/11/2011

Les pages perso de Free ne sont pas référencées sur Bing - Freenews : L’actualité des Freenautes - Toute l’actualité pour votre Freebox Revolution
►http://www.freenews.fr/spip.php?article11083
Certains ont déjà pu le constater, depuis maintenant quelques mois, les pages personnelles hébergées sur Free.fr ne sont plus référencées sur le moteur de recherche Bing de Microsoft [...] le crawler (robot indexant les pages) de Bing a un comportement trop agressif, causant une surcharge bien trop importante sur les serveurs des pages perso
#Bing #Free #crawler

SammyFisherJr @sammyfisherjr CC BY-NC-SA

Écrire un commentaire