Seenthis
•
 
Identifiants personnels
  • [mot de passe oublié ?]

 
  • #c
  • #cr
  • #cra
  • #crawl
RSS: #crawler

#crawler

  • #crawlers
  • @b_b
    b_b @b_b PUBLIC DOMAIN 22/05/2025
    3
    @biggrizzly
    @arno
    @olaf
    3

    Improved ways to operate a rude #crawler marginalia.nu
    ▻https://www.marginalia.nu/log/a_115_rude_crawler

    Tech news is abuzz with rude AI crawlers that forge their user-agent and ignore robots.txt. In my opinion, if this is all the AI startups can muster, they’re losing their touch. wget can do this. You need to up your game, get that crawler really rolling coal. Flagrant disregard for externalities is an important signal to the investors that your AI startup is the one.

    In that spirit, here are some advanced tips on how to be a much worse netizen.

    #satire #bots #ia #botnet

    En lien avec ▻https://seenthis.net/messages/1104052

    b_b @b_b PUBLIC DOMAIN
    Écrire un commentaire
  • @aurelieng
    aurelieng @aurelieng via RSS CC BY 9/03/2025

    Mise à mal des forges Git par les indexeurs d’IA - Infrastructure - Forum du collectif CHATONS
    ►https://forum.chatons.org/t/mise-a-mal-des-forges-git-par-les-indexeurs-dia/7086

    — Permalink

    #LLMs #generativeai #copilot #training #web #crawlers

    aurelieng @aurelieng via RSS CC BY
    Écrire un commentaire
  • @cy_altern
    cy_altern @cy_altern CC BY-SA 23/04/2022
    1
    @hellodoc
    1

    « Disparition » de sites pirates : que s’est-il passé avec DuckDuckGo ? - Numerama
    ▻https://www.numerama.com/tech/926821-disparition-de-sites-pirates-que-sest-il-passe-avec-duckduckgo.html

    #DuckDuckGo #crawler #indexation #censure #filtrage

    cy_altern @cy_altern CC BY-SA
    Écrire un commentaire
  • @cy_altern
    cy_altern @cy_altern CC BY-SA 23/07/2020

    internetarchive/heritrix3: Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.
    ▻https://github.com/internetarchive/heritrix3

    Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web crawler project.

    – Le wiki de documentation: ▻https://github.com/internetarchive/heritrix3/wiki
    – téléchargement: ▻http://builds.archive.org/maven2/org/archive/heritrix/heritrix

    #heritrix #crawler #aspirateur_site #internetarchive

    cy_altern @cy_altern CC BY-SA
    Écrire un commentaire
  • @mr_cerbere
    Mr Cerbere @mr_cerbere 12/03/2019

    Olivier PAPON ? sur Twitter : «  ?NEW ? ▻https://t.co/jO0w0gPfrT devient aussi un crawler ?️ surpuissant : 1000 urls/sec et 5M de pages/site ?. Une belle liste de features à découvrir : historique des crawls, codes http, profondeur, urls crawlées/bloquées... #SEO #crawler. Enjoy and please RT ? ?… ▻https://t.co/arKXrU1pCG »
    ▻https://twitter.com/seolyzer_io/status/1105034807069806592

    Mr Cerbere @mr_cerbere
    Écrire un commentaire
  • @bloginfo
    bloginfo @bloginfo CC BY-NC-ND 7/02/2016

    Les #Bots, #Spiders, #Crawlers à autoriser sur votre site Web
    ▻http://www.dsfc.net/internet/moteurs-internet/bots-spiders-crawlers-a-autoriser-sur-votre-site-web

    http://www3.pictures.zimbio.com/gi/Missy+Franklin+2012+T+Winter+National+Championships+9kIpFgITJlxl.jpg

    Contrairement à certains SEO, j’ai toujours considéré qu’il y avait un intérêt à être indexé dans des #Moteurs de recherche « mineurs ».

    #.htaccess #Formateur_Apache #Formateur_Référencement_naturel #Formateur_SEO #Moteurs_de_recherche #Search_Engines

    bloginfo @bloginfo CC BY-NC-ND
    Écrire un commentaire
  • @cy_altern
    cy_altern @cy_altern CC BY-SA 1/11/2015
    1
    @fil
    1

    Heritrix - Heritrix - IA Webteam Confluence
    ▻https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

    Heritrix is the Internet Archive’s open-source, extensible, web-scale, archival-quality web #crawler project. Heritrix (sometimes spelled heretrix, or misspelled or mis-said as heratrix/heritix/ heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt.

    #spider #wget #achive #aspirateur

    cy_altern @cy_altern CC BY-SA
    • @fil
      Fil @fil 1/11/2015

      #archivage_militant fais-moi signe si tu réussis à l’installer et à l’utiliser ?

      Fil @fil
    Écrire un commentaire
  • @cy_altern
    cy_altern @cy_altern CC BY-SA 4/01/2015
    1
    @spip
    1

    Detects a few common Search Bots
    ▻https://gist.github.com/ScottPhillips/2904459

    un script #php simple pour la #détection des robots d’indexation. A utiliser avec un preg_match("/$crawlers_names/i", $user_agent) 1 pour éviter le foreach

    #bot #crawler #robot

    cy_altern @cy_altern CC BY-SA
    • @ben
      Ben @ben CC BY-NC 4/01/2015

      j’avais repéré cette liste aussi ▻https://github.com/YOURLS/dont-log-bots/blob/master/plugin.php#L21 ( en faisant une recherche sur github sur l’un des bots)

      Ben @ben CC BY-NC
    • @b_b
      b_b @b_b PUBLIC DOMAIN 2/03/2015
      @cy_altern @ben @nicod_

      ... plop :)

      @cy_altern @ben @nicod_ ça serait pas intéressant de compléter notre liste dans l’écran de sécurité à partir des deux citées ici ?

      b_b @b_b PUBLIC DOMAIN
    • @cy_altern
      cy_altern @cy_altern CC BY-SA 5/03/2015

      après compilation et dédoublonnage des 2 listes proposées, ça donnerait le code suivant : ▻http://spip.pastebin.fr/39305
      N’est ce pas un peu trop gros comme expression régulière pour un preg_match() ?

      cy_altern @cy_altern CC BY-SA
    • @kent1
      kent1 @kent1 ART LIBRE 9/01/2018

      Au dessus on filtre déja bot|slurp|crawler|spider|webvac|yandex| donc si tu enlèves ceux qui matchent cela devrait aller mieux en théorie

      kent1 @kent1 ART LIBRE
    • @kent1
      kent1 @kent1 ART LIBRE 9/01/2018

      Version mise à jour : ▻http://spip.pastebin.fr/52828

      kent1 @kent1 ART LIBRE
    Écrire un commentaire
  • @sammyfisherjr
    SammyFisherJr @sammyfisherjr CC BY-NC-SA 18/11/2011

    Les pages perso de Free ne sont pas référencées sur Bing - Freenews : L’actualité des Freenautes - Toute l’actualité pour votre Freebox Revolution
    ►http://www.freenews.fr/spip.php?article11083

    Certains ont déjà pu le constater, depuis maintenant quelques mois, les pages personnelles hébergées sur Free.fr ne sont plus référencées sur le moteur de recherche Bing de Microsoft [...] le crawler (robot indexant les pages) de Bing a un comportement trop agressif, causant une surcharge bien trop importante sur les serveurs des pages perso

    #Bing #Free #crawler

    SammyFisherJr @sammyfisherjr CC BY-NC-SA
    Écrire un commentaire

Thèmes liés

  • person: bing de microsoft
  • person: bing free
  • #free
  • #bing