BigGrizzly

Groumpf

  • Liste des 10 principaux user-agents dans les 1000 dernières lignes logs au moment de l’énième surcharge du jour : aucun humain

       369 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible;  *GoogleOther* )
       246 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible;  *ClaudeBot* /1.0; +claudebot@anthropic.com)
        92 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible;  *Googlebot* /2.1; +http://www.google.com/bot.html)
        76 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 ( *Amazonbot* /0.1; +https://developer.amazon.com/support/amazonbot)
        47 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible;  *GPTBot* /1.0; +https://openai.com/gptbot)
        35 SPIP-3.2.19 (https://www.spip.net)
        20 Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible;  *Bytespider* ; spider-feedback@bytedance.com)
        19 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible;  *bingbot* /2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
        15 Mozilla/5.0 (compatible;  *AhrefsBot* /7.0; +http://ahrefs.com/robot/)
        13 Mozilla/5.0 (compatible;  *DataForSeoBot* /1.0; +https://dataforseo.com/dataforseo-bot)

    J’ai vérifié en allant voir les 10 suivantes. Pareil. Enfin. Mon user-agent caractéristique fini par apparaître à la 19ème ligne.

    • Toujours le même classement deux heures après. Ils sont tous en train de récupérer l’intégralité de SeenThis.

         359 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
         104 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
         100 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; GoogleOther)
          53 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
          52 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
          50 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
          36 SPIP-3.2.19 (https://www.spip.net)
          25 Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)
          23 Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
          23 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
    • Ce matin, 8h06.

         208 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
         194 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; GoogleOther)
          52 facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
          43 Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)
          43 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
          42 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
          42 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
          38 Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
          35 Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
          34 Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)

      Explications :
      – Chaque visiteur utilise un logiciel qui télécharge les pages et les images des pages qu’il visite.
      – Chacune des ressources téléchargées génère une ligne de journal dans un fichier dit de « log ».
      – Le logiciel, à chaque téléchargement, transmet une chaîne de caractère que l’on nomme « user agent ». C’est le nom du logiciel utilisé, y compris des informations sur le système d’exploitation, et pleins d’autres choses potentiellement.
      – Les 10 lignes que je présente sont issues des 1000 dernières lignes de journal regroupées sur le « user agent », avec un décompte du nombre d’occurrences de chacun.

      Dans ce dernier export, on constate que les 10 premiers « user agent » représentent 73,1% de l’activité. Et que ceux-ci sont à 100% des robots.

    • @biggrizzly : Est-ce que ces activités « supra normales » induisent qu’on ait souvent des erreurs « 502 bad gateway » lors d’une tentative de connection ? Moi, pas plus tard qu’hier soir (et de plus en plus fréquemment ces dernières semaines).

      @mfmb : je n’ai pas l’expertise de Big Grizzly dans le domaine du web. Mais quand j’apprends que des bots (machines plus ou moins autonomes car automatisées) se mettent à aspirer les données d’une plateforme comme Seenthis, je me pose la question : mais où vont les octets ? Et quelle la nature de l’interface fauteuil-clavier (le gugusse qui est aux manettes) qui se permet de faire ça.

      #surveillance (?)
      (spoiler : yes)

    • L’humain soucieux d’éduquer sa progéniture lui donne accès aux livres et aux écoles. Les capitalistes, soucieux de remplacer l’humain, donnent accès à leurs robots aux contenus des réseaux sociaux. Leurs robots pompent tous les échanges humains (écrits, dessins, vidéos) dans l’espoir de créer une intelligence artificielle plus performante que celle du capitaliste voisin, pour enfin pouvoir se passer des humains.

      Pomper l’intégralité de SeenThis, ça brûle des ressources, oui, on ferait mieux de leur transmettre directement la base de données... Ils ont de leur côté décidé qu’ils avaient des moyens illimités. Ils construisent des datacenters uniquement pour ce besoin là. C’est consternant d’inutilité. Mais il en ressortira quelque chose, assurément. Avec ou sans nous.

    • J’omets de répondre à ta question, désolé. Oui, ces erreurs récurrentes, les difficultés à publier ou à répondre, c’est à cause des bots.

      Mais comme je l’indique dans une de mes réponses, je ne comprends pas pourquoi les bots ne sont pas refusés (erreur 503), quand la charge de la machine est élevée. J’ai l’impression que lors de la dernière mise à jour, la fonctionnalité a été désactivée, ou quelque chose du genre, et c’est pour cela qu’il serait bon qu’un spécialiste aille regarder, s-il-vous-plait-merci-d-avance.

    • Je viens de passer une journée a les virer d’un forum. Mardi c’était devenu infernal.
      Pour certains c’est assez simple, ils respectent le robots.txt. openai et je ne sais plus quel autre donnent leurs adresse avec le masque cidr qui va bien. Je ne suis pas admin de la machine (donc pas moyen de configurer le pare-feu) mais avec une section <Limit> dans un fichier .htaccess ça marche.
      Reste les plus agressifs : bytedance, amazon et quelques autres. J’ai pas la plage IP de ceux la.
      Certains t’expliquent sans rire qu’ils relisent le robot.txt tous les 10 jours ! J’ai ajouté des règles de réécriture qui leur balance des erreurs 403. En 24h tout est redevenu normal.

    • 9h43, 100% de robots dans les 840 dernières lignes du journal.

         458 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; GoogleOther)
         176 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.94 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
          33 facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
          28 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
          28 Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)
          27 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
          24 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
          21 Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)
          20 Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
          18 Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
    • Mince je n’avais pas vu tes pings @biggrizzly (normal le ping vers @seenthis n’est plus relayé sur discourse), n’hésite pas à me pinger en direct :)

      Si les bots ne sont pas bloqués, il y a deux pistes : soit leur user agent n’est pas dans la liste déclaré par l’écran de sécu de SPIP cf https://git.spip.net/spip-contrib-outils/securite/-/blob/master/ecran_securite.php?ref_type=heads#L44 ou alors PHP n’a pas accès à sys_getloadavg cf https://git.spip.net/spip-contrib-outils/securite/-/blob/master/ecran_securite.php?ref_type=heads#L740

    • Merci pour les pistes @b_b. Depuis, donc, un certain temps, ça génère du 429, au lieu de 503. Je n’avais pas vu. Du coup, je constate que ça vire du monde, déjà. Et je constate, donc, que ça n’exclut pas beaucoup de bot, du fait de la règle qui est très peu excluante. La règle actuelle ne suffit pas. Je vais modifier la règle, en la rendant très excluante, et on va voir si ça va mieux. Merci encore.

    • Depuis que j’ai compris que ça déclenchait des 429 plutôt que des 503, j’ai pu adapter mes scripts (basiques) d’analyse des logs, et je vois désormais qu’il y a bien un effet de la part de ce système.

      Comme tu dois pouvoir le voir, j’ai ajouté des filtres très génériques. Apparemment, le load ne monte plus au dessus de 2, pour le moment. A suivre. Et j’espère qu’il n’y a pas de user-agent légitime qui contient « bot »... :-))

    • Puisqu’on en parle, des bots pas sympa, en voilà un gratiné. Si on se demande pourquoi pendant 5 minutes SeenThis était difficile d’accès, on peut demander des comptes au user-agent suivant : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36

      Dans les 1000 dernières lignes de log, il communiquait avec SeenThis depuis 4 adresses IP :

          87 183.192.118.124
          30 183.192.118.126
          18 183.192.118.18
         137 183.192.118.26

      Nous avons donc des bots qui tentent de se faire passer pour autre chose qu’un bot.