spamgourmet - free disposable email addresses, spam blocker
►http://www.spamgourmet.com
#spam #riposte
spamgourmet - free disposable email addresses, spam blocker
►http://www.spamgourmet.com
#spam #riposte
Après avoir entré et confirmé votre adresse protégée, vous pouvez donner à qui vous voulez des adresses jetables qui s’auto-détruisent. Les adresses jetables sont de la forme :
UnMot.x.utilisateur@spamgourmet.com
où « UnMot » est un mot que vous n’avez jamais utilisé auparavant, « x » un le nombre de messages que vous souhaitez recevoir sur cette adresse (jusqu’à 20), et « utilisateur » votre nom d’utilisateur.
Yopmail peut servir aussi : email PUBLIC ►http://www.yopmail.com
Et aussi ►http://www.jetable.org/fr/index
RFC 6590 : Redaction of Potentially Sensitive Data from Mail Abuse Reports
Il est fréquent qu’un message électronique contienne de l’information sensible ou personnelle, ne serait-ce que le nom des parties qui communiquent. Si ce message doit être transmis, comme faisant partie d’un rapport de problème (typiquement au format standard #ARF), cette information doit être protégée. Ce #RFC décrit un cadre général pour la retouche des messages. Le terme de « retouche » désigne l’opération d’occultation des parties confidentielles (notez que le redaction de l’original en anglais est un faux-ami, il ne signifie pas « rédaction »).
Quand l’UMP écrit aux internautes - Politique - France Info
►http://www.franceinfo.fr/politique/quand-l-ump-ecrit-aux-internautes-508245-2012-01-24
L’UMP a opté pour une #campagne_numérique sur le mode intrusif. Depuis quelques jours, des internautes sans affiliation politique voient arriver des messages du parti majoritaire dans leurs boîtes de réception. Une information révélée par France Info.
RFC 6471 : Overview of Email DNS-Based List (DNSBL) Best Practice
En raison de l’importance du problème du #spam (et d’autres comportements tout aussi nuisibles), un grand nombre de sites utilisent des #listes_noires des gens avec qui on ne veut pas communiquer (#DNSBL pour DNS-based Black List). Ces listes sont souvent distribuées via le #DNS, et gérées par des organismes très divers, dont le niveau de sérieux et d’honnêteté est très variable. La question étant très polémique, documenter le comportement attendu de ces organismes n’a pas été une mince affaire. Ce #RFC 6471 décrit donc ce qu’on espère d’un gérant de DNSBL.
[Bon, c’est un article de 2006, mais c’est toujours bon.]
« Understanding the network-level behavior of spammers » par Anirudh
Ramachandran (Georgia Tech) et Nick Feamster (Georgia Tech) dans
« Proceeding SIGCOMM ’06 Proceedings of the 2006 conference on
Applications, technologies, architectures, and protocols for computer
communications »
Très bonne analyse technique des trucs réseaux utilisés par les spammeurs. C’était le première article à mettre en évidence le truc d’annoncer en BGP des préfixes #bogons, d’envoyer le spam, pis d’arrêter l’annonce BGP.
►http://www.cc.gatech.edu/~avr/publications/p396-ramachandran-sigcomm06.pdf
Les attaques par amplification (où le méchant envoie un petit paquet et son complice involontaire répond avec un gros paquet, dirigé vers la victime, car le méchant a menti sur son adresse IP) se faisaient traditionnellement avec le #DNS. Maintenant, la mode va-t-elle changer ? #Spamhaus a été attaqué en #SNMP...
#Anonymat sur #internet : des identifiants très parlants - Inria
►http://www.inria.fr/recherches/actualites/anonymat-sur-internet-des-identifiants-tres-parlants
Le choix d’un identifiant peut avoir un impact sur les démarches marketing qui envahiront vos courriels. C’est ce que suggère un article publié dans la revue du MIT et qui montre pour la première fois que l’identifiant lui-même peut fournir des informations sur son propriétaire. Daniele Perito, jeune doctorant italien dans l’équipe Planète, a contribué à cette recherche, sous la direction de Claude Castelluccia, et a mis au point un outil permettant de tester les identifiants.
A suivre. Mon teste est négatif ;) Je prends pour ma Revue à venir ...
Nous avons montré (en étudiant plus de 10 millions d’identifiants sur le net) que les utilisateurs ont tendance à utiliser le même identifiant ou des identifiants très proches sur les différents sites qu’ils fréquentent. Cela veut dire qu’il est facile de faire le lien entre ces différents identifiants et de reconnaître qu’il s’agit d’un même individu.
Oups...
D’un autre côté c’est ptet voulu qu’on puisse nous retrouver aussi... Si je m’appelle bohwaz partout et pas JolieFilleDu455748 sur tel site et BeauGosseDu755654 sur tel autre, c’est que c’est quand même plus simple. Pour moi l’identifiant a la même utilité sur le net que le visage dans la rue : quand on croise qqun qu’on reconnaît on est content de le retrouver là, etc.
Je n’avais pas vu le test ; sammyfisherjr est unique, alors que sammy tout court est hyper galvaudé ^^
Je suis d’accord avec toi, @bohwaz, car pratiquant de même, mais l’article -que je n’ai lu qu’en diagonale- semblait expliquer qu’il ya un risque au niveau de la vie privée, ou du moins de notre éventuelle « traçabilité » sur le net.
moi perso j’en change tout le temps pour publier ou je signe pas , à part sur les réseaux sociaux j’ai le même partout ... ça complique là
Confession du jour : parfois, quand je m’ennuie, je lis mes #spams
« J’AIMERAIS VOUS FAIRE UNE DONATION DE MON BIEN
Bonjour,
Je m’excuse pour cette intrusion, je me nomme Pierette Zet née le 31 Mai 1949 originaire de la France. J’ai dû vous contactez de cette sorte parce que je souhaite faire une chose très importante. cela vous semblera un peu suspect bien vrai que vous ne me connaissez pas et que je ne vous connais pas aussi. Je souffre d’un cancer du cerveau qui est en phase terminale,
(...)
Veuillez me contacter dès que possible si vous êtes d’accord pour mon offre directement par mon mail qui est pierettezet@yahoo.fr , sachiez que je n’ai pas le temps de contacter régulièrement mon abonnement de viadeo.com donc vous aviez intérêt à me répondre directement sur mon mail .
Que la Paix et la miséricorde de Dieu soient avec vous.
Mme pierette zet »
LIBERTE, EGALITE, SEXUALITE - JOUER AU MONDE
►http://fsimpere.over-blog.com/article-liberte-egalite-sexualite-87120667.html
Que dans un monde soi-disant libéré, le #sexe demeure sulfureux et plus ou moins cradingue, ou qu’on l’exonère de tout mystère, de tout affectif, en payant pour une relation sexuelle réduite à une prestation de service, n’est pas un hasard. Le désir est un des plus puissants leviers de la liberté ou de l’aliénation selon qu’il est libre ou contraint. C’est sans doute pourquoi tous les gouvernants et toutes les religions limitent la liberté amoureuse des citoyens en édictant des interdits (variables d’une religion à l’autre, d’un Etat à l’autre) tout en laissant se développer le sexe marchand. Ils savent que la frustration engendre l’aliénation, tandis que des êtres libres dans leurs têtes et leurs corps deviendraient rapidement ingouvernables.
Une classe PHP pour accéder au SaaS Akismet d’Automattic sans passer par WordPress :
PHP5 Akismet
►http://www.achingbrain.net/stuff/php/akismet
This is a simple little PHP5 class that enables you use the Akismet anti-spam service in your PHP5 application.
#spam #anti-spam #web_spam #akismet #automattic #saas #service #web_service #php #php5 #development #web
En effet, la méfiance est justifiée de par les abus qui peuvent découler d’un service qui centralise autant d’informations, d’autant que celles-ci peuvent être croisées avec Gravatar, un autre service du même éditeur, Automattic, utilisé sur l’essentiel des blogs WordPress et même de nombreux autres CMS, même propriétaires, permettant ainsi d’identifier les commentaires qui ne passent pas par Akismet.
Pour autant, je n’ai pas souvenir d’avoir entendu parler d’un quelconque scandale concernant Automattic et l’abus de vie privée. Ce n’est pas une entreprise qui a une mauvaise réputation dans ce domaine. Mais peut-être parce que personne ne s’est penché sur ses services sous cet angle ? Ou peut-être ne sont-ils pas assez nombreux pour exploiter toutes ces données d’un point de vue commercial ? Je l’ignore.
Une solution alternative existe :
Stop Forum Spam
►http://www.stopforumspam.com
Cette solution dispose aussi d’une API.
Computer-Generated Articles Are Gaining Traction
►http://www.nytimes.com/2011/09/11/business/computer-generated-articles-are-gaining-traction.html
In five years, a computer program will win a Pulitzer Prize — and I’ll be damned if it’s not our technology.
L’un des fondateurs de Narrative Science espère ainsi que son bébé — un générateur automatique de contenu — recevra le Prix Pulitzer dès 2017. Un article de 500 mots est généré — par ordinateur — dans l’instant de la réception des données sources, facturé $10 au client. C’est plus rapide qu’un humain, a priori, mais aussi plus cher que de l’écriture off-shore. Quant à la qualité... on verra en 2017, donc.
Le site web de la société :
Narrative Science
►http://www.narrativescience.com
We Turn Data Into Stories
Narrative Science transforms data into high-quality editorial content. Our technology application generates news stories, industry reports, headlines and more — at scale and without human authoring or editing. Narratives can be created from almost any data set, be it numbers or text, structured or unstructured.
Whether you maintain your own proprietary database, or cover subjects supported by broadly available data including public data sources, our technology cost-effectively turns facts and figures into compelling stories in real time.
#ferme_contenu #content_farm #spam #spam_web #narrative_science #intelligence_artificielle #ia #contenu #rédactionnel #prix_pulitzer #journalisme #presse
Ce qui serait top-kikou, c’est que l’argumentaire sur leur site même ait été écrit par leur robot.
C’est le problème de ce genre d’outils : ils ne font que présenter sous forme de mots des données chiffrées, ou encore reformuler ce que des humains ont écrit à la base, quitte à plagier des écrits déjà parus.
Bref, ce n’est certainement pas avec ce type d’« intelligence artificielle » que ces gens-là vont remporter un prix de journalisme d’investigation.
Enfin, peu importe combien il y a de PhD dans l’équipe, ça reste du spam web comme beaucoup d’autres solutions existantes par ailleurs.
Amazon Cracks Down on Some E-Book ’Publishers’ - NYTimes.com
►http://bits.blogs.nytimes.com/2011/08/12/amazon-cracks-down-on-some-e-book-publishers/?src=tp
But if anyone can publish, everyone will publish. The Kindle Store on Amazon has been inundated with spurious or duplicative ebooks issued under a retail concept known as “private label rights,” or P.L.R. (...) someone writes something — say, a guide to marketing information on Kindle — and then sells the rights to others, who repackage it under their own name and title.
@seenthis : J’ai repêché hier soir un premier message de #SeenThis dans ma boîte de courrier indésirable de mon compte Gapps (Gmail). C’est la première fois. Je n’ai évidemment jamais marqué un tel message comme courrier indésirable. J’en déduis que — peut-être — d’autres utilisateurs des services Google l’ont fait.
Peut-être que la somme de mails arrivant d’un bloc peut surprendre lors d’une nouvelle arrivée, et que les gens envahis ont plus tôt tendance à cliquer sur « courrier indésirable » que de régler les paramètres d’envoi ?
Je dis ça, j’en sais rien, vue la complexité d’acheminement des emails, c’est vraiment le truc sur Internet que je ne fais pas...
Retour sur #Project #Honeypot - sebsauvage.net - Les trucs qui m’énervent -
►http://sebsauvage.net/rhaa/index.php?2011/08/01/07/13/04-retour-sur-project-honeypot
Je suis donc très satisfait du système :
J’ai contribué à repérer des spammeurs.
Le système est très efficace contre les spammeurs.
Aucun vrai humain n’est bloqué.
Contrairement à Akismet, aucune action n’est nécessaire de ma part pour débloquer les « vrais » internautes.
Et j’ai la possibilité de signaler aux internautes qu’ils sont infectés.
C’est encore mieux que je le pensais. Je laisse le système installé, et je l’étendrai à toute application php mise en place (J’ai une seule ligne de php à insérer, c’est facile). Que du bon.
Ah bien, il existe déjà un plugin pour #SPIP1.9.2. Reste à màj. ►http://www.spip-contrib.net/Projet-Pot-de-Miel
Intéressante « critique » du film « Les Schtroumpfs 3D » :
Smurfs Rotten Tomatoes Score : Zero
►http://www.huffingtonpost.com/2011/07/28/smurfs-rotten-tomatoes_n_911812.html?ncid=edlinkusaolp00000009
En fait, elle n’est pas intéressante en tant que critique de film. Cela n’en est pas une. Elle est intéressante parce qu’elle apparaît sur le Huffington Post, une ferme de contenu américaine équivalente à Le Post de Le Monde.
Qu’est-ce qu’une ferme de contenus ?
C’est un site web dont le but est d’attirer un maximum de visiteurs, en particulier issus des moteurs de recherche, en leur fournissant le contenu le moins cher à produire pour revendre ce contenu à des sites tiers, ou bien pour revendre ce contenu à des annonceurs sous forme d’espaces publicitaires, le tout avec un investissement minimum (et la qualité qui va avec) et un retour sur investissement maximum (en soi, ce dernier point n’est pas un problème, à ceci près qu’il est exacerbé).
Pour en savoir plus, on peut regarder du côté du document ayant fuité de chez AOL, « The AOL Way », dont on trouve une présentation ici :
LEAKED: AOL’s Master Plan
►http://www.businessinsider.com/the-aol-way
By April, he wants AOL editorial to increase its stories per month from 33,000 to 55,000.
He wants pageviews per story to jump from 1,500 to 7,000.
He wants video stories to go from being 4% of all stories produced to 70%.
He wants the percentage of stories optimized for search engines to reach 95%.
We know all this, because right now, Armstrong’s lieutenants are making their way through the company’s many editorial divisions, training them on "The AOL Way.
Pour en revenir à la critique de film, on notera que :
– un titre de page optimisé pour les moteurs de recherche ;
– une introduction générique, plaçant surtout les mots-clefs en rapport avec le thème (comme la liste des comédiens impliqués, inscrite en vrac par un tour de passe passe syntaxique) ;
– des citations de sources tierces ;
– une conclusion factuelle ;
– une phrase finale incitant à, en premier lieu, ajouter des commentaires (du contenu gratuit et original) et, en second lieu, faire visiter une autre page du site.
Avec un générateur de contenu dédié, ce genre d’articles peut réclamer environ 5 minutes de temps-homme pour être produit, relu, retouché, validé et mis en ligne.
Evidemment, tout ceci ne réclame certainement pas d’aller voir le film pour en parler, pas plus que regarder la bande annonce... À quoi bon ? Cette « critique » n’exprime aucun avis.
#ferme_de_contenus #spam #web #internet #business #aol #huffington_post
j’ai vu le #film, c’est d’une grande mièvrerie ; mais ils sont fortiches sur le placement de produits
On m’appelle sur mon mobile via un numéro masqué.
Un inconnu me propose de répondre à des questions pour une enquête. Je m’empresse de lui dire, courtoisement, mais avec insistance, qu’il me dérange, que je n’ai pas demandé à être démarché, que je souhaite que son enquête montre à quel point déranger ainsi les gens est pénible, et enfin que malgré tout le mépris que je ressentais à son égard, je lui souhaitais... BIIIIP. Trop tard, j’allais finir sur « une bonne soirée ».
Un dessin vaut mille mots ?
Spin Visualizer Spin Visualizer – Petit Nuage
►http://petitnuage.fr/?attachment_id=4299
C’est en 2007 que j’ai développé mon outil de content spinning :
Content spinning : génération automatique de texte
►http://unearaigneeauplafond.fr/story-teller-un-generateur-dhistoires-semi-automatique
Cependant, après de nombreux essais, je me suis aperçu que le principe, se basant sur le parcours aléatoire d’une suite d’expressions, éventuelles imbriquées les unes dans les autres, posait un problème. En effet, pour « garantir » une originalité suffisante d’un « bon spin », il fallait y consacrer plus d’efforts de préparation que l’écriture directe manuelle d’autant de versions, d’autant qu’en l’absence d’outils d’aide à la rédaction de ce type de textes, il est peu aisé de rédiger un spin dépourvu de fautes, qu’il s’agisse de majuscules omises, de virgules manquantes, de raccords étonnants, d’erreurs d’accords et autres problèmes réclamant de toutes façons une relecture manuelle, suivie de correctifs, augmentant de ce fait de manière non négligeable le coût de production via cette technique.
J’avais alors essayé des extensions, comme des macros, mais l’essai pratique avec un autre utilisateur m’a vite découragé : tout ce qui n’était pas évident était ignoré. Le but effectivement recherché par les rédacteurs de spins n’est pas d’améliorer la qualité, mais d’augmenter la quantité, le tout en produisant un contenu suffisant pour déjouer les filtres anti-contenu dupliqué des moteurs de recherche, et surtout pas plus. Il va de soi que l’économie exigée par les utilisateurs de cette technique exclue tout suivi lié au devenir des textes ainsi mis en ligne, et exclue toute étude d’impact.
En effet, ce que retient la plupart des spammeurs, c’est qu’ils peuvent produire des millions de textes à peu de frais, tous différents, et ce même si en réalité, en en produisant autant, seul un mot diffère dans tout le texte, et que le paradoxe des anniversaires fait que même avec 365 versions d’une même expression, il suffit d’à peine 23 versions pour dépasser 50 % de chances de voir la même expression ressortir deux fois, ou encore d’à peine 57 versions pour dépasser 99 % de chances de duplication avérée. Or, un « bon spin » ne propose jamais autant de variantes d’une même expression, alors que chaque nouvelle expression augmente les chances de repérage de ses consœurs issues d’un même corps de texte principal.
Beaucoup considèrent qu’il est impossible de repérer du « spin de qualité ». À croire qu’ils n’ont jamais utilisé Google Actualités, un service capable de rassembler, automatiquement, des textes portant sur le même sujet, même si les contenus sont issus de sites indépendants, rédigés par des journalistes différents, et expriment des opinions parfois opposées. Mais il existe des outils autrement plus simples pour repérer le spin, comme repérer les liens promus (directs et indirects), dont leurs textes d’ancres, ou encore tout bêtement de compter le nombre de paragraphes des textes aux champs lexicaux similaires, le nombre de phrases par paragraphe, le nombre de mots par phrase, et ainsi de suite. Ce ne sont donc pas les moyens — évidents — qui manquent pour repérer — pour éventuellement pénaliser — du contenu dupliqué dans le fond, de par une forme très similaire.
Bref, personnellement, dans le cadre du référencement naturel, je me sers avant tout du spinning pour ajouter de la variété aux textes que je retouche à la main, notamment dans le cadre de la diffusion de communiqués de presse :
Chaîne de production des communiqués de presse
►http://petitnuage.fr/referencement-web/seo-methodologie-communique-presse-4179
En effet, paraphraser un même texte original en de nombreuses versions à la main engendre des duplicatas involontaires du fait de l’absence de variété dans l’inspiration de l’acte de réécriture. Le content spinning est donc intéressant pour ajouter la variété nécessaire aux textes sources avant l’acte de réécriture, qui va au-delà du remplacement de mots ou de phrases, allant habituellement à la permutation des paragraphes — avec les conséquences de sens qui s’y rapportent —, voire au changement de structure du texte, de l’argumentaire, des exemples.
Enfin, le content spinning est une forme d’écriture automatique parmi d’autres. Il existe de plus en plus de filières universitaires partout dans le monde qui cherchent à faire acquérir une double formation de journaliste et d’informaticien, notamment dans le cadre de l’écriture, à savoir dans la forme des informations présentées.
Il existe toute une littérature sur les commentaires sportifs, ciblant les événements locaux, tel le rapport d’un match entre deux écoles de quartier rapporté dans l’édition locale d’un village, qui ne pourraient être rédigés à la main du fait de la très faible audience ciblée.
À y regarder de plus près, les sites de la presse nationale préparent dans des temps records des articles sur des événements a priori imprévisibles, et pourtant alimentés en continu d’informations en temps-réel, puisés habituellement dans les dépêches d’agences, automatiquement, parfois accompagnés de commentaires de journalistes de la rédaction, voire même de commentaires de lecteurs préalablement filtrés, automatiquement ou non.
Ceci pour dire que le content spinning s’inscrit dans cette voie, sans toutefois apparaître comme une solution ultime. Pour autant, le développement d’outils d’aide à la rédaction, ou encore de visualisation, présente un intérêt économique pertinent.
Alors comme ça, tu t’intéresses au content spinning ?
►https://labs.petitnuage.fr/storyteller/cache/201107/spin-81e55b2a5276ce5f0ffe85b02dcd4050971a2526.svg
#outil #développement #content_spinning #journalisme #presse #rédaction #écriture #automatisation #seo #spam
Les #autoblogs sont à la mode. L’idée est de dupliquer le contenu des sites Web, pour prévenir une éventuelle censure. La technique la plus courante est de reprendre le flux de syndication.
Un logiciel qui le fait, VroumVroumBlog ►http://sebsauvage.net/streisand.me
Un article de synthèse en français ►http://sebsauvage.net/rhaa/index.php?2011/07/12/20/38/27-oyez-oyez-
Des instructions pour #Wordpress ►http://www.fansub-streaming.eu/blog/creer-un-wordpress-auto-alimente-par-flux-rss.html
Bref, faut-il mettre #SeenThis en autoblog ?
vroumvroum a le mérite d’être très simple ; mais il stocke ses données sous forme sérialisée dans un pauvre fichier (même pas sqlite), je doute qu’il réussisse à tenir la charge… cela dit l’idée de dupliquer la base et d’avoir un serveur de backup paraît comment dire… indispensable
Je t’invite à relire ton propre et très récent article :
Van Jacobson et le réseau centré sur le contenu
►http://www.bortzmeyer.org/van-jacobson-ccn.html
Un problème courant des nouveaux systèmes de nommage est la sécurité. Aujourd’hui, je vais confiance à ►http://www.rue89.com/planete89/2011/07/12/baleines-algues-moules-un-ocean-radioactif-au-large-de-fukushima-213849 parce que les protocoles Internet garantissent que ce contenu vient bien des serveurs de Rue89. Dans un réseau « orienté contenu », on perd cette garantie.
Maintenant, les autoblogs, du moins partiels, on en fait tous ici et là, à coups de tweets aux citations partielles, ou aux citations figurant dans les « seen these » et autres facebook, delicious et j’en passe.
Pour autant, il est prudent de ne pas perdre de vue que cela reste contraire aux consignes aux webmasters de Google, qui lutte désormais officiellement contre les fermes de contenus, dont l’un des principaux outils reste la duplication massive de contenu :
Contenu en double
►http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=66359
Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. [...] Dans certains cas cependant, le contenu est délibérément dupliqué entre les domaines afin de manipuler le classement du site par les moteurs de recherche ou d’augmenter le trafic. [...] Cependant, si nous estimons qu’il s’agit de pratiques trompeuses et retirons en conséquence votre site de nos résultats de recherche, revoyez votre site.
Une attaque désormais fréquente de « negative SEO » qui donne certains résultats (pas systématiques, ni très évidents, mais tout de même) est de copier à outrance un site mieux classé pour laisser croire à Google de sa volonté de manipuler ses résultats et le voir ainsi plonger dans les abîmes des résultats de recherche.
Concrètement, le contenu dupliqué fait partie des problèmes rencontrés par Stack Overflow, dont le contenu est sous licence libre, problème abordé ici :
►http://www.codinghorror.com/blog/2011/01/trouble-in-the-house-of-google.html
Syndicating our content is not a problem. In fact, it’s encouraged. [...] However, implicit in this strategy was the assumption that we, as the canonical source for the original questions and answers, would always rank first.
Or, Stack Overflow a commencé à apparaître après ses copies. D’où problème.
#autoblog #spam #ferme_de_contenu #stack_overflow #seo #google #copie #contenu_dupliqué #contenu
Officiellement, Google n’aime pas cela (ils l’appellent « duplicate content »). Faudra-t-il choisir entre résilience et référencement ?
@Martin Korolczuk : OK, je vais signer les articles de mon blog avec PGP :-)
@fil unserialize est très rapide. Mais par contre quand le fichier de données va commencer à grossir, ça va devenir plus lent (au-delà du méga ça commence à se voir), surtout pour une question d’utilisation mémoire, car pour accéder à UNE donnée du fichier, il faut tout dé-sérialiser et stocker dans un tableau. Donc c’est pas très efficace. De même pour faire de la recherche, c’est pas génial. Donc oui SQLite serait bien mieux adapté. Je pense regarder pour faire une version SQLite de ce truc dans les prochains jours. En plus ça s’exporte/importe mieux une base SQLite, et ça peut marcher avec de multiples langages, alors que le format sérialisé de PHP n’est pas très répandu.
@stephane Oui, la signature PGP serait une bonne idée, bien que dans la pratique, à défaut d’outils grand public, elle serait totalement inutile.
Ceci dit, il y a d’autres solutions pour tenter de rattraper le désastre du contenu dupliqué sur le référencement du site à son origine : imposer, de par la licence, un lien vers l’URL d’origine, avec éventuellement les balises telles que celles détaillées sur :
What is Schema.org?
►http://schema.org
This site provides a collection of schemas, i.e., html tags, that webmasters can use to markup their pages in ways recognized by major search providers. Search engines including Bing, Google and Yahoo! rely on this markup to improve the display of search results, making it easier for people to find the right web pages.
Pour faciliter le déploiement de tels liens, il faudrait les inclure dans le contenu original, et réclamer qu’ils soient conservés lors de la duplication.
Beau travail ! Et belle idée
J’aurais juste un regret que la feuille de style soit incluse dans une fonction PHP. Ce qui fait qu’en cas de “customisation”, celle-ci est potentiellement perdue lors d’une éventuelle mise à jour du script...
@Aris
Tu peux tester cela qui devrait répondre à ton souhait de « customisation » - ►http://xoofoo.svn.sourceforge.net/viewvc/xoofoo/autoblog/trunk
Depuis toujours, je passe mon temps à virer des spams de forums sur mes différents sites. Depuis quelques semaines, le phénomène s’est aggravé, avec l’apparition de messages contenant un <div> dont le positionnement est forcé en dehors de l’affichage de l’écran.
Et cette nuit, spam massif sur tous mes sites, avec partout ce message (en 3 variantes) :
<p>Bonjour, je suis passer depuis le blog d’un ami sur votre site, et voulais vous ecrire ce commentaire pour vous félicité et vous encourager ! bonne réussite.</p>
<div style="position:relative ;left :-5547px ;">
<h2>les meilleurs casinos en ligne
</h2>
jouer sur un <a href="►http://www.trou-de-balle-casino.info" class="spip_out" rel="external">nouveau casino en ligne</a> en trouve tous les jeux en ligne.
</div>
Bon sang, quelle engeance, ces casinos en ligne.
Oui, c’est pénible, d’autant que les forums sont très peu optimisés pour lutter contre le spam. D’ailleurs, as-tu pense à virer les utilisateurs qui ne postent pas ? Parce que le spam de profils de forum est un autre passe-temps de bon nombre de parasites. Et il y a d’innombrables logiciels faits pour.
Il faut savoir que les CAPTCHA ne servent qu’à rassurer, et certainement pas bloquer les robots. Voici une liste de quelques services de résolution de CAPTCHA :
►http://www.delicious.com/petitnuage/captcha+bypass
Les prix varient entre $1,65 et $7 les 1.000 CAPTCHA résolus (oui, résolus), selon le service et la méthode employée. D’abord, le CAPTCHA soumis passe par une suite de logiciels d’OCR génériques ou spécialisés, et en cas d’échec ou d’incertitude, l’image est passée à des êtres humains élevés en batterie dans des pays à faible coût de main d’œuvre.
Si ce n’est pas déjà fait, envisage de placer un CAPTCHA logique sur ton site, avec une préférence pour une question réclamant savoir lire et écrire français (pour les sites francophones), ou du moins une langue non parlée en Asie du Sud-Est. Bref, les chiffres, tu les oublies, à moins de les écrire en toutes lettres, par exemple : « En chiffres, lequel de ces nombres est le plus grand : douze, quatre, un, sept ? », ou bien encore « Trouvez l’intrus parmi : souris, chat, nuage et écrivez-le ci-contre. » L’idéal est alors d’afficher la question dans une image, voire une image mélangée reconstituée par CSS et/ou JavaScript. mais il n’y aura sans doute pas besoin d’aller jusque-là.
Autrement, essaye de limiter la visibilité de ton forum sur les requêtes des moteurs de recherche ciblées par les spammeurs. En voici une :
►http://www.google.fr/search?hl=fr&q=%22powered+by+phpbb%22+inurl:register
Cela implique avant tout de modifier le thème du forum pour remplacer la signature (« Propulsé par phpBB » ou « Propulsé par un script de forum formidable », voire utiliser une image ou la faire disparaître) et éventuellement bloquer l’indexation des pages d’inscription via « robots.txt » ou entêtes HTTP :
►http://code.google.com/intl/fr/web/controlcrawlindex/docs/robots_meta_tag.html
Le but n’est pas de disparaître des moteurs de recherche, mais juste de disparaître des requêtes faites par les spammeurs pour mettre à jour leurs bases de données. Certes, vu que tu as déjà des forums présents dans leurs BDD, au moins, les nouveaux ne te spammeront pas...
Une vraie plaie, le spam web et notamment le spam des réseaux sociaux au sens le plus large. Si le spam mail baisse en intensité, celui du web ne cesse de monter...
bon alors il va faloir que je post rapido sinon je vais être considérer comme indésirable finalement je suis bien aise que cela ne soit pas @martin au commande !
Ça ne concerne (heureusement) pas Seenthis, mais tout mes autres sites, dont les forums sont ouvertes. Le plugin NoSpam de SPIP laisse d’ailleurs tout passer, là, c’est bizarre.
Pour Seenthis, le gros manque actuel est la fonction « bloquer cet enquiquineur », qui permettra à la fois :
– à chaque utilisateur de se débarrasser des trolls et des spammeurs de ses propres messages,
– au système de « repérer » les ceusses qu’un bon certain nombre d’utilisateurs trouve nuisibles (et donc aller voir de quoi il retourne).
J’ai ce genre de spam depuis pas mal de temps déjà : ►http://gasteroprod.com/blog/les-spammeurs-s-y-connaissent-en-css.html
NoSpam laisse passer parce qu’il n’y a qu’un seul lien, à priori. Mais Cédric a fait un truc dans le back office via le plugin forums pour que ces liens apparaissent quand même, soient mis en évidence :
►http://gasteroprod.com/blog/les-spammeurs-s-y-connaissent-en-css.html#forum1802
Autoriser l’attribut style... c’est... un peu... chercher le spam non ?
@bohwaz comme le dit Cédric en commentaire de mon billet, c’est normalement nettoyé par safeHtml, il faudrait que je vérifie pourquoi il n’est pas utilisé sur mon site : ►http://gasteroprod.com/blog/les-spammeurs-s-y-connaissent-en-css.html#forum1802
Google, le Turc Mécanique et la tour de Babel – {Content Spinning}
►http://www.webcontentspinning.com/google-le-turc-mecanique-et-la-tour-de-babel
Pour être réellement performant, atteindre les objectifs de pertinence nécessaires à la satisfaction des utilisateurs, autrement dit l’élimination du spam et de toute forme de contenu non destiné à la lecture humaine, Google se confronte, en terme de linguistique computationnelle, à une limite dans la théorie de la complexité des algorithmes : AI-complet.
#seo #google #blackhat #spam
Le spam web souffre d’encore plus d’amateurisme que le spam mail.
À l’instant, je viens de voir une tentative (échouée) de spam de commentaires sur l’un de mes blogs personnels assez grotesque. Mon blog ne publie que des commentaires en « nofollow », donc ne transmettant aucune visibilité aux liens figurant dans les commentaires. Certains spammeurs sont pourtant convaincus du contraire. Soit.
Ce spammeur publie donc un lien... cassé. Oui, l’URL est cassée par un saut à la ligne intempestif, du fait du spammeur seul, rendant l’interprétation du lien impossible. « Heureusement » pour lui (est-ce voulu ?), le site destination rattrape son erreur via une « redirection 301 » (suivie par les moteurs de recherche, mais avec « perte de jus »). La cible du lien ? Un autre commentaire de spam, lui aussi « nofollow ». La cible du lien de ce nouveau commentaire ? Une page facebook individuelle. Je soupçonne soit une tentative manuelle et maladroite de diffamation, avec usurpation d’identité, la même IP soumettant des commentaires aux contenus douteux et insistant avec lourdeur sur des informations personnelles (nom, prénom, âge, etc.)
On n’en parle pas assez, mais le spam web coûte une fortune aux webmasters. Il existe bien des solutions anti-spam (et Akismet en fait partie), mais elles engendrent tout de même des coûts, que ce soit en abonnement (Akismet est payant, sauf utilisation personnelle sur une plateforme dépourvue de publicités et tout autre aspect commercial ou promotionnel), ou en repêchage de faux positifs et faux négatifs, nécessairement manuel, donc très coûteux en temps).
#eréputation-personal_branding-diffamation #spam-web-akismet #spam-web-coût #seo-301 #seo-nofollow
Trois #banques seraient à l’origine de 95% des spams dans le monde - Journal du Net e-Business
►http://www.journaldunet.com/ebusiness/le-net/lutte-contre-le-spam.shtml
Une poignée d’institutions financières pourrait mettre fin au #spam, révèle l’Université de Californie. Une équipe de chercheurs en informatique, qui analyse les spams depuis des années, a conduit pendant trois mois une expérience osée : ils ont travaillé à recevoir le plus de spam possible et systématiquement effectué des achats sur les sites promus dans ces e-mails. (...) 95 % des transactions par carte bancaire étaient traitées par trois institutions financières. L’une est basée en Azerbaïdjan, la deuxième au Danemark et la troisième dans les Caraïbes.
« Academic Search Engine Spam and Google Scholar’s Resilience Against it » est une très intéressante étude sur la résistance (ou plutôt la non-résistance) de #Google_Scholar au #spam. Un chercheur inéthique peut-il « empoisonner » Google Scholar de façon à faire remonter sa cote ? Oui, et assez facilement, montre cet article, qui illustre par des expériences le fait que Google Scholar n’a même pas les protections anti-spam qu’utilise me moteur de recherches traditionnel de Google.
Si vous êtes vous-même un chercheur inéthique, vous trouverez dans cet article plein d’idées pour améliorer votre indice de citations :-)
►http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0013.305
Sur le même sujet, j’avais publié un très court article montrant que les sources de Scholar sont très variées et pas toujours très académiques ►http://www.bortzmeyer.org/google-scholar-et-sql.html
#Facebook autorise un accès aux données personnelles des utilisateurs.
►http://www.wecho.com/blog/c-est-pour-demain/facebook-autorise-un-acces-aux-donnees-personnelles-des-utilisateurs
Facebook vient, selon nous, de rompre le dernier maillon de la chaine de l’anonymat sur le réseau social. Sans même s’en être réellement rendu compte, les utilisateurs Facebook seront bientôt envahis de SMS et de nouveaux mailing papier personnalisés dans leur boite à lettre. A moins de faire vraiment attention lorsque vous ouvrez une fenêtre Facebook. La société précise simplement que les développeurs n’auront pas accès aux coordonnées “de vos amis” (sic).
#SPAM
Des thèmes #Wordpress suspects en pagaille sur Google
►http://pro.clubic.com/creation-de-site-web/cms-blog/wordpress+/actualite-390906-themes-wordpress-suspects-pagaille-google.html
Après avoir téléchargé quelques exemplaires des thèmes proposés la blogueuse Siobhan Ambrose a découvert à plusieurs reprises des portions de codes, la plupart étant chiffrées en Base64.