• Détecter les #citations (ou #plagiats) dans un texte.

    pour l’instant, ce que j’ai trouvé marche très mal (chez moi)

    https://github.com/architshukla/Plagiarism-Checker
    – les résultats sont inconsistants (parfois une liste d’URLs avec des scores, parfois rien)
    – le script ne va pas à l’essentiel (il essaie de convertir du docx ou du PDF en texte, comme si c’était son taf).
    – algorithme basé sur les #ngram du texte

    https://github.com/wnksd2/plagiarism
    – réussi à l’installer sur Linux (sur Mac, python3 + nltk et dépendances m’a tuer) ; la méthode (étrange) est d’extraire les mots-clés du texte, puis de charger les 10 premiers PDF correspondant à ces mots-clés dans google, et enfin de chercher les citations dans ces 10 PDF.

    https://github.com/kovalexal/Plagiarize3
    – installé sur Linux (même pb sur Mac avec python3 + nltk) ; la méthode est une extraction de phrases, que le script envoie alors dans google. Les phrases extraites sont calculées d’une manière qui m’échappe ; ça buggue car, comme elles sont trop longues (32 mots), google refuse de répondre…

    L’idée serait de présenter le texte sous forme d’une page HTML où la couleur représenterait la première source trouvée pour chaque extrait, et l’intensité le taux de similarité. Avec des liens pour aller vite vers les résultats du moteur.

    Ça peut aussi intéresser @ybon

  • Le pacte de non-lecture - LeMonde.fr
    http://www.lemonde.fr/idees/article/2012/01/28/le-pacte-de-non-lecture_1635887_3232.html

    La conséquence pratique de tout cela ne peut être que la réduction des incitations systémiques à produire du texte sur le mode de l’imposture. La meilleure manière d’y parvenir est de rappeler avec insistance aux auteurs pratiquement non lus des textes aujourd’hui et demain immanents à l’université l’existence des gardiens digitaux des bonnes moeurs qui, pratiquant la lecture automatique, décèlent la différence entre #plagiats et citations.

    On commettrait une faute en légalisant les citations non spécifiées, comme le réclament certains tenants du romantisme de la piraterie universitaire. La culture de la citation est la dernière ligne sur laquelle l’université défend son identité. Même si elle peut être mise au défi par une nouvelle vague de subjectivités d’imposteur, qui se drapent dans le digital, l’ironie et l’esprit de piraterie ; aux nouveaux joueurs qui font leurs plaisanteries en jouant sur la règle du minimum de travail sérieux, il faut faire comprendre où se situe la limite. La culture avance sur ces petites pattes que sont les guillemets. Le guillemet, c’est la politesse du pirate.

    #recherche
    #shs
    #sciences_humaines