kovalexal/Plagiarize3

Fil 20/10/2013

Détecter les #citations (ou #plagiats) dans un texte.

pour l’instant, ce que j’ai trouvé marche très mal (chez moi)

▻https://github.com/architshukla/Plagiarism-Checker
– les résultats sont inconsistants (parfois une liste d’URLs avec des scores, parfois rien)
– le script ne va pas à l’essentiel (il essaie de convertir du docx ou du PDF en texte, comme si c’était son taf).
– algorithme basé sur les #ngram du texte

▻https://github.com/wnksd2/plagiarism
– réussi à l’installer sur Linux (sur Mac, python3 + nltk et dépendances m’a tuer) ; la méthode (étrange) est d’extraire les mots-clés du texte, puis de charger les 10 premiers PDF correspondant à ces mots-clés dans google, et enfin de chercher les citations dans ces 10 PDF.

▻https://github.com/kovalexal/Plagiarize3
– installé sur Linux (même pb sur Mac avec python3 + nltk) ; la méthode est une extraction de phrases, que le script envoie alors dans google. Les phrases extraites sont calculées d’une manière qui m’échappe ; ça buggue car, comme elles sont trop longues (32 mots), google refuse de répondre…

L’idée serait de présenter le texte sous forme d’une page HTML où la couleur représenterait la première source trouvée pour chaque extrait, et l’intensité le taux de similarité. Avec des liens pour aller vite vers les résultats du moteur.

Ça peut aussi intéresser @ybon

Fil

kovalexal/Plagiarize3 · GitHub

/Plagiarize3