person:larry sanger

  • Wikipédia, la connaissance en mutation

    http://www.lemonde.fr/sciences/article/2016/01/11/wikipedia-la-connaissance-en-mutation_4845347_1650684.html

    Quel succès  ! Quin­ze ans après son lancement, le 15 janvier 2001, par les Américains Jimmy Wales et Larry Sanger, l’encyclopédie en ligne Wikipédia reste le premier site non commercial du Web mondial, toujours dans le top 10 des sites les plus fréquentés avec près de 500 millions de visiteurs uniques par mois pour plus de 250 éditions linguistiques. 36,9 millions d’articles sont rédigés, corrigés, améliorés par quelque 2 millions de contributeurs. 800 nouvelles entrées en anglais sont ajoutées chaque jour, 300 en français. La version française tenant la troisième position, avec plus de 1,7 million d’articles, derrière l’anglophone (plus de 5 millions) et la germanique (1,8 million).

    Mais Wikipédia, c’est moins connu, est bien plus qu’une encyclopédie qu’on consulte pour se documenter ou faire ses devoirs scolaires. Elle est devenue aussi un objet de recherche en tant que tel, à l’instar d’une tribu d’Amazonie, d’un programme informatique ou d’un patient. La base de données Scopus, l’une des trois plus importantes du monde, recense ainsi plus de 5 400 articles ayant pour sujet ou pour objet Wikipédia publiés dans des revues, des actes de colloques ou des livres. Quatorze brevets mentionnent même le célèbre site, selon la même Scopus.

    Autre preuve de l’intérêt académique pour le sujet, en juin 2013, à Paris, se tenait un colloque, coorganisé par le CNRS et le CNAM et intitulé «  Wikipédia, objet scientifique non identifié  », avec sociologues, spécialistes de sciences de la communication, informaticiens…(...)

    Mais que font tous les autres chercheurs en tripatouillant Wikipédia ? De récentes publications témoignent du large spectre couvert. Depuis novembre, une équipe japonaise s’est servie des articles de l’encyclopédie pour analyser les suicides de personnalités dans son pays. Des Britanniques ont construit automatiquement un glossaire technique. Des Turcs ont utilisé le site pour repérer à grande échelle des entités dans des corpus de leur langue. Des Français ont proposé un classement des universités reposant sur les citations des établissements au sein de plusieurs versions linguistiques de Wikipédia. Citons encore un article paru en mai, qui prévoit les pics d’apparition de la grippe grâce aux statistiques de visites des pages de l’encyclopédie.

    Les raisons d’un tel engouement sont simples à comprendre. L’objet est vaste, une quinzaine de gigaoctets de textes (pour la version anglaise). D’utilisation gratuite, contrairement aux données de Facebook, Google ou Twitter, pourtant gigantesques et fournies gracieusement par leurs utilisateurs. Même les données de fréquentation sont disponibles pour chaque article ! Les archives sur quinze ans permettent d’avoir du recul historique, tout en ayant un objet toujours rafraîchi. Des versions en plus de 200 langues ouvrent des perspectives pour des comparaisons ou des analyses culturelles. L’ouverture et la transparence offrent aussi ce que les chercheurs adorent : la vérifiabilité et la reproductibilité. Pour parfaire leur bonheur, l’encyclopédie, tel un iceberg, recèle plus de trésors que sa seule vitrine d’articles. Si la version française contient 1,7 million de pages d’articles, elle contient 4,5 fois plus de pages pour les historiques, les discussions et autres coulisses qui font le dynamisme et la réputation du site. Du coup, presque tous les domaines sont couverts. La sociologie, bien sûr, fascinée par cette démocratie d’un nouveau genre, car auto-organisée et reposant sur quelques règles et le consensus. Les chercheurs, profitant de la transparence du site, y ont également étudié le rôle des « vandales » et autres « trolls » qui mettent leurs pattes malveillantes dans les articles. Les inégalités hommes-femmes particulièrement criantes, avec moins de 10 % de contributrices à l’encyclopédie, ont également donné lieu à beaucoup de littérature et de controverses.

    Wikipédia est devenu une sorte de bac à sable dans lequel s’ébrouent les spécialistes du traitement automatique du langage qui disposent là d’un corpus immense pour tester leurs logiciels de reconnaissance de texte, de traduction, d’extraction de sens... C’est aussi le jouet de physiciens, statisticiens, informaticiens... prompts à dégainer leurs outils d’analyse pour en extraire de nouvelles informations ou aider à les visualiser.

    « Après quinze ans, l’intérêt des chercheurs est toujours là. La première phase était très active car l’objet était nouveau. Cela a contribué à l’émergence de nouveaux domaines comme la sociologie quantitative ou l’informatique sociale, rappelle Dario Taraborelli. Puis, à partir de 2007, l’apparition de nouveaux médias sociaux a détourné un peu les recherches, avant un renouveau depuis 2010. Notamment parce que nous sommes le seul site important à publier nos données quotidiennes de trafic. »

    Ce renouveau est aussi tiré par une révolution à venir. Wikipédia est devenu l’un des maillons indispensables à un projet particulièrement ambitieux : rassembler toute la connaissance mondiale et la rendre intelligible par des machines. « Notre ambition est de rendre encore plus intelligents les ordinateurs afin qu’ils soient toujours plus utiles à l’humanité », s’enthousiasme Fabian Suchanek, enseignant-chercheur à Télécom ParisTech et artisan de cette évolution qui vise à transformer Wikipédia et d’autres riches corpus en une source accessible aux ordinateurs.

    De tels changements sont en fait déjà à l’œuvre, discrètement. Dans les moteurs de recherche par exemple, lorsque l’utilisateur tape un nom de célébrité, apparaissent toujours une liste de liens mais aussi un encadré résumant la biographie de la personne cherchée. Et cela automatiquement : le programme a compris où, dans la page Wikipédia, se trouve l’information souhaitée. Mieux. On peut désormais poser des questions explicites, en langage naturel, à ces moteurs : quand Elvis Presley est-il mort ? Où ? Quel est l’âge de François Hollande ?... et recevoir des réponses directes, sans avoir à lire la page contenant l’information.

    Derrière ces prouesses qui n’ont l’air de rien se cachent de nouveaux
    objets : les bases de connaissance. Les plus célèbres sont Yago, DBpedia, Freebase ou Wikidata. Toutes se sont construites en triturant Wikipédia. Et, preuve des enjeux économiques, les plus grands du Web actuel investissent dans ces constructions. En 2010, Google a ainsi racheté Freebase, qui lui sert pour son Knowledge Graph, l’encadré qui fournit des réponses directes aux requêtes. L’entreprise soutient également financièrement Wikidata, une initiative de la fondation Wikimédia. Amazon a racheté EVI en 2012, anciennement connue sous le nom de True Knowledge, une base de connaissances.

    En outre, derrière les assistants personnels vocaux des mobiles, Siri, Cortana ou Google Now, se cachent aussi ces fameuses bases de connaissances. Pour gagner au jeu Jeopardy en 2011, l’ordinateur Watson d’IBM a bien sûr assimilé bon nombre de données, en particulier de Wikipédia, mais dans une forme prédigérée fournie par la base de connaissances Yago.

    Le sujet de ces bases ou graphes de connaissances est très actif. Le chercheur le plus prolixe sur Wikipédia, toutes activités confondues selon Scopus, est par exemple l’Allemand Gerhard Weikum de l’Institut Max-Planck de Sarrebruck, à l’origine de la première base de connaissances, Yago, en 2007. Le second est un Hollandais, Maarten de Rijke, professeur d’informatique à l’université d’Amsterdam, dont les récents travaux utilisent ces graphes. Il est capable de savoir de quoi parle un tweet en repérant les noms et les faits à l’intérieur et en les confrontant à Yago ou DBpedia. Il enrichit aussi les émissions de télévision automatiquement en fournissant des liens sur les tablettes ou téléphones, choisis en fonction du thème de l’émission, déterminé grâce aux bases de connaissances. « Avec ces bases de connaissances, on peut faire des choses qui étaient impossibles auparavant », estime Fabian Suchanek, cofondateur de Yago. Par exemple ? « Extraire de l’information du quotidien Le Monde : combien de femmes en politique au cours du temps ? Quel est l’âge moyen des politiciens ou des chanteurs cités ? Quelles compagnies étrangères sont mentionnées ? », énumère ce chercheur en citant un travail publié en 2013 avec la collaboration du journal. Le New York Times construit sa propre base de connaissances tirées des informations de ses articles. Autre exemple, il devient possible de poser des questions aussi complexes que :

    qui sont les politiciens également scientifiques nés près de Paris depuis 1900 ? Ou, plus simplement, quelle est la part des femmes scientifiques dans Wikipédia ?

    Mais quelle différence entre ces objets et une base de données ou même une page Wikipédia ? Si un humain comprend que dans la phrase « Elvis Presley est un chanteur né le 8 janvier 1935 à Tupelo, Mississippi », il y a plusieurs informations sur son métier, sa date et son lieu de naissance, une machine ne le comprend pas, et ne peut donc répondre à la question simple, pour un humain, « Quand Elvis est-il né ? ». « C’est un peu paradoxal, mais pour un informaticien, notre langage n’est pas structuré et donc un ordinateur ne peut le comprendre ! », souligne ironiquement Fabian Suchanek. Il faut donc transformer les pages en les structurant différemment, en commençant par repérer les entités, les faits et les relations entre eux. Presley est une entité. Sa date de naissance ou son métier sont des faits. « Né le » et « a pour métier » sont les relations. Tout cela peut être codifié en langage informatique.

    Une autre particularité de ces objets est qu’ils ne répertorient pas ces faits et entités dans des tableaux, comme la plupart des bases de données, mais en les organisant en arborescences ou en graphes. Les branches correspondent aux liens entre les entités et les faits. Les informaticiens et mathématiciens ont bien sûr développé les techniques pour interroger ces graphes et y faire des calculs comme dans un vulgaire tableur. Aujourd’hui, Yago « sait » plus de 120 millions de choses sur 10 millions d’entités (personnalités, organisations, villes...). L’avantage-clé est que le rapprochement devient plus simple entre plusieurs bases de connaissances, celles construites sur Wikipédia mais aussi d’autres concernant les musiciens, les coordonnées GPS, les gènes, les auteurs... Le site Linkeddata.org recense ces nouvelles bases et leurs liens entre elles. Petit à petit se tisse un réseau reliant des faits et des entités, alors que, jusqu’à présent, la Toile connecte des pages ou des documents entre eux. Cela contribue au rêve de ce que Tim Berners-Lee, le physicien à l’origine du Web, a baptisé « Web sémantique » en 2001. « Les défis ne manquent pas. La troisième version de Yago est sortie en
    mars 2015. Nous avons déjà traité la question du temps. Nous traitons aussi plusieurs langues. Il faut maintenant s’attaquer aux “faits mous”, c’est-à-dire moins évidents que les dates et lieux de naissance, les métiers, le genre..., estime Fabian Suchanek. En outre, tout ne peut pas se mettre dans un graphe ! »

    Bien entendu, faire reposer la connaissance future de l’humanité sur Wikipédia n’a de sens que si ce premier maillon est solide. La crédibilité de l’encyclopédie a donc été parmi les premiers sujets d’études. Dès 2005, Nature publiait un comparatif entre l’encyclopédie en ligne et sa « concurrente » Britannica, qui ne montrait pas d’énormes défauts pour la première. D’autres études ont été conduites depuis pour estimer l’exactitude, en médecine par exemple, Wikipédia étant l’un des premiers sites consultés sur ces questions. Les résultats sont bien souvent satisfaisants.

    « C’est finalement un peu une question vaine scientifiquement, car les comparaisons sont souvent impossibles. On confronte les articles tantôt à des encyclopédies, tantôt à des articles de revues scientifiques... », estime Gilles Sahut, professeur à l’Ecole supérieure du professorat et de l’éducation, de l’université Toulouse - Jean-Jaurès. « La question a un peu changé de nature. Il faut passer d’une appréciation globale à une appréciation au cas par cas, et donc éduquer afin d’être capable de dire si un article semble biaisé ou complet », précise ce chercheur, qui a soutenu une thèse en novembre 2015 sur la crédibilité de Wikipédia. Il adosse ce constat à une étude menée sur plus de 800 jeunes entre 11 et 25 ans, pour tester la confiance accordée à l’encyclopédie. Celle-ci s’érode avec l’âge et le niveau de scolarité, mais elle remonte dès lors que les élèves participent. « Ils découvrent d’ail leurs, comme leur enseignant, qu’il n’est pas si facile d’écrire dans Wikipédia ! », sourit le chercheur en faisant allusion aux difficultés à entrer dans la communauté. « Certes les wikipédiens sont des maîtres ignorants sur les savoirs, comme le dit le sociologue Dominique Cardon, mais ils sont très savants sur les règles et les procédures ! »

  • Can Wikipedia Disrupt News As It Did Encyclopedias ?

    http://europe.newsweek.com/wikipedia-news-becomes-open-public-292613?rm=eu

    Wikipedia revolutionized the way people amass information. It provides a free, one-stop shop for the Internet’s collective knowledge on any given topic. Now, one of the site’s founders, Larry Sanger, is launching a ‘Wikipedia for news’ called Infobitt.

    Infobitt says it will be “the world’s first crowdsourced front page news site.” It calls on users to post news events and aggregate summarized facts for each story. The importance of each fact is determined by votes, which take the form of dragging and dropping the piece of information into a ranking of 10 slots. The collection of facts under each story is called a ‘bitt.’ The importance of each bitt is also voted on in this way.

    #info #fail #wikipedia

    poke @thibnton

    • Hé mais c’est super-mauvais, ça ! Ça n’a carrément ni queue ni tête, il n’y a pas un paragraphe qui ait un rapport logique avec le précédent. À ce point de portnawak, c’est réjouissant.

    • Du coup, j’ai lu l’article de Sanger : c’est archi-mauvais aussi.

      Larry Sanger Blog » Is there a new geek anti-intellectualism ?
      http://larrysanger.org/2011/06/is-there-a-new-geek-anti-intellectualism

      Let’s just put it this way. If, in the next five years, some prominent person comes out with a book or high-profile essay openly attacking education or expertise or individual knowledge as such, because the Internet makes such things outmoded, and if it receives a positive reception not just from writers at CNET and Wired and the usual suspects in the blogosphere, but also serious, thoughtful consideration from Establishment sources like The New York Review of Books or Time, I’ll say that geek anti-intellectualism is in full flower.

      Ah mais l’exemple est drôlement bien choisi. C’est juste oublier que, depuis des mois, le livre (hors-fiction) le plus vendu aux États-Unis, c’est :
      http://seenthis.net/messages/24914

      HEAVEN IS FOR REAL, by Todd Burpo with Lynn Vincent. (Thomas Nelson.) A father recounts his 3-year-old son’s encounter with Jesus and the angels during an appendectomy.

      La seconde meilleure vente de la catégorie :
      The Original Argument : The Federalists’ Case for the Constitution, Adapted for the 21st Century , par Glenn Beck.
      http://www.amazon.com/Original-Argument-Federalists-Constitution-Adapted/dp/1451650612

      Adapting a selection of these essential essays—pseudonymously authored by the now well-documented triumvirate of Alexander Hamilton, James Madison, and John Jay—for a contemporary audience, Glenn Beck has had them reworked into “modern” English so as to be thoroughly accessible to anyone seeking a better understanding of the Founding Fathers’ intent and meaning when laying the groundwork of our government.

      Alors après, les théories sur l’anti-intellectualisme des « geeks », hein...

    • Puis il y a quand même une marge, que dis-je, un fossé, entre être anti-intellectuel et remettre en question le savoir, la démarche académique.

      Nous serions plutôt dans une néo Querelle des Anciens et des Modernes.

    • Surtout :
      – d’un côté, tu as un environnement d’anti-intellectualisme incarné par les médias façon Fox, les policitiens façon Bush, des intégristes chrétiens... qui ont un poids politique réel et qui influent directement dans les budgets publics ;
      – de l’autre, tu as une sous-culture « geek » qui milite pour importer des méthodes de la communauté scientifique en dehors des champs purement scientifiques (médias, culture, démocratie...).

      Et là je lis des articles qui attribuent la montée de l’anti-intellectualisme aux... geeks. Avec pour conclusion l’idée qu’un jour, un pamphlet anti-intellectuel sera glorifié, oubliant que les deux livres hors-fictions les plus vendus aux États-Unis ne ressortent pas du tout de la culture « geek », mais bien de la première catégorie :
      – « Je parle avec Djizousse au travers de mon appendice »,
      – et « La pensée des Pères fondateurs, simplifiée pour les spectateurs de Fox ».

    • j’ai l’impression qu’ @owni a un moteur de recherche sur ses thématiques, et tire sur tout ce qui bouge … parfois c’est réussi, parfois ça fait remplissage