The Revenge of Neurons

https://neurovenge.antonomase.fr

  • La revanche des neurones
    L’invention des machines inductives et la controverse de l’intelligence artificielle
    Dominique CARDON, Jean-Philippe COINTET Antoine MAZIÈRES
    dans la revue Réseaux, 2018/5

    The Revenge of Neurons
    https://neurovenge.antonomase.fr

    Résumé
    Depuis 2010, les techniques prédictives basées sur l’apprentissage artificiel (machine learning), et plus spécifiquement des réseaux de neurones (deep learning), réalisent des prouesses spectaculaires dans les domaines de la reconnaissance d’image ou de la traduction automatique, sous l’égide du terme d’“Intelligence artificielle”. Or l’appartenance de ces techniques à ce domaine de recherche n’a pas toujours été de soi. Dans l’histoire tumultueuse de l’IA, les techniques d’apprentissage utilisant des réseaux de neurones - que l’on qualifie de “connexionnistes” - ont même longtemps été moquées et ostracisées par le courant dit “symbolique”. Cet article propose de retracer l’histoire de l’Intelligence artificielle au prisme de la tension entre ces deux approches, symbolique et connexionniste. Dans une perspective d’histoire sociale des sciences et des techniques, il s’attache à mettre en évidence la manière dont les chercheurs, s’appuyant sur l’arrivée de données massives et la démultiplication des capacités de calcul, ont entrepris de reformuler le projet de l’IA symbolique en renouant avec l’esprit des machines adaptatives et inductives de l’époque de la #cybernétique.

    Mots-clés
    #Réseaux_de_neurones, #Intelligence_artificielle, #Connexionnisme, #Système_expert, #Deep_learning

    le pdf en français est sur le site ci-dessus, qui met en ligne 2 graphiques et l’abstract
    https://neurovenge.antonomase.fr/RevancheNeurones_Reseaux.pdf

    • Ce récit coloré de l’annonce des performances en classification d’images d’une technique de deep learning (Krizhevsky, Sutskever et Hinton, 2012) témoigne des effets que provoque sur une communauté scientifique la réussite soudaine d’un paradigme hétérodoxe longtemps marginalisé. Surprise devant le résultat, interrogation sur la validité épistémique de la nouvelle démarche, inquiétude sur le devenir du paradigme orthodoxe, moquerie devant l’ignorance des enjeux théoriques du domaine des nouveaux entrants, vertige face au renversement de paradigme qui se profile... Depuis 2010, domaine après domaine, les réseaux de neurones profonds provoquent la même perturbation au sein des communautés informatiques traitant du signal, de la voix, de la parole ou du texte. Une méthode d’apprentissage proposant le traitement le plus « brut » possible des entrées, évacuant toute modélisation explicite des caractéristiques des données et optimisant la prédiction à partir d’énormes échantillons d’exemples, produit de spectaculaires résultats. Une manière simple de figurer ce renversement est de le caractériser comme le passage d’une machine hypothético-déductive à une machine inductive (figure 1).

      Ce qui était conçu comme la partie « humaine » de la fabrication des calculateurs, le programme, les règles ou le modèle, n’est plus ce qui est introduit dans le système, mais ce qui en résulte. Le regard que portent les sciences sociales sur ce tournant inductif consiste souvent à déconstruire l’illusion naturaliste des données « brutes » et les naïvetés d’un calcul sans théorie (Gitelman, 2013). Si une telle mise en garde est certainement nécessaire pour relativiser certains discours imprudents assurant que les « données parlent d’elles-mêmes », elle ne rend cependant pas justice au travail résolu et intensément artificiel entrepris par les promoteurs des techniques de deep learning pour imposer la seconde architecture de calcul, celle que nous appellerons dans cet article machine inductive et, plus précisément encore, machine connexionniste afin de mettre en évidence le type particulier d’induction dont elle se réclame.


      Figure 1. Machine hypothético-déductive (1) et machine inductive (2)

      […]

      Dans l’histoire tumultueuse de ce domaine de recherche, les techniques d’apprentissage utilisant des réseaux de neurones – que l’on appellera donc « connexionnistes » ont même longtemps été moquées et ostracisées par le courant « symbolique ». La tension entre ces deux approches est née avec la démarcation que la naissance de l’Intelligence artificielle opposa à la première cybernétique. L’approche symbolique qui constitue le cadre de référence initial de l’IA s’est identifiée à un cognitivisme orthodoxe : penser, c’est calculer des symboles qui ont à la fois une réalité matérielle et une valeur sémantique de représentation. En revanche, le paradigme connexionniste considère que penser s’apparente à un calcul massivement parallèle de fonctions élémentaires – celles qui seront distribuées au sein d’un réseau de neurones – dont les comportements signifiants n’apparaissent au niveau collectif que comme un effet émergent des interactions produites par ces opérations élémentaires (Andler, 1992). Cette distinction entre deux manières de concevoir et de programmer le fonctionnement « intelligent » d’une machine est au principe d’une tension qui n’a jamais cessé de structurer très profondément les orientations de recherche, les trajectoires scientifiques et la conception d’infrastructure de calcul. Aussi assiste-t-on aujourd’hui à un de ces retournements de situation dont l’histoire des sciences et des techniques est coutumière : une stratégie de recherche marginalisée par ceux qui ont contribué à poser les cadres conceptuels de l’Intelligence artificielle revient au-devant de la scène et se trouve désormais en position de redéfinir très différemment le domaine dont elle avait été exclue. Comme le souligne ironiquement Michael Jordan (2018), « c’est l’agenda intellectuel de Wiener qui domine aujourd’hui sous la bannière de la terminologie de McCarthy ».

    • très bien en effet ;-)

      Au cœur de ce débat tendu avec la communauté du machine learning, un sous-entendu est omniprésent : il n’y a que dans les laboratoires que les modèles sont linéaires, le monde, le « vrai monde », celui des données produites par la numérisation des images, des sons, des paroles et des textes, lui, est non linéaire. Il est bruité, l’information y est redondante, les flux de données ne sont pas catégorisés derrière des attributs de variables homogènes, claires et construites de façon intelligible, les exemples sont parfois faux.

      (...) La croissance exponentielle des jeux de données accompagne dans le même mouvement celle des architectures des calculateurs : le nombre de neurones dans un réseau double tous les 2,4 ans

      (...) Il y a une vague qui est la vague des données, une espèce de grande vague de fond qui a tout emporté. Et cela a bazardé complètement tous les courants de pensée qui étaient basés sur de la modélisation humaine, sur de la modélisation explicite. J’ai travaillé sur plusieurs domaines qui sont des domaines applicatifs, de la parole, de l’écrit, du texte, des données sociales, et chaque fois j’ai vu la même chose. Les gens ont imaginé pendant une période mettre des connaissances dans leur système et cela a été balayé. Systématiquement !

      (...) En transformant l’architecture des machines prédictives, les connexionnistes ont ainsi contribué à déplacer les mondes sociaux de l’IA : d’abord, parce que les données « réelles », notamment celles venues des industries du numérique, se sont (partiellement) substituées aux dataset « jouets » des laboratoires académiques, ensuite parce que les savoir-faire requis pour fabriquer les machines connexionnistes appellent des compétences en développement informatique qui n’étaient pas celles des précédentes génération

      #IA #machine_learning #deep_learning #histoire #recherche

    • Je précise tout de suite avant de poursuivre que je suis chercheur dans le domaine de l’IA symbolique, histoire de ne pas enfumer mon monde...

      Le panorama décrit est plutôt honnête, quoi qu’il soit beaucoup plus fourni côté connexionniste que côté symbolique. Cela laisse à penser que les auteurs sont des gens actifs dans la communauté connexionniste (je n’ai pas été vérifier j’avoue).

      On peut reprocher à l’article un certain ton revanchard. L’IA symbolique est très loin d’être morte et enterrée, de gros progrès ont été réalisé ces 20 dernières années, en particulier dans la résolution pratique de problèmes à forte combinatoire, ce qui a ouvert à nombre d’applications sur des problèmes réel avec des quantités de données assez faramineuses (ce genre de solveur par exemple est très efficace : https://potassco.org/clingo ).
      Ce point contredit une thèse sous-jacente de l’article, qui dit en substance : dès qu’il y a plein de données, l’approche symbolique est dans les choux.

      En revanche l’historique synthétique de l’IA est plutôt bien écrite.

      Ah, et un petit problème passé sous silence par les auteurs : le problème des réseaux de neurones, c’est qu’aujourd’hui encore, d’un point de vue théorique, on ne sais pas trop comment ça marche. C’est quand même assez embêtant...

      Ah oui un autre point gênant : finalement les auteurs ne sortent pas de la guerre connexionisme vs. symbolisme : ils parlent des progrès des approches connexionnistes dans le domaine des tâches de perception. C’est tout à fait vrai et spectaculaire (et les auteurs soulignent bien que le symbolisme ne vaut pas un clou dans ce domaine). En revanche ils se gardent bien de parler de tâches de raisonnement (au sens très large d’inférer de nouvelles connaissances à partir de connaissances préexistantes). Dans ce domaine les approches symboliques restent très largement supérieures (en particulier grâce aux progrès que j’ai mentionnés plus haut).

      Et comme je ne voudrais pas que vous croyiez que dès qu’on parle connexionisme ça me déclenche des crises d’urticaire, je signale que j’ai lu plusieurs papiers récemment qui parlent d’approches combinant connexionisme & symbolisme, et que je trouve ça plutôt intéressant. Très grossièrement deux approches différentes : a) les sorties du réseau de neurones sont utilisées pour apprendre des représentations symboliques. b) le réseau de neurone est utilisé pour apprendre la sémantique de certains formalismes logiques (dits « non monotones »). Bref, il s’agit dans les deux cas d’utiliser les bonnes performances des approches connexionnistes en terme d’apprentissage de perceptions, et les bonne performances des systèmes symboliques en terme d’inférence (et aussi le fait qu’on puisse caractériser formellement les propriétés de ces systèmes).

      Et je précise que compte tenu de mon age, je ne me sens absolument pas concerné par la guéguerre pleine de dédain entre famille connexionniste et famille symbolique (ce sont plutôt mes ancêtres scientifiques qui s’adonnaient à ça).

    • Je précise que mon commentaire précédent ne se veut absolument pas une analyse exhaustive de l’article cité : je l’ai lu assez rapidement par manque de temps, il faudrait que je relise à tête reposée pour développer. Autrement dit c’est juste un ensemble de questionnements rapides suite à une lecture elle aussi rapide !

    • C’est vrai qu’il y un ton un peu revanchard. On sent à travers les citations et les anecdotes — les types qui se dévouent pour aller s’emmerder à la cantine avec Yann LeCun — que c’est un milieu social assez toxique.

      L’article offre une vue sur la science en train de se faire, et de ce point de vue est assez passionnant. Il montre que le connexionnisme radical est une idée brute d’une grande puissance ; mais c’est comme le feu : pour en tirer un maximum d’énergie il va falloir créer des machines qui préparent le combustible, contrôlent les flux de chaleur, et évitent les rejets polluants.