• De la statistique appliquée au contenu des manuscrits hagiographiques | Apocryphes
    http://apocryphes.hypotheses.org/348

    Mon travail porte sur la mémoire des Apôtres Tite et Barnabé. Si donc j’étudie les formes littéraires que prend cette mémoire — ou plutôt ces mémoires —, je ne peux oublier que ces formes littéraires n’existent pas de manière « pure », mais sont toujours incarnées dans des supports physiques, en l’occurrence des manuscrits. Je m’intéresse donc aux types de manuscrits dans lequel sont présents mes textes.

    Très sommairement on peut diviser dans mon cas les manuscrits en trois catégories :

    - Les manuscrits d’érudits à partir de l’époque moderne, qui ne m’intéressent pas directement, puisque j’étudie la question uniquement à l’époque byzantine, et encore, pas sur toute la période.
    - Les manuscrits de type ménologiques, où les textes sont classés selon l’ordre du calendrier liturgique.
    - Les manuscrits hagiographiques non ménologiques, où les textes sont classés et selectionnés selon des critères non calendaires.

    Pour les deux derniers types de manuscrits, la présence ou non d’un texte peut-être signe de son importance. Toutefois pour évaluer correctement cette importance, il ne suffit pas de la remarquer, il faut la comparer avec celles d’autres textes. Autrement dit, faire de la statistique. Et ceci n’est pas sans poser quelques problèmes. C’est à ces problèmes qu’est consacré le présent billet.

    #statistiques #codicologie #besoindevotreavis

    • Si je comprends bien l’état des choses actuellement, la question prioritaire est :
      Comment stocker l’information issue du dépouillement du corpus ?

      De ce point de vue, et en fonction de ce que tu dis des données, il n’y a pas trente-six solutions. Il y a plusieurs types d’unités statistiques ou entités, pour parler comme la modélisation de données (manuscrit, figure, date de la fête etc. cf. infra) qui ont entre elles des relations complexes (une figure est présente de 0 à n fois sur un manuscrit, éventuellement à plusieurs dates du calendrier).

      De ce fait, la façon de stocker (coder) l’information consiste à enregistrer une ligne par association c-à-d, telle figure est présente dans tel manuscrit, fêtée tel jour. Donc, une ligne, trois colonnes.

      Par ailleurs, il y a différentes tables
      • manuscrit et toutes les informations le concernant (date, lieu, lien avec un rite) et aussi, type (ménologique ou non) et s’il y a lieu, période du calendrier couverte (début, fin) et période du calendrier effectivement couverte (pour les manuscrits incomplets) Y a-t-il besoin d’une autre entité, le texte, qu’on voit apparaître dans ta description (un manuscrit comprend différents textes, susceptibles de se retrouver dans d’autres manuscrits (?))

      figure, idem, les caractéristiques éventuelles. Note qu’il est peut-être souhaitable d’imaginer deux niveaux pour ces données : la personne et l’ événement la concernant qui est commémoré. Ex. Marie avec différents événements, commémorés à différentes dates, conception, nativité, présentation, assomption…

      Ceci devrait régler la question de la granularité des données et permettre de disposer d’une souplesse quant à la granularité des traitements. En effet, des manipulations plus ou moins élémentaires (selon l’environnement de travail) permettent de relier les différentes entités pour fabriquer un tableau à étudier. Par exemple un tableau qui croise les manuscrits et les figures (soit, présence/absence, soit nombre d’occurrences) avec plein de trous partout), tableau que l’on pourra analyser.

      A priori, pour la saisie, ne pas se restreindre et conserver toutes les figures (on peut toujours sélectionner après) et donc toutes les associations.

      Voilà une première réaction, issue de méditations pendant mes courses dans le quartier…

    • merci pour ta réaction. En fait la question pour moi de la granularité ne se situait pas vraiment au niveau de la saisie des données, mais bien au niveau du choix lors de l’analyse.

      Par contre merci pour ton modèle de données, qui correspond plus ou moins avec ce que j’avais en tête, mais le voir écrit noir sur blanc aide. En particulier sur la saisie des données relatives aux manuscrits.

    • Pour les traitements, je serais curieux de voir les résultats des analyses exploratoires du corpus : comptages divers et variés (nombre de manuscrits, nombres de figures, etc.), les distributions — ça doit correspondre à ce que tu appelles « comptage de comptages » — (nombre de figures par manuscrit, nombre d’association par date (calendrier fixe et calendrier liturgique)) ; pour les ménologes, la couverture du calendrier (fixe et liturgique)).

      Et, tout ça, croisé avec les variables « typologiques » (tes catégories de texte, les périodes, les localisations,…).

      Pour les manuscrits, ils forment un échantillon d’individus très particuliers dans la mesure où il y a, sans doute des relations de filiation entre eux (j’imagine que c’est la grande raison de la grande coupure entre avant et après Syméon). Est-ce qu’il existe une stemmatique bien développée ? Ou y a-t-il juste quelques bouts d’arbres « généalogiques » ?

      (Tout ça, ce sont des questions de néophytes — voire de φωτιζόμενος…)

      Sinon, retour aux fondamentaux : qu’attends-tu de tes travaux statistiques ? Par exemple, veux-tu suivre plus particulièrement T&B ou les situer relativement aux autres figures (et dans ce cas, envisager un traitement d’ensemble des n manuscrits et des p figures, comme des classifications ou des analyses factorielles) ?

    • Je répond rapidement à tes différents paragraphes.

      En ce qui concerne les analyses exploratoires, ça risque effectivement d’être intéressant. Mais comme je n’ai pas forcément envie de saisir les choses à la main, et sauf à obtenir les données brutes de la base Pinakes (http://pinakes.irht.cnrs.fr), qui du reste n’est pas forcément super adaptée, je vais y réfléchir à deux fois, en fonction de la réponse au dernier paragraphe.

      Pour ce qui est de la stemmatique des manuscrits, ce n’est malheureusement pas très développée, à ma connaissance. On a surtout de la stemmatique des textes. Dans quelques cas particulier on voit clairement des manuscrits // (c’est le cas de 2 groupes de 2 manuscrits pour ce qui concerne une homélie sur Tite) mais sans que la réflexion soit très dev.

      La ≠ entre les collections pré et post metaphrastiques tient non pas aux manuscrits eux mêmes mais aux textes qui ont remanié (métaphrasés).

      Ce qui m’intéresse pour T&B c’est bien de les comparer aux autres figures. Mais c’est justement là où je n’ai pas les compétences stats pour voir quel type d’analyse serait le plus pertinent.