klaus++

Agent d’ingérence étrangère : Alle die mit uns auf Kaperfahrt fahren, müssen Männer mit Bärten sein. Jan und Hein und Klaas und Pit, die haben Bärte, die haben Bärte. Jan und Hein und Klaas und Pit, die haben Bärte, die fahren mit.

  • Excel wandelt Genbezeichnungen in Datumsangaben um: Problem größer als gedacht
    https://www.heise.de/news/Excel-wandelt-Genbezeichnungen-in-Datumsangaben-um-Problem-groesser-als-gedach

    16.08.2021 - on Martin Holland - Laut einer Analyse wurden zuletzt 30 Prozent aller Excel-Anhänge von wissenschaftlichen Arbeiten mit Bezug zu Genetik von der Tabellenkalkulation verfälscht.

    Das Problem der von Excel unbemerkt umgewandelten Bezeichnungen von Genen in wissenschaftlichen Veröffentlichungen ist noch größer als bislang angenommen. Das hat ein Team um Mandhri Abeysooriya von der Deakin University in Australien herausgefunden. Fast jede dritte wissenschaftliche Veröffentlichung mit einer Excel-Liste von Genen im Anhang wies demnach solche Fehler auf, vorher war die Rede von etwa 20 Prozent. Nachdem das Problem bereits seit Jahren bekannt sei, habe sich auch keine Verbesserung gezeigt, warnen die Forscherinnen und der Forscher. Erst vor einem Jahr hatte das für die Benennung von menschlichen Genen zuständige Komitee der Human Genome Organisation Dutzende Namen geändert, um Abhilfe zu schaffen.
    Extra Gene umbenannt

    Der nun an der Studie beteiligte Mark Ziemann hatte bereits vor fünf Jahren auf das Problem aufmerksam gemacht. Es geht darum, dass Microsofts Tabellenkalkulation Excel bestimmte alphanumerische Bezeichnungen für Gene automatisch und ohne Hinweis in Datumsangaben umwandelt. Nachdem Microsoft nicht reagiert hatte und sich keine andere Lösung abgezeichnet hatte, hatte das HUGO Gene Nomenclature Committee (HGNC) im vergangenen Jahr mehrere Dutzend Gene offiziell umbenannt. Seitdem heißt etwa das Gen MARCH1 jetzt MARCHF1 ("Membrane associated ring-CH-type finger 1"), aus SEPT1 wurde SEPTIN1 ("Septin 1"). In einer englischsprachigen Excel-Tabelle wurden daraus „1-Mar“ oder „1-Sep“. In deutschen Versionen lässt sich das Verhalten etwa mit „MÄRZ1“ nachvollziehen.

    Um zu quantifizieren, ob die Aufmerksamkeit für das Problem die Fehlerzahl verringern konnte, hat Abeysooriya mit ihren Kolleginnen und Ziemann mehr als 11.000 wissenschaftliche Veröffentlichungen zu Genetik-Themen mit Excel-Anhängen analysiert. Die sind zwischen 2016 und 2020 in Fachmagazinen erschienen, erläutern sie. Fast jede dritte Tabelle hat demnach solche Fehler enthalten, 2016 hatte er eine Fehlerrate von etwa 20 Prozent vorgefunden. Das Team erkennt an, dass die Namensänderung in der Zwischenzeit das Problem verringert haben dürfte. Es werde dadurch aber nicht verschwinden, unter anderem, weil es dabei nur um Gene des Menschen, von Mäusen und Ratten gegangen sei. Gene von anderen Tieren könnten weiterhin solche Umwandlungen auslösen. Außerdem seien mögliche Probleme in anderssprachigen Excel-Tabellen nicht angegangen worden.

    Das Forschungsteam nimmt die Verantwortlichen für die Software zwar nicht aus der Verantwortung, erwarten von Microsoft aber wohl ebenfalls keine Reaktion mehr. Stattdessen geben sie den Forschern und Forscherinnen selbst Empfehlungen für mögliche Gegenmaßnahmen. So sei Excel sowieso nicht für diese Arbeit gedacht, hier würden sich etwa geskriptete Analysen in Python oder R anbieten. Dafür müsste zwar eine Programmiersprache gelernt werden, das würde sich aber auf lange Sicht noch auszahlen. Wenn aber wirklich eine Tabellenkalkulation genutzt werden müsste, dann empfehlen sie LibreOffice, da das Problem dort nicht auftrete. Und wenn tatsächlich nicht auf Excel verzichtet werden könnte, dann müsse man bei der Einbeziehung der Daten besonders umsichtig vorgehen.

    • Ça veut juste dire qu’un très grand nombre d’utilisateurs ne maîtrisent pas une des briques de base d’Excel, comme de tout langage de programmation d’ailleurs : les types de données.

      À la différence des autres langages de programmation (Python ou R) où la déclaration de type est obligatoire, Excel, par défaut, applique une détection automatique de type que ce soit à la saisie manuelle de données dans une cellule ou à l’importation de fichier texte.

      Il suffit, pour l’utilisateur, de déclarer préalablement à la saisie ou à l’importation le type de données (texte, en l’occurrence). Il est vrai que Microsoft ne facilite pas les choses puisque la notion de type de données n’est pas vraiment explicitée et est même assez largement confondue avec celle de format de données : pour la saisie, la manip’ préalable consiste à attribuer à la cellule (ou à la colonne) le type de format de nombre Texte (avec en prime, une « aide » dont le texte est techniquement faux et qui entretient la confusion.

      Sur ce dernier point, Microsoft a en effet une lourde responsabilité. Pour le reste, il est ahurissant – mais pas tellement étonnant – que celui qui réalise les traitements de données dans les équipes de chercheurs ne maîtrise pas le truc en question, mais encore plus ahurissant – et impardonnable – que le contrôle de la qualité des données soit à ce point défaillant. P. ex. après l’importation, vérifier que les noms de gènes sont bien de type texte et non de type nombre, ce que sont les dates. D’ailleurs, si l’utilisateur pense à faire ce contrôle, la prochaine fois, il devrait penser – normalement – à faire la (petite) intervention préalable.

      Es geht darum, dass Microsofts Tabellenkalkulation Excel bestimmte alphanumerische Bezeichnungen für Gene automatisch und ohne Hinweis in Datumsangaben umwandelt. Nachdem Microsoft nicht reagiert hatte und sich keine andere Lösung abgezeichnet hatte, hatte das HUGO Gene Nomenclature Committee (HGNC) im vergangenen Jahr mehrere Dutzend Gene offiziell umbenannt. Seitdem heißt etwa das Gen MARCH1 jetzt MARCHF1 ("Membrane associated ring-CH-type finger 1"), aus SEPT1 wurde SEPTIN1 ("Septin 1").

      Je ne vois pas pourquoi Microsoft réagirait… Soit il réécrit une brique de base du moteur de calcul du tableur – ce qui veut dire le réécrire intégralement –, soit il décide d’insister sur le typage des données – ce qui nécessiterait de reformuler de nombreux éléments de l’aide. Mais, dans un cas comme dans l’autre, cela irait à l’encontre de la stratégie marketing de Microsoft qui consiste à prétendre que n’importe qui peut utiliser son tableur de façon « naturelle  ». Stratégie qui lui a permis de détenir un quasi monopole sur les tableurs. Et d’avoir une base d’utilisateurs qui est persuadée – ou du moins se comporte avec le postulat implicite – que
      Microsoft sait ce qui est bon pour moi
      et donc lui délègue une partie de sa capacité de réflexion…

      Formation expresse en 2 images
      Avant saisie : formater PRÉALABLEMENT la zone de saisie !

      Lors de l’importation de fichier texte, ne pas valider sans lire (et agir…) la troisième étape de l’assistant d’importation

      Règle générale (pas que pour Excel…)
      Toujours vérifier, plutôt deux fois qu’une, le résultat d’un traitement de données, surtout si ce traitement met en œuvre des automatismes_