Whisper pour retranscrire des entretiens – CSS IPP
▻https://www.css.cnrs.fr/whisper-pour-retranscrire-des-entretiens
On introduit ici un outil gratuit pour retranscrire des entretiens relativement rapidement et sans trop d’erreurs, y compris dans ces scènes « bruyantes ». Proposé par l’entreprise californienne OpenAI, Whisper est un logiciel libre de « retranscription automatique de la parole » (automatic speech recognition), basé sur un réseau de neurones artificiels entraîné sur plusieurs centaines de milliers d’heures d’enregistrement, en plusieurs dizaines de langues différentes (détails ici). Plusieurs « tailles » de modèle sont disponibles, de « tiny » à « large », la qualité de la retranscription augmentant avec la taille du modèle (et donc le temps de calcul).
Cet outil n’est pas un substitut à l’écoute attentive des entretiens, puis à leur retranscription « à l’ancienne ». Il permet surtout d’abréger le temps passé à taper du texte : une fois le texte retranscrit par la machine, il ne reste plus qu’à… écouter l’entretien en entier, et contrôler les erreurs de transcription, en attribuant chaque énoncé à un·e locuteur·rice.
[…]
On propose dans ce tuto un script rédigé dans le langage de programmation Python.