DEV Community

Cover image for Rendre son podcast accessible avec l'IA au service de la transcription
Jean-Phi Baconnais for Zenika

Posted on • Edited on • Originally published at blog.zenika.com

Rendre son podcast accessible avec l'IA au service de la transcription

🇬🇧 Une version anglaise est dĂ©sormais disponible : https://dev.to/zenika/making-your-podcast-accessible-with-ai-generated-transcription-d5k

L’Intelligence Artificielle (IA) est partout, de plus en plus utilisĂ©e, transformant la maniĂšre dont nous abordons nos tĂąches. Elle se rĂ©vĂšle comme un assistant prĂ©cieux, permettant d’aider les personnes Ă  accomplir plus rapidement leurs activitĂ©s du quotidien.

Dans le domaine de la manipulation de son en texte, elle nous offre des retranscriptions rapides, mais une intervention humaine reste indispensable pour garantir la justesse et la pertinence du contenu généré.

Dans cet article, nous allons vous parler de notre expĂ©rience avec l’IA dans la production de notre podcast Zenikast et plus particuliĂšrement celle de Google : Gemini

đŸŽ™ïž Zenikast, une nouvelle aventure

Quand nous avons lancé Zenikast, le nouveau podcast de Zenika, nous nous sommes interrogés sur la maniÚre de rendre accessible nos futurs épisodes.

L’accessibilitĂ© , et surtout quand il s’agit de podcast, n’est malheureusement pas souvent une prioritĂ©. A Zenika, c’est un sujet qui nous tient Ă  cƓur. Nous avons la volontĂ© d’amener l’accessibilitĂ© au sein de nos prestations, nos audits, nos formations et aussi lors de nos activitĂ©s annexes comme le podcast !

Sur les plateformes de podcast comme Apple podcast ou bien Youtube, des transcriptions automatiques sont gĂ©nĂ©rĂ©es, laissant parfois, voire souvent, des erreurs et diverses hallucinations. Nous le savons, les outils basĂ©s sur l’IA s’amĂ©liorent jour aprĂšs jour mais nous avions l’envie et la volontĂ© de mettre Ă  disposition une transcription quasi parfaite. Pour mettre Ă  disposition cette transcription, nous avons optĂ© pour une solution simple et efficace : un Google Doc. Nous avons un outil interne qui permet de crĂ©er des liens vers des pages web ou documents et Ă©viter de mentionner le lien du document tel quel. Nous pouvons donc avoir rapidement et simplement un lien de type https://links.zenika.com/link/zenikast/episode-1.

Merci Ă  Emmanuelle Aboaf pour avoir pris le temps de rĂ©pondre Ă  nos questions et pour tes conseils 🙏.

đŸ§Ș Nos premiers essais: Whisper Transcribe

Pour la saison 1, nous Ă©tions plusieurs personnes au profil technique Ă  s’occuper du podcast. Nous avons donc testĂ© diffĂ©rents outils, basĂ©s sur des projets Node.js, Java, ou bien sur des outils directement Ă  installer. Mais Zenikast a pour vocation d’ĂȘtre Ă  la disposition de toutes les personnes de Zenika, qu’elles soient tech ou non. L’outil et la maniĂšre de crĂ©er nos transcriptions doivent donc ĂȘtre accessibles Ă  tous les profils des collaborateurs et collaboratrices de Zenika.

Nous avons sĂ©lectionnĂ© Whisper Transcribe, et avons pu tester nos premiĂšres transcriptions avec la version gratuite . Merci aux personnes qui ont travaillĂ© sur ce magnifique projet đŸ’Ș.

Petit plus de Whisper : la diarisation, ou dĂ©tection automatique des diffĂ©rents intervenants·es dans le podcast, une fonctionnalitĂ© trĂšs utile pour nos Ă©pisodes pouvant avoir jusqu’à 6 voix.

Exemple de transcript réalisé par Whisper transcribe

Paramétrage de Whisper transcribe

Ajout de mots clés via Whisper transcribe

Des mots spĂ©cifiques, abrĂ©viations ou termes techniques peuvent ĂȘtre ajoutĂ©s Ă  la liste des mots “connus” de Whisper.

Whisper transcribe

MalgrĂ© sa qualitĂ©, chaque transcription demandait tout de mĂȘme plusieurs heures de relecture pour arriver Ă  un texte sans erreur et structurĂ© de façon Ă  ĂȘtre agrĂ©able Ă  lire. De plus, Whisper Transcribe est payant pour une utilisation plus intense.

💡 Vers l’IA gĂ©nĂ©rative avec Vertex AI

Lors du Devoxx France mi-Avril, une discussion avec Valentin Deleplace nous a orientĂ© et surtout convaincu de pousser nos expĂ©rimentations avec Gemini et Vertex AI Studio de Google Cloud. Il est possible d’y importer un fichier audio (.mp3 ou .wav) et de demander Ă  Gemini de nous donner la transcription de l’épisode, sans Ă©crire une seule ligne de code.

Le rendu est largement satisfaisant et a poussĂ© notre curiositĂ© Ă  tester d’avantage la transcription de notre Ă©pisode de podcast que nous tournions d'ailleurs pendant le Devoxx (cf la vidĂ©o de l’épisode) avec les solutions Google.

đŸ§Ș Retour d’expĂ©rience : Gemini 2.5 Pro Ă  l’épreuve

Nous sommes donc allés tester directement avec le dernier modÚle : Gemini 2.5 Pro.

Disponible en preview via Vertex AI, Gemini 2.5 Pro a la capacitĂ© de traiter des prompts multimodaux : texte, image, audio, voire mĂȘme vidĂ©o. Contrairement aux gĂ©nĂ©rations prĂ©cĂ©dentes, il intĂšgre des capacitĂ©s de raisonnement bien plus poussĂ©es.

La prise en main est rapide : en important un fichier .mp3 ou .wav, nous avons interagi avec le modĂšle directement dans l'interface de Vertex AI Studio et en quelques secondes Gemini gĂ©nĂšre un texte trĂšs fluide et assez fidĂšle Ă  l’audio. LĂ  oĂč Whisper Transcribe nous demandait une bonne relecture, Gemini a nettement rĂ©duit ce temps. Mais surtout, il est aussi capable de faire de la diarisation, c’est-Ă -dire de dĂ©tecter et sĂ©parer les diffĂ©rentes voix intervenant dans le podcast.

đŸȘœ Étape 1 : Transcription avec dĂ©tection des voix

Nous avons importé un fichier .wav dans Vertex AI Studio et formulé une simple instruction.

Peux-tu me générer la transcription de ce fichier audio ?

Contexte : pour le podcast Zenika (Zenikast), nous enregistrons un épisode au Devoxx France 2025. La premiÚre personne qui parle est Jean-Philippe et la deuxiÚme personne Benjamin.

Peux-tu donner la transcription sous format texte ?

En quelques secondes, Gemini a produit une transcription structurĂ©e, segmentĂ©e par “Intervenant 1”, “Intervenant 2”, etc.

Le rĂ©sultat brut est vraiment satisfaisant. Pas d’hallucinations, trĂšs peu d’erreurs de transcription, et surtout une bonne comprĂ©hension des enchaĂźnements entre les intervenant·es. Cette Ă©tape nous a convaincus du potentiel. Mais on voulait aller plus loin : amĂ©liorer la lisibilitĂ© du texte pour en faire un support plus agrĂ©able Ă  lire, voire publiable tel quel.

1Ăšre transcription avec Gemini

đŸȘœ Étape 2 : Nettoyage automatique des tics de langage

Lors d’un second prompt, nous avons demandĂ© exactement la mĂȘme transcription mais en enlevant les tics de langage : les “du coup”, “euh”, “voilà”, “en fait” et autres. Gemini a gardĂ© l’esprit de l’échange, sans trahir le propos, mais en le rendant bien plus fluide Ă  la lecture.

Un vrai gain pour les personnes qui liront la transcription sur le lien partagé.

Voici le prompt :

Peux-tu me générer la transcription de ce fichier audio ?

Contexte : pour le podcast Zenika (Zenikast), nous enregistrons un épisode au Devoxx France 2025. La premiÚre personne qui parle est Jean-Philippe et la deuxiÚme personne Benjamin.

Peux-tu donner la transcription sous format texte ? Peux-tu Ă©galement nettoyer le texte de façon Ă  supprimer les tics de langage comme les “euh”, les rĂ©pĂ©titions de mot, etc afin de le rendre lisible tout en restant fidĂšle au texte au maximum.

đŸȘœ Étape 3 : Deux versions complĂ©mentaires

Ce double rendu nous permet maintenant d’avoir à la fois une version fidùle à l’original et une version plus lisible.

Transcription brute avec Gemini

Transcription améliorée avec Gemini

🧭 Grounding : des rĂ©ponses vĂ©rifiĂ©es via des sources fiables

Sur les captures d’écran prĂ©cĂ©dentes, vous remarquerez l’activation d’une option nommĂ©e “Grounding” sur le panneau de droite.

L’idĂ©e est de connecter Gemini Ă  des sources de donnĂ©es vĂ©rifiables, comme la Recherche Google, Google Maps ou mĂȘme vos propres donnĂ©es. Cela permet de rĂ©duire drastiquement les risques d’hallucinations.

Par exemple, si on demande Ă  Gemini de rĂ©sumer un article de presse rĂ©cent, de gĂ©nĂ©rer un contenu Ă  jour, ou mĂȘme de rĂ©pondre Ă  une question pointue sur un sujet en constante Ă©volution, le grounding avec la Recherche Google permet d’adosser sa rĂ©ponse Ă  des contenus web rĂ©cents et pertinents. Mieux encore : les rĂ©ponses peuvent ĂȘtre accompagnĂ©es de citations et de scores de confiance, ce qui renforce l’auditabilitĂ© et la transparence.

Du cĂŽtĂ© de vos donnĂ©es, il est possible de connecter Gemini Ă  du RAG Engine, du Vertex AI Search ou de l’Elasticsearch.

Gemini - Custom grounding

Gemini - Custom grounding source

🚀 La suite, basĂ©e sur des agents IA?

L’utilisation de l'Intelligence Artificielle, que ce soit Whisper Transcribe ou derniĂšrement Gemini, nous a permis de gagner plusieurs heures sur la transcription de nos Ă©pisodes. Lors des premiers tests, nous passions 3 Ă  4h pour relire et corriger un Ă©pisode. Pour le moment, mĂȘme si cette cinĂ©matique est trĂšs archaĂŻque et perfectible, nous n’y passons plus que 30 minutes.

Avec les annonces faites par Google courant Avril et Mai 2025, des amĂ©liorations vont rapidement pouvoir ĂȘtre testĂ©es et mises en place pour accĂ©lĂ©rer ce processus et permettre Ă  tous les collaborateurs et collaboratrices de Zenika de rĂ©aliser des transcriptions en quelques clics (via la plateforme AgentSpace, le protocole Agent2Agent (A2A) et le framework Agent Development Kit, ADK. Nous vous raconterons sĂ»rement cela dans un nouvel article de blog.

👉 Article rĂ©digĂ© avec Benjamin Bourgeois

Top comments (0)

Some comments may only be visible to logged-in visitors. Sign in to view all comments.