đŹđ§ Une version anglaise est dĂ©sormais disponible : https://dev.to/zenika/making-your-podcast-accessible-with-ai-generated-transcription-d5k
LâIntelligence Artificielle (IA) est partout, de plus en plus utilisĂ©e, transformant la maniĂšre dont nous abordons nos tĂąches. Elle se rĂ©vĂšle comme un assistant prĂ©cieux, permettant dâaider les personnes Ă accomplir plus rapidement leurs activitĂ©s du quotidien.
Dans le domaine de la manipulation de son en texte, elle nous offre des retranscriptions rapides, mais une intervention humaine reste indispensable pour garantir la justesse et la pertinence du contenu généré.
Dans cet article, nous allons vous parler de notre expĂ©rience avec lâIA dans la production de notre podcast Zenikast et plus particuliĂšrement celle de Google : Gemini
đïž Zenikast, une nouvelle aventure
Quand nous avons lancé Zenikast, le nouveau podcast de Zenika, nous nous sommes interrogés sur la maniÚre de rendre accessible nos futurs épisodes.
LâaccessibilitĂ© , et surtout quand il sâagit de podcast, nâest malheureusement pas souvent une prioritĂ©. A Zenika, câest un sujet qui nous tient Ă cĆur. Nous avons la volontĂ© dâamener lâaccessibilitĂ© au sein de nos prestations, nos audits, nos formations et aussi lors de nos activitĂ©s annexes comme le podcast !
Sur les plateformes de podcast comme Apple podcast ou bien Youtube, des transcriptions automatiques sont gĂ©nĂ©rĂ©es, laissant parfois, voire souvent, des erreurs et diverses hallucinations. Nous le savons, les outils basĂ©s sur lâIA sâamĂ©liorent jour aprĂšs jour mais nous avions lâenvie et la volontĂ© de mettre Ă disposition une transcription quasi parfaite. Pour mettre Ă disposition cette transcription, nous avons optĂ© pour une solution simple et efficace : un Google Doc. Nous avons un outil interne qui permet de crĂ©er des liens vers des pages web ou documents et Ă©viter de mentionner le lien du document tel quel. Nous pouvons donc avoir rapidement et simplement un lien de type https://links.zenika.com/link/zenikast/episode-1.
Merci Ă Emmanuelle Aboaf pour avoir pris le temps de rĂ©pondre Ă nos questions et pour tes conseils đ.
đ§Ș Nos premiers essais: Whisper Transcribe
Pour la saison 1, nous Ă©tions plusieurs personnes au profil technique Ă sâoccuper du podcast. Nous avons donc testĂ© diffĂ©rents outils, basĂ©s sur des projets Node.js, Java, ou bien sur des outils directement Ă installer. Mais Zenikast a pour vocation dâĂȘtre Ă la disposition de toutes les personnes de Zenika, quâelles soient tech ou non. Lâoutil et la maniĂšre de crĂ©er nos transcriptions doivent donc ĂȘtre accessibles Ă tous les profils des collaborateurs et collaboratrices de Zenika.
Nous avons sĂ©lectionnĂ© Whisper Transcribe, et avons pu tester nos premiĂšres transcriptions avec la version gratuite . Merci aux personnes qui ont travaillĂ© sur ce magnifique projet đȘ.
Petit plus de Whisper : la diarisation, ou dĂ©tection automatique des diffĂ©rents intervenants·es dans le podcast, une fonctionnalitĂ© trĂšs utile pour nos Ă©pisodes pouvant avoir jusquâĂ 6 voix.
Des mots spĂ©cifiques, abrĂ©viations ou termes techniques peuvent ĂȘtre ajoutĂ©s Ă la liste des mots âconnusâ de Whisper.
MalgrĂ© sa qualitĂ©, chaque transcription demandait tout de mĂȘme plusieurs heures de relecture pour arriver Ă un texte sans erreur et structurĂ© de façon Ă ĂȘtre agrĂ©able Ă lire. De plus, Whisper Transcribe est payant pour une utilisation plus intense.
đĄ Vers lâIA gĂ©nĂ©rative avec Vertex AI
Lors du Devoxx France mi-Avril, une discussion avec Valentin Deleplace nous a orientĂ© et surtout convaincu de pousser nos expĂ©rimentations avec Gemini et Vertex AI Studio de Google Cloud. Il est possible dây importer un fichier audio (.mp3 ou .wav) et de demander Ă Gemini de nous donner la transcription de lâĂ©pisode, sans Ă©crire une seule ligne de code.
Le rendu est largement satisfaisant et a poussĂ© notre curiositĂ© Ă tester dâavantage la transcription de notre Ă©pisode de podcast que nous tournions d'ailleurs pendant le Devoxx (cf la vidĂ©o de lâĂ©pisode) avec les solutions Google.
đ§Ș Retour dâexpĂ©rience : Gemini 2.5 Pro Ă lâĂ©preuve
Nous sommes donc allés tester directement avec le dernier modÚle : Gemini 2.5 Pro.
Disponible en preview via Vertex AI, Gemini 2.5 Pro a la capacitĂ© de traiter des prompts multimodaux : texte, image, audio, voire mĂȘme vidĂ©o. Contrairement aux gĂ©nĂ©rations prĂ©cĂ©dentes, il intĂšgre des capacitĂ©s de raisonnement bien plus poussĂ©es.
La prise en main est rapide : en important un fichier .mp3 ou .wav, nous avons interagi avec le modĂšle directement dans l'interface de Vertex AI Studio et en quelques secondes Gemini gĂ©nĂšre un texte trĂšs fluide et assez fidĂšle Ă lâaudio. LĂ oĂč Whisper Transcribe nous demandait une bonne relecture, Gemini a nettement rĂ©duit ce temps. Mais surtout, il est aussi capable de faire de la diarisation, câest-Ă -dire de dĂ©tecter et sĂ©parer les diffĂ©rentes voix intervenant dans le podcast.
đȘ Ătape 1 : Transcription avec dĂ©tection des voix
Nous avons importé un fichier .wav dans Vertex AI Studio et formulé une simple instruction.
Peux-tu me générer la transcription de ce fichier audio ?
Contexte : pour le podcast Zenika (Zenikast), nous enregistrons un épisode au Devoxx France 2025. La premiÚre personne qui parle est Jean-Philippe et la deuxiÚme personne Benjamin.
Peux-tu donner la transcription sous format texte ?
En quelques secondes, Gemini a produit une transcription structurĂ©e, segmentĂ©e par âIntervenant 1â, âIntervenant 2â, etc.
Le rĂ©sultat brut est vraiment satisfaisant. Pas dâhallucinations, trĂšs peu dâerreurs de transcription, et surtout une bonne comprĂ©hension des enchaĂźnements entre les intervenant·es. Cette Ă©tape nous a convaincus du potentiel. Mais on voulait aller plus loin : amĂ©liorer la lisibilitĂ© du texte pour en faire un support plus agrĂ©able Ă lire, voire publiable tel quel.
đȘ Ătape 2 : Nettoyage automatique des tics de langage
Lors dâun second prompt, nous avons demandĂ© exactement la mĂȘme transcription mais en enlevant les tics de langage : les âdu coupâ, âeuhâ, âvoilĂ â, âen faitâ et autres. Gemini a gardĂ© lâesprit de lâĂ©change, sans trahir le propos, mais en le rendant bien plus fluide Ă la lecture.
Un vrai gain pour les personnes qui liront la transcription sur le lien partagé.
Voici le prompt :
Peux-tu me générer la transcription de ce fichier audio ?
Contexte : pour le podcast Zenika (Zenikast), nous enregistrons un épisode au Devoxx France 2025. La premiÚre personne qui parle est Jean-Philippe et la deuxiÚme personne Benjamin.
Peux-tu donner la transcription sous format texte ? Peux-tu Ă©galement nettoyer le texte de façon Ă supprimer les tics de langage comme les âeuhâ, les rĂ©pĂ©titions de mot, etc afin de le rendre lisible tout en restant fidĂšle au texte au maximum.
đȘ Ătape 3 : Deux versions complĂ©mentaires
Ce double rendu nous permet maintenant dâavoir Ă la fois une version fidĂšle Ă lâoriginal et une version plus lisible.
đ§ Grounding : des rĂ©ponses vĂ©rifiĂ©es via des sources fiables
Sur les captures dâĂ©cran prĂ©cĂ©dentes, vous remarquerez lâactivation dâune option nommĂ©e âGroundingâ sur le panneau de droite.
LâidĂ©e est de connecter Gemini Ă des sources de donnĂ©es vĂ©rifiables, comme la Recherche Google, Google Maps ou mĂȘme vos propres donnĂ©es. Cela permet de rĂ©duire drastiquement les risques dâhallucinations.
Par exemple, si on demande Ă Gemini de rĂ©sumer un article de presse rĂ©cent, de gĂ©nĂ©rer un contenu Ă jour, ou mĂȘme de rĂ©pondre Ă une question pointue sur un sujet en constante Ă©volution, le grounding avec la Recherche Google permet dâadosser sa rĂ©ponse Ă des contenus web rĂ©cents et pertinents. Mieux encore : les rĂ©ponses peuvent ĂȘtre accompagnĂ©es de citations et de scores de confiance, ce qui renforce lâauditabilitĂ© et la transparence.
Du cĂŽtĂ© de vos donnĂ©es, il est possible de connecter Gemini Ă du RAG Engine, du Vertex AI Search ou de lâElasticsearch.
đ La suite, basĂ©e sur des agents IA?
Lâutilisation de l'Intelligence Artificielle, que ce soit Whisper Transcribe ou derniĂšrement Gemini, nous a permis de gagner plusieurs heures sur la transcription de nos Ă©pisodes. Lors des premiers tests, nous passions 3 Ă 4h pour relire et corriger un Ă©pisode. Pour le moment, mĂȘme si cette cinĂ©matique est trĂšs archaĂŻque et perfectible, nous nây passons plus que 30 minutes.
Avec les annonces faites par Google courant Avril et Mai 2025, des amĂ©liorations vont rapidement pouvoir ĂȘtre testĂ©es et mises en place pour accĂ©lĂ©rer ce processus et permettre Ă tous les collaborateurs et collaboratrices de Zenika de rĂ©aliser des transcriptions en quelques clics (via la plateforme AgentSpace, le protocole Agent2Agent (A2A) et le framework Agent Development Kit, ADK. Nous vous raconterons sĂ»rement cela dans un nouvel article de blog.
đ Article rĂ©digĂ© avec Benjamin Bourgeois









Top comments (0)
Some comments may only be visible to logged-in visitors. Sign in to view all comments.