🎙️From Podcast to AI Summary: How I Built a Podcast Summarizer in Colab

#programming #ai #python #podcast

🌍 Why Podcast Summarization Matters

Podcasts are one of the fastest-growing media formats, but their long-form nature makes them hard to consume for busy listeners.

A 2-hour conversation can hide 10 minutes of golden insights that most people never hear. That raised a question for me:

“What if podcasts could summarize themselves?”

Instead of manually listening, transcribing, and editing, I wanted a one-click, zero-setup pipeline:

Pull a podcast 🎧
Transcribe it 🗣️
Chunk intelligently ✂️
Summarize with layered AI 🧠
Turn into visuals 🎨
Narrate + polish into a short video 🎞️

✅ No APIs required

✅ No paid GPUs required (Colab handles it)

✅ All in one notebook, free to run

🚀 Who Is This For?

This Colab-based pipeline is useful for:

🎧 Podcast junkies → Quick takeaways without full episodes
🎥 Content creators → Repurpose audio into Shorts, TikToks, Reels
🧠 AI enthusiasts → Real-world NLP + generative workflows
🛠️ Developers → Build and extend a working summarizer pipeline

🛠️ Step-by-Step Breakdown

🎥 Pulling Audio from YouTube
We use yt-dlp (an improved youtube-dl fork) to grab audio streams directly.

def download_youtube_audio(video_url, output_basename="podcast"):
    ydl_opts = {
        'format': 'bestaudio/best',
        'outtmpl': output_basename + ".%(ext)s",
        'postprocessors': [{
            'key': 'FFmpegExtractAudio',
            'preferredcodec': 'mp3',
            'preferredquality': '192',
        }],
    }
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        ydl.download([video_url])

✅ Simple, reliable, and avoids copyright issues.

Transcribing with Whisper

Whisper by OpenAI is a high-quality speech-to-text model. You don’t need an API key — it runs right in Colab!

whisper_model = whisper.load_model("base", device="cuda")
result = whisper_model.transcribe("converted.wav")
transcript = result["text"]

⚡ No waiting, no cost, just real-time transcription.

✂️ . Chunking the Transcript (Smartly)
To keep summaries relevant and within model limits, we chunk the text by tokens.

def chunk_by_tokens(text, max_tokens=1000, overlap=100):
    tokens = tokenizer.encode(text)
    chunks = []
    start = 0
    while start < len(tokens):
        end = min(start + max_tokens, len(tokens))
        chunk = tokens[start:end]
        chunks.append(tokenizer.decode(chunk))
        start += max_tokens - overlap
    return chunks

Overlapping helps preserve context across chunk boundaries.

🧠 Summarize Each Chunk with BART (Facebook)
To efficiently handle long transcripts, we first summarize chunks using Facebook’s BART-Large-CNN, a powerful abstractive summarizer available via Hugging Face.

from transformers import pipeline
summarizer_fb_bart = pipeline("summarization", model="facebook/bart-large-cnn")
summarizer_fb_bart(["chunk of text"])

Why BART?

Abstractive summarization (not just cut-paste sentences)
Optimized for chunked podcast transcripts
Outputs clear, readable summaries

✅ Why BART first? It’s fast, clean, and fine-tuned for summarization.

Summarize with Mistral (and Gemini)

Mistral 7B refines chunk summaries
Gemini 1.5 Flash generates final narration This layered approach balances speed, cost, and narrative polish. Example visual prompt: "A tense boardroom with glowing monitors, modern executives debating AI ethics"

🎨 Create AI Images
With Stable Diffusion, we turn each prompt into an image.

import google.generativeai as genai
model = genai.GenerativeModel(model_name="gemini-1.5-flash")
response = model.generate_content(final_prompt)

Noise reduced early
Tone aligned midstream
Gemini delivers a publish-worthy final narrative

🎙️ Turn Text into Voice — Pick Your AI Narrator

🔹 Option 1: Google Text-to-Speech (gTTS)
Free, fast, and easy for English voiceovers.

from gtts import gTTS
tts = gTTS(text=final_summary, lang='en')
tts.save("generated_speech.mp3")

✅ Pros: Free, simple ❌
Cons: Only one default voice

🔹 Option 2: Microsoft Edge TTS
Dozens of high-quality voices with expressive tone.

import ipywidgets as widgets
from IPython.display import display

available_voices = ["en-US-GuyNeural", "en-US-JennyNeural", "en-GB-RyanNeural", "en-IN-NeerjaNeural"]
voice_dropdown = widgets.Dropdown(
    options=available_voices,
    description="🎙️ Pick Voice:",
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='50%')
)
display(voice_dropdown)
Generate narration:
import edge_tts
import asyncio

async def generate_voice(text, voice="en-US-GuyNeural"):
    communicate = edge_tts.Communicate(text, voice)
    await communicate.save("generated_speech.mp3")

await generate_voice(final_summary, voice=voice_dropdown.value)

✅ Pros: Natural, expressive voices ❌
Cons: Requires internet + installation

Voice Style Summary

Use gTTS for quick + simple narration
Use Edge TTS for professional-grade voices
Let users pick interactively with UI dropdowns

🎶 Add Background Music for Emotion & Flow
Background music makes your video engaging by:

Setting tone (calm, energetic, dramatic)
Filling silent gaps
Making content feel polished


import requests
from moviepy.editor import AudioFileClip

music_url = "https://www.soundhelix.com/examples/mp3/SoundHelix-Song-1.mp3"
music_path = "music.mp3"

response = requests.get(music_url)
with open(music_path, 'wb') as f:
    f.write(response.content)

voice = AudioFileClip("generated_speech.mp3")
music = AudioFileClip("music.mp3").subclip(0, voice.duration).volumex(0.1)
Combine:
from moviepy.editor import CompositeAudioClip
final_audio = CompositeAudioClip([music, voice.set_start(0)])

🖼️ Generate Images with Diffusers
We use Hugging Face’s 🧨 Diffusers for text-to-image.

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16
).to("cuda")

images = [pipe(prompt).images[0] for prompt in script_scenes]

🎞️ Final Video Assembly (MoviePy)
We now combine:

AI images
Voice narration
Background music

final_audio = CompositeAudioClip([music, voice])
video = concatenate_videoclips(image_clips).set_audio(final_audio)
video.write_videofile("final_video.mp4", fps=24)

🎁 Bonus: Why I Made This
I love podcasts, but I don’t always have time to listen. So I asked myself: Can I turn a podcast into a 1-minute video?
This project proved the answer is yes.