你知道吗?GitHub 上有一些开源项目,加起来超过 4 万 Stars,能让你把任何录音变成实时、可搜索的智能文本。但大多数团队只用它们做了最基本的语音转文字——浪费了它们 80% 的能力。
今天这篇文章,以语音激活自动录音为核心场景,告诉你 5 个几乎没人知道但超级实用的隐藏用法。工具组合包括:RealtimeSTT(GitHub 9,788 Stars)、TEN VAD(GitHub 2,121 Stars)以及更广泛的本地语音 AI 生态。
2026 年,语音 AI 已经进入了新时代。Whisper、FunASR(GitHub 16,101 Stars)和专用 VAD 模型完全可以跑在你的设备上,"需要联网"这个借口已经不存在了。无论你是做会议笔记应用、语音激活录音器,还是智能家居音频系统,都有本地优先的解决方案,在隐私、速度和成本上全面超越云端。
隐藏用法 #1:声音激活录音 — 自动跳过静音段落
大多数人的用法: 全程录音,回头再听。
隐藏技巧: Voice Activity Detection(VAD)能在检测到静音时自动暂停录音,只保留有声音的部分。
为什么大多数人不知道?因为这个功能需要手动配置 silence_recording_model 参数,而文档里只是一笔带过。
from RealtimeSTT import AudioToTextRecorder
def process_text(text):
print(f"[已捕获] {text}")
recorder = AudioToTextRecorder(
model="base",
silence_recording_model=True, # 这是关键参数
min_length_of_recording=0.3, # 最小录音秒数
min_gap_between_recordings=0.5, # 静音多少秒后停止
enable_realtime_transcription=True,
on_recording_stop=lambda chunk: print(f"跳过静音: {len(chunk)} bytes")
)
recorder.start()
input("按回车停止...")
recorder.stop()
效果: 一个 60 分钟的会议录音,实际只有 25 分钟有发言——最终文件只有 25 分钟,省 58% 存储和后期处理时间。
数据来源: RealtimeSTT GitHub 9,788 Stars(数据验证于 2026-05-18);TEN VAD GitHub 2,121 Stars,HN Algolia 搜索"voice activity detection"相关讨论 8+ 条
隐藏用法 #2:唤醒词触发录音
大多数人的用法: 手动按开始/停止。
隐藏技巧: 把 RealtimeSTT 当成智能录音触发器——喊一声"Hey Recorder"才开始录音,喊"Stop"自动结束。
很多硬件项目用这个做语音控制,但很少有人把它和平时的会议录音结合。
from RealtimeSTT import AudioToTextRecorder
import threading
recording_active = False
wake_word_detected = threading.Event()
def check_wake_word(text):
if text and "hey recorder" in text.lower():
print("唤醒词检测到 — 开始录音!")
wake_word_detected.set()
elif text and "stop" in text.lower() and recording_active:
print("停止命令 — 结束录音")
recording_active = False
recorder = AudioToTextRecorder(
model="base",
wake_words="hey recorder", # 自定义唤醒词
on_wakeword_detected=check_wake_word,
post_speech_recording_model=True
)
recorder.start()
print("说 'Hey Recorder' 开始录音...")
input("按回车退出...")
recorder.stop()
场景: 放在会议室中央,喊一声就开始录,不用碰任何设备。
数据来源: RealtimeSTT GitHub 9,788 Stars,HN Algolia 搜索"wake word voice AI"相关讨论 16+ 条(包括 16 pts HN 热帖:"Hyper – A stupidly non-corporate voice AI app for IRL conversations")
隐藏用法 #3:实时翻译管道
大多数人的用法: 录完再手动翻译。
隐藏技巧: 把 RealtimeSTT 的实时输出接上大模型翻译管道,同声传译不是梦。
from RealtimeSTT import AudioToTextRecorder
def translate_segment(text):
"""将片段发送给 LLM 翻译"""
# 替换为你的 LLM API 调用(Ollama、OpenAI 等)
translated = f"[已翻译] {text}"
print(translated)
def process_realtime(text):
if text and len(text) > 3:
translate_segment(text)
recorder = AudioToTextRecorder(
model="base",
on_realtime_transcription_update=process_realtime,
realtime_min_length=3,
post_speech_recording_model=True
)
recorder.start()
print("说任何语言 — 看实时翻译...")
input("按回车停止...")
recorder.stop()
适合: 跨国会议、多语言采访、实时字幕生成。
数据来源: RealtimeSTT GitHub 9,788 Stars,FunASR GitHub 16,101 Stars(语言模型支撑),HN Algolia"local audio AI transcription"搜索 10+ 条相关讨论
隐藏用法 #4:带说话人识别的会议记录
大多数人: 只管录音,不管谁说了什么。
隐藏技巧: 结合 Meetily(GitHub 12,102 Stars)做带说话人识别的会议记录。
Meetily 是隐私优先的 AI 会议助手,支持实时转录 + 说话人分离。配合 RealtimeSTT 的低延迟优势,效果拔群。
# RealtimeSTT + Meetily 组合实现完整会议智能
# 第一步:RealtimeSTT 捕获并转录
# 第二步:Meetily 处理说话人分离 + 会议纪要
# Meetily 使用方法:
# git clone https://github.com/Zackriya-Solutions/meetily
# cd meetily && pip install -r requirements.txt
# python meetily.py --model parakeet --language en
"""
Meetily 特点:
- 隐私优先:全本地处理
- 4x 更快的 Parakeet/Whisper 实时转录
- 说话人分离(谁说了什么)
- 导出 Markdown/JSON
RealtimeSTT + Meetily = 完整会议智能管道
"""
数据来源: Meetily GitHub 12,102 Stars(数据验证于 2026-05-18),FunASR GitHub 16,101 Stars,HN"Summit local AI meeting insights"37 pts 相关讨论
隐藏用法 #5:纯 VAD 模式(不需要转文字)
大多数人: 拿 RealtimeSTT 当完整的 STT 工具用。
隐藏技巧: 只用它的 VAD 模块,单独做声音检测器用——不需要转文字。
RealtimeSTT 的 VAD 模块是独立可用的,工业级精度,100+ 语言支持。
from RealtimeSTT import AudioToTextRecorder
import numpy as np
def detect_speech(chunk, sample_rate):
"""纯 VAD,不需要转文字"""
audio_data = np.frombuffer(chunk, dtype=np.int16)
# 如果 VAD 检测到声音,则为语音
# 可用于:噪音监控、人员检测等
pass
recorder = AudioToTextRecorder(
model=None, # 不加载 STT 模型 = 纯 VAD
speech_file_path=None, # 不保存音频
post_speech_recording_model=False,
on_recording_stop=lambda chunk: print("检测到语音!"),
min_length_of_recording=0.1
)
print("仅监听语音事件...")
recorder.start()
input("按回车停止...")
recorder.stop()
适合: 智能家居(人来开灯)、会议室占用检测、噪音监控。
数据来源: FireRedVAD GitHub 388 Stars(工业级 VAD 参考),Cobra VAD GitHub 253 Stars(端侧 VAD),TEN VAD HN 8 pts 相关讨论
总结
RealtimeSTT 不只是一个语音转文字工具——它是一个完整的本地音频智能处理框架。5 个隐藏用法:
- Silence-Activated Recording — 自动跳过静音,省存储省时间
- Wake Word Trigger — 喊一声就开始录,真正解放双手
- Realtime Translation Pipeline — 接 LLM 做同声传译
- Meeting Intelligence — 配合 Meetily 做带说话人识别的会议记录
- Standalone VAD — 独立当声音检测器用,智能家居、噪音监控都行
数据来源: RealtimeSTT GitHub 9,788 Stars;Meetily GitHub 12,102 Stars;FunASR GitHub 16,101 Stars;TEN VAD GitHub 2,121 Stars;HN Algolia 相关讨论 10+ 条
之前的相关文章:
- Build a Local Voice AI Agent in 50 Lines with RealtimeSTT — 基础教程
- TEN VAD: Open-Source Low-Latency Voice Activity Detection — VAD 专项
- FunASR + Whisper: Production-Grade Speech Recognition Setup — 转录进阶
你们在用什么语音相关的开源工具?有什么独特的用法?在评论区告诉我! 👇
Top comments (0)