DEV Community

Cover image for iPhone 的語音辨識功能:語音備忘錄,自動標點分段
Let's Write
Let's Write

Posted on • Originally published at letswrite.tw

iPhone 的語音辨識功能:語音備忘錄,自動標點分段

本篇要解決的問題

之前寫過幾篇,是用 OpenAI 的 Whisper API 來語音辨識的功能,都是免費可以使用的:

前陣子驚為天人的發現,原來 iPhone 有這功能了,還會自動加上標點符號以及分段,辨識的速度也很快,看來語音轉文字的功能,市場的需求量很大呀。

語音備忘錄 App 的樣子:

iPhone 語音備忘錄應用程式介面截圖


硬體要求

iPhone

  • iPhone 12 以上。
  • iOS 18.0 或以上版本。
  • 支援英文、西班牙文、葡萄牙文、義大利文、法文、德文、日文、韓文、繁體中文、簡體中文。

Mac

Mac 也可以,但要是 M 晶片的才行,作業系統是 macOS Sequoia 或以上版本。


使用 iPhone 語音轉文字

語音備忘錄裡的音檔,副檔名必須是「.m4a」。

如果直接在語音備忘錄裡點擊錄音,那就會是這個格式,如果是一般的音檔如 .mp3,就必須要進行轉檔,轉檔方式將在下一段說明,這段先寫怎麼用語音備忘錄來轉成文字。

在語音備忘錄裡點擊音檔後,會看到一個正常的播放器,接著點擊左下角一個很像聲紋的按鈕:

iPhone 語音備忘錄辨識按鈕位置說明圖

會看到音檔的聲紋,接著再點擊左下角有個「’’」的按鈕:

點擊 ’’ 按鈕

點擊後,就會進行辨識,會看到畫面上呈現「正在轉錄…」:

語音備忘錄進行語音辨識時顯示正在轉錄的畫面

iPhone 的辨識速度很快,同樣一個音檔,竟然可以比 Faster Whisper 還快。

辨識完後,就會看到畫面上呈現辨識結果:

語音備忘錄辨識完成後的文字顯示結果

更讚的是,會還自動加上標點符,並將文字內容分段,這是 Whisper API 無法一次完成的功能。

想要複製辨識的文字很簡單,點擊右上角「…」符號,就會出現「拷貝逐字稿」的選項,點擊後就複製了:

點擊「…」取得逐字稿的功能操作圖


音檔轉成 m4a

非 Mac

不是用 Mac 的朋友,直接搜尋「xx to m4a」,就會看到很多網站都有提供轉檔的服務。

比方搜尋「mp3 to m4a」,出現的搜尋結果就一大串。

Mac

有 Mac 的朋友,轉檔不用靠線上工具,因為 Mac 本身就有 App 可以轉,就是「QuickTime Player」:

QuickTime Player App

把音檔用 QuickTime Player 打開,接著依次點擊「檔案 > 輸出為 > 只限音訊」:

Mac 使用 QuickTime Player 開啟音檔介面

輸出的檔案就會是 .m4a 的檔案了。

如果已經在 Mac 作業,又是 M 晶片的話,可以直接在 Mac 上打開「語音備忘錄」,把轉好的音檔拖拉進去,點擊音檔後,右上角就會看到「’’」的按鈕,點擊後就會開始進行辨識:

Mac 上語音備忘錄 App 的語音辨識操作圖


參考資源

Top comments (2)

Collapse
 
dotallio profile image
Dotallio

Love how smooth this is now on iPhone, especially with auto punctuation. Have you noticed any big differences in accuracy between languages?

Collapse
 
letswrite profile image
Let's Write

No, currently it's only being used to recognize Traditional Chinese. I haven't tried it with other languages yet.