Pages

Tuesday, 26 December 2023

Windows 11 的語音輸入中文/英文功能(语音转化为文字)


要開啟windows11的這項功能也非常簡單,只要按Win + H 的组合鍵,就能呼叫出這項語音輸入工具

在基本的設定中,他就支援繁體中文的語音辨識,並且可以在語音輸入的過程幫我們自動加上標點符號。

而且因為他的語音輸入工具是一個浮動的輸入列,控制起來非常的方便,所以除了直接長篇大論地講出你的內容轉成文章之外,我自己還喜歡「一邊語音輸入,一邊結合滑鼠鍵盤打字的輔助」。

例如講個幾句之後就快速的修正其中一兩個字的錯誤,然後利用快捷鍵繼續語音輸入,熟悉操作後,可以大幅度的增加產出內容的速度。

----------------------------------------------

 2個免費線上語音轉文字的工具网站

要先說明的是,目前這些免費的語音轉文字工具,雖然都支援繁體中文與簡體中文語音,在一句話一句話的辨識上也相對準確,具備可用性。但是都還無法做到完美的長篇大論語音辨識,尤其辨識「中文-台灣」語音時無法辨識出標點符號,如果你的想像是直接把妳唸一篇稿子的內容都轉成中文,那麼事後你應該還是需要修改和加上標點。

即使如此,這些工具用來做快速的語音逐字稿,或是快速的會議記錄,還是具備一定程度的可用性,而且也能一邊語音轉文字,一邊適度修改,還是能省下許多筆記時間,所以我整理了2個免費線上語音轉文字工具來比較,他們分別是:
    VoiceNote II (https://voicenote.in/live/,须在chrome中打开)
    Speechnotes  (https://speechnotes.co/dictate/,也须在chrome中打开,否则不会显示麦克风图标

如何開啟語音轉文字功能?
VoiceNote II,直接進入網頁,點擊右方的「麥克風」圖示就能開始語音轉文字,下方的地球按鈕,則可以切換到中文的選項。
Speechnotes,也是直接打開網頁,點擊右上方的麥克風按鈕,並且換到你需要的語言,就能開始語音轉文字。

Speechnotes 與 VoiceNote II 則不須帳號就可直接使用。

 中文辨識能力如何?
那麼這三個免費工具的語音轉文字能力如何呢?在技術上我無法確認這三者是不是使用類似的語音輸入辨識引擎(歡迎技術高手來回答),但我還是做了一次測試。

其實也可以說是差不多,一些犯錯的地方都大同小異(也可能只是我口語上不可避免的誤差)。

線上工具都是具備實用性的,雖然我們還是必須修改語音轉文字的結果,但大體上可以節省自己從頭打到尾的時間。

 可不可以離開頁面後,繼續語音轉文字?

有時候語音轉文字時,如果我們離開工具網頁,還可以一邊進行辨識嗎? VoiceNote II 與 Speechnotes 都可以。

 關掉網頁後會保留筆記嗎?
 VoiceNote II 也會自動記錄你的筆記,關掉頁面再回來,都能看到上次的內容。
而 Speechnotes 也會自動儲存,下次打開時,只要到左方的資料夾按鈕,就能還原上次某個時間的語音筆記。

匯出功能
VoiceNote II 則是可以下載成純文字筆記。
Speechnotes 則能幫我們轉檔成 word ,或是直接上傳 Google Drive 。

-----------------------------------------------

免費語音轉文字的工具

「語音轉成文字」,也會是你文書工作上的一項利器,今天這篇文章,我就以「免費」、「支援中文」這兩個基本標準,加上我都實際使用過一段時間的體驗,來推薦几個「語音轉文字的工具」。

 1. 訊飛語音輸入法:手機上用語音寫長文章(ios8以后的版本就已经内置了語音輸入法,支持中英文)

其實我覺得最好的「語音轉文字」工具,就是一個可以辨識中文語音、自動輸入標點符號,並且可以長篇大論用語音「輸入」文章的「語音輸入法」,不是另外的語音轉文字工具,而是可以在任何文書工具中語音輸入的語音輸入法,而「訊飛語音輸入法」就是一個滿足上述條件的選擇。

 2.Mac 語音轉文字:筆電上用語音寫長文章

上述的情境換到我可以使用筆電時, 如果當下不方便或懶得打字,希望思緒更快轉成「草稿」,那麼我會利用 Mac 系統內建的語音轉文字功能,直接唸出我的草稿,一樣可以逐句打成長文章,而且不管是在 Evernote 或任何文書編輯軟體中都可使用。

Mac 系統內建的語音轉文字功能,雖然沒辦法像是訊飛那樣自動輸入標點符號,但可以用「語音」來指定輸入標點符號,例如說「句號」就會打出「。」(参见https://briteming.blogspot.com/2023/12/mac.html)

3. Wrappup,手機錄音 App:免費語音轉文字與自動聽寫筆記。他不是單純的錄音筆 App ,而是可以在錄音後,自動把錄音內容轉成多國文字,支援中文。
我關注的這個錄音工具叫做 Wrappup(https://webapp.wrappup.co/)。他的定位是聰明的錄音筆記摘要工具。他有三個關鍵的特色:
    把語音自動轉成文字,包含中文。
    快速且自動做錄音內容筆記摘要。
    方便回放與找到任何重要錄音段落。
結合這三大功能,你可以在開會、採訪、聽課時,快速地標記出重要的錄音段落,而「 Wrappup 」會自動摘要這些段落的文字內容,並幫助我們回放重聽。
我自己的使用經驗,也很適合拿來做自己靈感想法的錄音筆記,快速做出文字與段落摘要。
而且「 Wrappup 」擁有很棒的操作介面,錄音中途要製作筆記摘要,會是一件非常輕鬆簡單的事情。
這次要介紹的「 Wrappup 」,是同時在開發 Android 與 iOS 版,也有雲端網頁版工具,目前都免費使用。雖然這款工具有特別註明還在「開發中」,也因此確實有些 BUG(我上面影片與後面文章都會提到),但很值得大家跟我一起關注與嘗試。

 Wrappup的第一個特色,就是按下錄音按鈕後,他不只會錄音,還可以自動把語音轉成你的語言文字,支援語音轉中文。
他的語音轉文字效果還不錯。

第二個特色,當你聽到重點時,按下「 Tap to Highlight 」按鈕,就會自動產生摘要筆記,並且你不用輸入內容,因為他會用語音辨識,把「前後段文字」輸入到你的摘要筆記中!
是的,這裡另外一個聰明之處,在於按下筆記按鈕時,他會把前面一段時間的筆記摘要也納入,因為我們本來就是「聽到重點之後」才會按下筆記按鈕嘛!

第三個特色,就是這樣產生的語音摘要筆記,同時有完整錄音檔,但也有「你按下筆記按鈕」產生的每一段重要摘要,除了有自動文字筆記外,也能快速回放任何需要的段落。
不過,前面有提到,「 Wrappup 」還在開發中,雖然已經上架 App ,但確實有些 BUG ,我遇到的問題就是,當錄音結束要儲存檔名時,「千萬不要儲存中文檔案」,那會讓錄音內容消失!
但只要取一個英文的錄音檔名,那麼錄音內容、中文筆記摘要還是都會保留,並且可以回放使用。如果你要試試看,切記就是「要取英文錄音檔名」即可。
「 Wrappup 」也是雲端服務,所以不只是 App 上會有錄音筆記,你也可以在網頁上登入帳號,查看同步儲存的錄音筆記內容,回到電腦上,就能直接整理你的錄音。
而因為「 Wrappup 」會自動語音轉文字,還能快速自動作出摘要筆記,這些文字內容,你可以匯出,例如請「 Wrappup 」 mail 整份錄音的「完整文字檔」,或是 mail 摘要文字的部分,你就能透過郵件快速獲得這些內容囉!
整體來說,我試用了「 Wrappup 」一小段時間,覺得他的最大問題就是「中文錄音檔名」會無法上傳,除此之外,只要取個英文檔名,就能用來做錄音筆記,語音轉中文、中文筆記摘要都能自動產生。或許你也可以跟我一樣一起來關注她的發展。
 Wrappup是一個新鮮而可以期待未來的錄音筆記工具。

這樣的工具對我來說,不只是快速整理採訪、會議的錄音逐字稿,我更常使用的是語音做筆記,把我的靈感想法快速整理成文字。

「 Wrappup 」 Android App:
https://play.google.com/store/apps/details?id=com.wrappup&referrer=utm_source%3Dwebsite%26utm_medium%3Dhomepage

「 Wrappup 」 iOS App:
https://itunes.apple.com/app/id1174858245

「 Wrappup 」網站:
https://webapp.wrappup.co/

4.  iPhone內建的語音輸入法
如果不像我一樣,想要花時間去研究還使用額外的工具,那麼利用系統內建的方法是最簡單的。就像 iPhone 內建的語音輸入法其實就很好用,中文辨識也準確,雖然不會自動插入標點符號,可是可以用語音來輸入標點。

5. Android內建的語音輸入法
同樣的, Android 上也有 Google 內建的語音輸入法,在中文辨識上同樣很準確,不過很可惜的是, Google 的語音輸入法目前在台灣繁體中文上,不支援輸入標點符號,所以會變成沒有斷句的逐字稿。

6. Siri 語音轉文字:用 Siri 回訊與做筆記
對於「 Siri 」這個功能,我常做兩件事,都跟語音轉文字有關。
第一件事,我會跟 Siri 說:「用 Telegram 傳訊息給老婆」,然後唸出我的訊息內容,這時候我就不用動手,也能快速的把訊息傳送出來,這也是語音轉文字的利用。如果你用 LINE 之類的即時通,也都可以這樣利用,直接語音輸入訊息傳訊。
第二件事,我會利用「 跟 Siri 對話新增 Evernote 筆記:各種語音指令實測與技巧教學」這篇文章的教學,快速去做簡短的筆記,用語音就能完成。

7. 線上語音轉文字工具
最後,補充我曾經研究過的這篇文章:「2個免費線上語音轉文字工具,做即時中文聽寫筆記」,裡面介紹了2個支援中文的語音轉文字線上工具.

8. 雅婷逐字稿:台灣開發的語音轉文字 App
台灣專注人工智慧的開發團隊 AILabs ,推出了一款中文語音辨識 App :「雅婷逐字稿」,在 Android 與 iOS 免費上架,提供使用者語音轉文字的辨識功能。

https://play.google.com/store/apps/details?id=tw.ailabs.Yating.Transcriber&hl=zh_TW


https://itunes.apple.com/tw/app/%E9%9B%85%E5%A9%B7%E9%80%90%E5%AD%97%E7%A8%BF/id1343659994?mt=8

「雅婷逐字稿」雖然距離真的讓人驚豔的語音辨識工具有些距離,也沒有達到他所訴求的中英文夾雜都能辨識的要求,並且也缺乏像是標點符號自動辨識(甚至自動插入)這樣的好用功能。

不過,「雅婷逐字稿」確實具有堪用的中文辨識能力。如果從他是台灣團隊開發的中文語音辨識功能,可能會針對台灣口語在地化,或是像他訴求的「你無需有資料被傳出台灣的隱私和資安疑慮」。那麼這樣的起步,確實有讓我會繼續期許他變得更好的信心。

在辨識上,雖然不是最準確的辨識工具,但整篇來說,還是轉換成一篇看得懂大概意思的逐字稿。

而「雅婷逐字稿」工作時,除了把語音轉換成文字稿,也會同時錄下錄音檔。於是當真的要回顧整理之前的採訪、會議時,可以聽聽錄音檔,或是直接編輯文字稿,雙管齊下,其實符合真實工作需求。

之前嘗試過一個工具:「Wrappup 聰明手機錄音 App:免費語音轉中文與自動聽寫筆記」,雖然他後來在新版中,不再支援中文語音轉換,但這個工具的設計,卻可能是我目前最喜歡的「採訪、開會錄音工具」。

Wrappup 開始後,可以隨時記錄會議中「重要的一段」,不只把這段話錄音下來,而且同時可以轉成文字記錄。一場採訪與開會後,我就可以獲得這次會議中許多段重要錄音與逐字稿。回到辦公室,邊聽邊剪貼、修改,節省不少時間。

而目前「雅婷逐字稿」的功能設計也具有這樣的方向,他目前最大的特色,就是「兼存錄音與逐字稿」,這樣的對照在工作上是真的實用的。而且「雅婷逐字稿」也能在每段逐字稿隨時中斷、繼續錄音,只錄重點,更符合採訪開會需求。

只是有沒有可能加上更多「逐字稿」需要的關鍵功能呢?例如重點段落註記等等。

在中文語音辨識輸入上,很多朋友都會推薦「訊飛輸入法」,我自己也是這個工具的長期使用者。

其實他的語音辨識速度,可能沒有「 Google 語音輸入」那麼快、那麼準確(以我在台灣的使用情境來說),但是訊飛卻有一個真正讓我的語音筆記變得更有用的關鍵功能,就是可以「自動插入標點符號」。

這樣一來,語音辨識出來的文字稿,就是更加可讀的。

而且老實說,「訊飛輸入法」自動插入的標點符號也不是那麼準確,也常常出錯,但只要有基本的逗點、問號,讓語句可以分段,這樣事後整理真的就節省很多時間了。

而在語音轉文字的辨識準確度上,「雅婷逐字稿」除了號稱要針對台灣口音外,或許也可以在標點符號(或是更聰明的分段)下功夫,因為這是許多中文語音輸入會卡關的地方.

9.  android手机中的'Google即時轉錄'app:超準確中文語音轉文字,可自動加上標點符號

你用過「 Google即時轉錄」這個工具嗎?這是一個內建或可安裝在 Android 中的 App ,在 2019 年年初推出,主要目的是提供聽障朋友一個快速的語音轉文字服務,一邊講話,一邊讓文字顯示在手機螢幕上。

不過,一開始的「 Google 即時轉錄」有很多限制,例如轉錄後的文字只能顯示在螢幕,無法複製或匯出到其他地方。轉錄的時候雖然支援中文,但不會自動加上標點符號。

但「 Google 即時轉錄」在不斷更新的過程中,在 2019 年 6 月的更新後,可以「複製」轉錄出來的文字內容了!更進一步的,後來還加上了「自動添加標點符號」、「自動分段」等等功能。

於是現在的「 Google 即時轉錄」用途更加廣泛:

    協助聽障朋友進行語音轉文字溝通。
    也適合用在會議記錄轉文字。
    語音寫稿。
    一邊讀書,一邊語音寫筆記。
    影片語音轉成字幕等等。

在 Android 上的「 Google 即時轉錄」 App ,除了有「頗為準確的中/英文語音轉文字」外,還具備下面的特性:
打開 App ,只要開口說話,就可以自動語音轉文字,操作便利。
只要 App 不關閉,語音轉文字的過程就不會間斷,很適合斷斷續續的語音情境。
不僅轉文字準確,台灣中文還可以自動加上標點符號,甚至分段。

如何開啟「 Google 即時轉錄」呢?可以安裝「 Google 即時轉錄 Android App 」:
https://play.google.com/store/apps/details?id=com.google.audio.hearing.visualization.accessibility.scribe&hl=zh_TW

而如果你的 Android 手機有內建這個功能,則可以從內建設定中直接開啟。進入手機設定的[無障礙設定]中,找到[即時轉錄]。
然後將[使用服務]設定為啟動即可。
啟動「 Google 即時轉錄」服務後,在手機任何地方,由螢幕底端兩隻手指往上滑動,就可以立即呼叫出「 Google 即時轉錄」,非常方便。
呼叫出「 Google 即時轉錄」後,也不需要任何開啟或設定,只要開始「講話」,語音內容就會開始即時轉成文字囉!

因為語音轉文字時,手機無法錄到我的聲音,所以你只能在影片中看到「即時轉成文字」的效果,這邊特別跟大家說明。
「 Google 即時轉錄」的語音轉文字效果有幾個重點:

    正確率高,會根據語意做前後文修正。
    可以自動加上標點符號。
    會根據語意自動分段。
    語音轉文字過程不會中斷,可隨時暫停,隨時開始。

除了語音轉成文字的準確度之外,很重要的就是他設計成「可以讓功能一直開啟,但我們的講話可以斷斷續續,甚至暫停,但功能不斷中斷,等到我開始講話,又能開始繼續語音轉文字」。

而更更重要的,就是「 Google 即時轉錄」的內容可以複製出來。

只要全選語音轉成的文字稿,然後「複製」,就能貼上自己其他的文件、筆記檔案中。

「 Google 即時轉錄」還有一些進階設定,打開左下方的[設定]按鈕,首先可以調整文字大小。

進入[更多設定],則可以開啟:
    儲存轉錄內容:開啟後,轉成的文字稿會保留 3 天,可以隨時回到「 Google 即時轉錄」中複製、查看之前的內容。
    顯示保留按鈕:開啟後,會出現暫停按鍵,讓暫時不需要講話時,可以先暫停。

其實台灣團隊製作的「雅婷逐字稿」,在推出後也一直持續進化,現在也是一個可以中文語音轉文字、自動加上標點符號的工具。

結論來說,兩者的辨識正確率都能達到實用的等級,各自有辨識錯、辨識對的地方。

    而「雅婷逐字稿」的特色是不僅語音轉文字,還同時儲存錄音檔,並且有 Android 與 iOS App 。
    「 Google 即時轉錄」app的特色則是在 Android 上可以任何畫面快速呼叫,文字自動分段效果更好。可以當作一種語音輸入法來使用也很方便。


而既然 Google 在即時轉錄上都可以有這麼好用的中文語音辨識,自動添加標點符號、自動分段也沒問題.

10. Google手机中文語音輸入法
這個「中文語音輸入,自動添加標點符號」的功能,正式在 Android 手機的 Google Gboard 輸入法上推出了!( iPhone 是否也有還不確定,歡迎大家回報)
方法只要在 Android 手機上,更新「 Google 」這個 App(不是更新 Gboard ,而是更新 Google 這個 App 本身)。就可以獲得這個新功能。
接著只要打開 Google 輸入法,點擊右上方的「語音輸入」按鈕。
然後直接開始說話,就能進行中文語音輸入,並且同一時間,會自動加上標點符號分句,語氣的逗號、問號也可以自動分辨。
「不用」說出逗點、問號等。
自動辨識文字語氣,自動插入適合的標點符號。
可以一口氣說一大段話。
這樣一來,起碼 Android 上要進行中文語音輸入,用內建 Google 輸入法就是很棒的解決方案了!
中文語音轉文字的辨識準確。
可以自動插入標點符號。
可以一次說出一大段話(上圖就是我一口氣說完的)。

前一陣子,推薦過另外一個很棒的工具:「Google 即時轉錄app:超準確中文語音轉文字可自動加上標點符號」。

兩者的區別在於:
Google即時轉錄app
可以中文語音輸入、可以自動加上標點符號。
適合一次轉錄一長篇草稿、一次會議記錄。
不會中斷。

Google語音輸入法
可以中文語音輸入、可以自動加上標點符號。
適合在即時通、筆記、文件 App 中語音輸入。
一次可輸入一段話,但中斷太久會停止

以上,就是我曾經遇到的語音轉文字需求,以及我曾經用來解決問題的各種語音轉文字方法,分享給大家參考,讓大家也可以用不同的方式提升文字輸入的效率。
-------------------------------------------------------------------------------

訊飛語音輸入法和iPhone內建的語音輸入法的比较

我想同時測試「訊飛語音輸入法」與「 iPhone內建的語音輸入法」在幾個不同需求下的效果。第一個當然是中文語音輸入的準確度,看看哪個的語音轉中文效果更好。

然後是當唸出長篇文字時,輸入標點符號的便利性。

還有為了語音輸入的舒適度,我想測試看看這兩個語音輸入法,要距離手機多近時才能準確偵測到語音並轉成文字。如果能距離手機愈遠,在真實環境使用時就更方便。

最後,因為我有時候會想要語音輸入長篇文字,我想看看這兩個語音輸入法,哪一個在持續語音轉中文的過程中,比較穩定,不會中途斷掉。


下面是我拍的影片,實際測試用訊飛與 iPhone 的中文語音輸入法,來輸入同樣的筆記內容,先看看實際辨識效果如何。

搭配影片,下面就來整理我又反覆測試了好幾則筆記後,整體的心得結論。


1. 中文語音轉文字準確度

在這部分我認為「 iPhone 內建語音輸入法」,和「訊飛的語音輸入法」,兩者的準確度都是很高的,已經到達可以真的拿來語音輸入文字筆記的程度。

不過訊飛在一些中文常用詞彙的辨識上,在我的幾次測試中,比 iPhone 內建的語音輸入準確度更高,這應該不是語音偵測辨識的問題,而是訊飛有更大量中文詞彙,可以自動根據語意做修正。


但是訊飛也有一個對台灣用戶來說的小缺點,因為訊飛輸入法是大陸產品,雖然可以輸出繁體中文,但有時候會出現一兩個不是繁體中文使用習慣的簡體字或用字。


2. 標點符號輸入便利性

訊飛語音輸入法可以「自動輸入標點符號」,也就是我只要單純唸出語音筆記,訊飛就會自動斷句,自動分標點,看起來可以自動輸入逗點、句號,還有問號等。

而 iPhone 語音輸入也可以輸入標點符號,但不是自動,我們要口說唸出要輸入的標點符號(例如電腦玩物逗點,才會輸入電腦玩物,)。這增加了一些語音筆記的麻煩,但也有好處,那就是可以更準確地唸出想要輸入的不同標點符號,像是冒號、驚嘆號、逗號、句號、問號。


3. 聲音輸入辨識距離

我有幾個自己實際會用到語音輸入文字的情境, 像是是我在廚房做料理時,我喜歡一邊作料理一邊寫筆記。但這時候,我可能無法拿著手機做語音輸入,甚至可能嘴巴無法離手機太近,所以我想試試看,這兩個輸入法可以接受的辨識距離。

結果我發現,在這個測試中,訊飛語音輸入的距離,明顯要好於「遠於」 iPhone 內建的語音輸入法。

我把手機放在腰身以下高度的流理台,也就是嘴巴大概距離手機有半身以上的距離,這時候,我用訊飛語音輸入,他還是可以辨識到我的語音內容(只是準確度會稍微降低),並且輸入成文字訊息。

但是同樣的情境,用 iPhone 內建語音輸入法時,他就無法辨識出我正在語音輸入,在這樣的距離時就無法語音輸入筆記了。


4. 是否自動關閉

另外,我有時候會不知不覺就講出長篇大論的筆記內容,所以我希望語音輸入法開啟時,可以持續保持語音偵測狀態,不會自動停止或關閉。

用這樣的要求,我測試訊飛語音輸入時,只要打開她的「長文本」功能,確實就能保持語音輸入「不間斷」,我可以念出很長的文本,就算中間我暫停在思考,訊飛語音輸入狀態也不會關閉,我可以隨時繼續唸下去。

但用這樣的要求去測試 iPhone 內建語音輸入法,就會發現,隔一段時間後, iPhone 語音輸入就會自動暫停,甚至我可能講到一半,語音輸入就斷掉。保持長時間穩定的效果似乎也沒有訊飛好。

小結:
以結論來說,在中文語音輸入轉文字的辨識效果下,兩者各有優缺點,可以說不相上下,而且都達到「可用」的實戰程度。

在標點符號辨識上,訊飛的自動輸入有其便利性。但 iPhone 的口說標點可以有更多彈性和準確度。

而在辨識距離、保持偵測穩定性上,我的測試則是訊飛的語音輸入要更有效。

以選擇來說,如果你通常輸入的是短的筆記內容,而且你覺得不用另外安裝設定 App 比較方便,那麼 iPhone 語音輸入也已經可以滿足需求。

如果你需要更專業的語音輸入效果,那麼訊飛則在輸入長篇語音筆記時,可以有更好更便利的表現。(但視訊飛就要另外安裝 App ,而且裡面大多數針對大陸用戶的功能,台灣用不到。)

 在利用「訊飛語音輸入」時,則有兩個設定技巧,第一個是在[鍵盤選擇]功能中,我只勾選[語音]這個鍵盤,這樣一進入就會是語音輸入畫面。第二個是在[語音設置]中選擇[國語(台灣)〕,可以更符合台灣的需求。

(https://briteming.blogspot.com/2022/07/how-to-auto-generate-subtitles-from.html ,

otter.ai部分)

----------------------------------------

相关帖子:https://briteming.blogspot.com/2022/07/app_23.html 


No comments:

Post a Comment