要能充分利用 AI，你必須先理解GPT被應用在語音轉文字的幾種限制

當ChatGPT於2022年底出現時，代表了一個時代的大躍進，以至於許多使用者忽略了它可能有的限制。例如，一些使用者引用來自ChatGPT的訊息做為報告的內容，最終被證明是虛假或不準確，你可能聽說過，ChatGPT曾為了要填空而產生捏造的訊息。

儘管現在人們已經懂得仔細檢查和驗證由ChatGPT提供的內容，但仍有另外一個人們經常忽視的領域：語音轉文字，又名轉錄逐字稿。現在有許多由ChatGPT，或更具體地說是OpenAI的Whisper（其開源語音識別系統）提供的逐字稿解決方案，以及來自其競爭者的解決方案。

由AI驅動的逐字稿解決方案也有其限制。如果用戶不了解這些限制，並將由AI生成的逐字稿視為事實，則可能面臨嚴重後果，包括操作混亂（即同事不知道拼錯的單字實際上是工作流程中必要的內容）到聲譽損害（即不正確的逐字稿創造失態，損害企業聲譽）。

由於有著這些風險，所有使用者也必須認識到以下的限制。

特殊的品牌命名方式

許多新創組織選擇自創非常規的的品牌名稱，例如重複相同的字母。這樣做的目的雖然是有其策略性的：可能是因為常見拼法的網域已經被使用，或者他們希望在搜尋結果中能出現對品牌有利的搜索結果。

這些情況對於由AI驅動的語音轉文字，可能有不好效果。例如，Motorola Mobility的智慧手機系列Razr可能會被錄製成為更常見的razor。如果Motorola Mobility要公開發布其影音的逐字稿，這個錯誤可能嚴重傷害到聲譽。批評者可能嘲笑Motorola Mobility未能正確拼寫自己的品牌名稱，即使錯的是因為使用工具不當。

對話中的插話時刻

一般的對話通常不會是很乾淨地只存在一種音檔，例如：一個人說完然後停下來，再給另一個人發言的機會。在自然對話過程中，人們會相互打斷，插嘴，並發表經常重疊的評論。

根據巴黎理工學院計算社會科學小組的說法，由GPT驅動的解決方案在處理這些插話時存在問題。它們往往會犯以下兩種錯誤之一：一是忽略次要對話的部分。二是按順序呈現對話，即使實際上並非如此，而這些可能會改變對話的真實意義。對於依賴這些工具進行全面性和準確性的業務來說，它們可能會在讓不容易被檢視的部分出現問題。

中英夾雜晶晶體 (code-switching)

年輕人可能不知道晶晶體，其實就是中英夾雜，常見於雙語或多語系的人在對話過程中自由切換常用語言的行為。新加坡的同事可能會用英語開始對話，然後在話題轉向更容易用該某些特定語言表達的概念時，再切換到中文。

根據研究報告，由GPT驅動之逐字稿轉錄在包含中英夾雜的音檔方面存在某些問題。例如，它可能僅記錄下存在於第一語言中的相似發音詞語，而不是準確地轉錄成應該要被轉錄的第二語言。這種無法正常運作的狀況，可能會使慣於切換語系的工作文化更難獲得準確的逐字稿。

語言的選擇會影響正確性

Whisper的訓練資料集包括超過680,000小時的音檔，因此能夠轉錄數十種不同的語言，包括從阿拉伯語和亞美尼亞語到越南語和威爾斯語的所有語言。

但並非所有語言支援的品質都相同，這歸因於不是所有語言在大量資料集中都有相同的包含性。菲律賓的官方語言塔加洛語是較少數人使用的語種，就受到了一些常見錯誤的影響，正如GBH和美國公共廣播檔案館的菲律賓採訪數據化項目中的評論。

他寫道：[錯誤包括]不必要地包含某些發言聲音，通常是輔助音和滑音，另外也像是：拼寫單詞的錯誤，將一個單字分成多個，以及將單獨的單字連接在一起。

那些期待這些服務提供更高品質逐字稿的企業可能會失望。因為他們可能不得不花費大量時間來更正這些錯誤，比起選擇一位以其母語為其語言的真人聽打逐字稿人員，可能需要耗費更多的時間。

特殊出錯案例

GPT也容易出現所謂的特殊故障案例。這類似於ChatGPT產生不真實事實的情況。對於特殊的故障案例可能會有：輸入語音時是清晰的短句，而產出卻跟音檔毫無關聯。

來自Analytics India Magazine的一些例子尤其誇張：音檔中的“seven(七)”變成文字時的“Damn it"(該死)而“Her jewelry shimmered (她的珠寶閃閃發光)則變成了“Hey, did you lose your mind" (嘿，你失去理智了嗎？)，這些錯誤完全跟原意不同。

消失的標點符號甚至錯位

在所有知識工作者中，記者可能是最常轉錄逐字稿的角色之一。他們必須訪問並將語音轉文字，以便撰寫故事。對於他們來說，轉錄逐字稿本質就需要耗費大量時間，正如記者詹姆斯·索默（James Sommer）在《紐約客》的描述。

他記錄了自己在逐字稿解決方案和服務方面的長期歷史，他也使用過以人工智慧驅動的解決方案Otter.AI。他指出，該解決方案在標點方面表現不佳。例如，在大多數人工聽打人員會放句號的地方，Ottter.AI的內容則是持續沒有斷點，像這樣的長句可能會激怒即使是那群最有耐心的英語教師。對於那些希望透過這個解決方案而更有效率的人來說，為了要能擁有正確的標點來幫助可讀性，使用這個方案反而可能造成反效果。

逐字稿可以不只是逐字稿

因為即使像GPT這樣的高科技工具仍然容易出現各種錯誤，企業應該超越僅僅考慮轉錄軟件。能夠成長的企業不應該單純要求員工去記錄會議上講了什麼，因為這是一種被動的舉動。

相反的，企業應該將語音轉文字視為能進一步協作的起點。要達成這樣的目標，前提是要能夠導入像Vocol.ai這樣的語音協作平台，他的平台始於語音轉文字，但最重要的是提供加值功能，他改善了單純逐字稿工具的現存問題。在Vocol.ai上，用戶可以共享轉逐字稿，閱讀AI自動生成的摘要，在適當的地方進行劃重點顯示，甚至生成待辦事項。這些功能將逐字稿從一次性行為轉變為後續處理工作的中心點：讓計劃不僅僅被制定，而是可以被實現。

要能充分利用 AI，你必須先理解GPT被應用在語音轉文字的幾種限制

特殊的品牌命名方式

對話中的插話時刻

中英夾雜晶晶體 (code-switching)

語言的選擇會影響正確性

特殊出錯案例

消失的標點符號甚至錯位

逐字稿可以不只是逐字稿

最新文章

Vocol.ai 的全方位指南

提高語音轉錄軟體準確性的八個要點

AI 人工智慧語音轉文字軟體比較：Vocol.ai vs 雅婷 vs Goodtape