日常中大家常看的、常聽到的影片或 Podcast 都是以真人錄音、剪輯後製作而成的,在製作上會耗費不少人力與時間,現在製作影片有更方便的工具了!AI 能幫你把文稿轉成自然的人聲,唸出來就像真人一樣!本篇塔塔就要來教大家怎麼用 AI 配音,並推薦免費又好用的工具給你!
什麼是 AI 配音?
其實 AI 配音的技術就是使用文字轉語音(Text-To-Speech,TTS)技術,顧名思義就是將一般的語言文字轉換成語音,AI 系統透過分析文字,並融合語調、重點以及說話的節奏,將輸入的文字轉換成聽起來較為自然的合成語音後進行輸出,這項技術被應用在我們的日常當中,例如語音助理、語音導航,現在也可以被運用在內容創作上。
我要怎麼挑文字轉語音工具?
挑選文字轉語音工具有以下幾個要點,掌握這些訣竅大家就能更快速的找到服自己需求的工具了:
- 是否支援中文?
有些工具所支援的語言可能沒有我們所要用的語言,例如有些文字轉語音的工具只支援轉換成英文語音,如果目標語音是要使用其他語言的話,那麼這個工具就不符合我們的需求了,大家在挑選的時候要注意喔! - 想要什麼樣的 AI 語音功能?
在找工具之前可以先確定自己想要使用的是貼近真實的人聲,還是帶有 AI 感的語音,可選擇的人聲、風格數量多寡、夠不夠自然,這都是在選擇文字轉語音工具時需要考量的要素之一。 - 轉換速度
如果想縮短整體創作的時長以及提升效率的話,轉換速度絕對是一大考量,如果今天這款工具轉換的速度比起其他的工具來說更慢,那相對的優先度就會降低許多,建議大家在真正放入完整文本之前,先使用一段中等長度的文本測試,轉換速度可以接受再將所有的文本都投入轉換。 - 字數轉換限制
如果今天要轉換的文本是超長的類型,但是文字轉換語音的工具可轉換的字數無法一次容納那麼多,這樣就會出現需要多花一點時間分批、分段的轉換成語音了,所以在轉換之前先確認自己的文本字數、長度,再來選擇適合的工具才會更加事半功倍喔! - 是否可以調整音高、語速?
文字轉語音可不只是系統轉出來就好了!因為如果無法調整音高或語速的話,講話速度太快,太過平淡,是會讓人家聽不懂又提不起興趣的喔!這些細節都是必須要由創作者去掌握、調整設計的。
5 款免費文字轉語音工具推薦!
推薦 1. FlexClip
FlexClip 除了是一個影片剪輯軟體,也提供了影片製作的相關 AI 功能,AI 文字轉語音功能便是其中一項,支援中文介面以及多國語言,其中也包含中文語音模型,中文語言模型還能再細分地區口音,在台灣的語音模型中,提供了三種語音選項。
FlexClip 每個月提供 1000 個可轉換字元,可以自由調整語速以及音高,以台灣腔調的中文模型來說,可選擇的聲音有 3 種,分別是「曉臻」、「曉雨」(女聲)與「雲哲」(男聲),在說話風格方面比較可惜,只有單一選項可使用,如果需要轉換的文本是中長文本的話,建議可以利用不同帳號登入來使用,不然其實 1000 個字元很快就會用完了。
▼ FlexClip 操作介面
▼ 生成語音參考
整體來說,FlexClip 支援中文介面,支援多國語言,且能生成中文語音,操作介面簡單直覺,不過可惜的是能使用的聲音數量並不多,加上講話的風格只有通用的可以選擇,聽久了會覺得有點無聊,且每月可轉換的字元數較少,如果是有大量文本轉換需求的話,可能要多辦一點帳號用了。
▉ FlexClip 優缺點分析
- 優點
- 支援中文介面,多國語言可選擇
- 介面、操作簡單
- 可調整語速、音高
- 輸出僅有人聲,無背景音樂
- 缺點
- 每月僅有 1000 字元數可生成
- 可選擇聲音與風格數量較少
- 男聲聽起來機械感較重
- 輸出聲音會同影片一起輸出
- 網站連結 ▶▶ FlexClip AI 文字轉語音
推薦 2. ATEN 優聲學
這款 AI 配音工具中的配音模型當中,除了一般會使用到的中文以及英文以外,還可以使用台語進行配音!超特別的!只不過現在台語配音模型還在測試階段,所以有機率會遇到 Bug,男女聲的語音表現很自然,很貼近台灣人的口音,雖然在某些地方還是可以聽出機器感,但是不會有奇怪的停頓點或換氣點,基本上就跟聽真人的聲音差不多。
ATEN 優聲學提供近 20 種的語音模型使用,操作介面簡單明瞭,使用者可以自由調整音量、語速以及語調,並且可以設定多音字、自訂停頓點,想確認語速、音調等設定是不是符合自己的要求,可以選擇部分的文字進行局部試聽,不用擔心來回測試占用免費額度!
▼ ATEN 優聲學操作介面
▼ 生成語音參考
▼ 台語生成語音參考
ATEN 優聲學完整功能是需要付費訂閱的,但也是有提供免費試用版本的喔!免費試用方案每月提供 2500 字的合成量,每次最多合成 250 字,最多能合成 10 次的 AI 語音,一個月最多只能下載 3 次合成好的 AI 語音,並且會有音樂浮水印,不過他們的 AI 語音自然,而且可以生成較為困難的台語語音,也是值得一試的 AI 配音軟體!
▉ ATEN 優聲學優缺點分析
- 優點
- 支援中文介面,可合成台語語音
- 中文語音貼近台灣腔調,自然度高
- 可設定多音字、自訂停頓點
- 能自由調整語速、音量以及語調
- 可進行局部試聽
- 缺點
- 每次可轉換字數僅有 250 字元
- 每月可下載的語音數量僅有 3 則
- 免費版本下載人聲有音樂浮水印
- 台語語音發音略為僵硬
- 中英夾雜的敘述中,英文發音 AI 感較明顯
- 網站連結 ▶▶ ATEN 優聲學
推薦 3. 雅婷文字轉語音
有用過雅婷逐字稿的一定對這個名字不陌生!雅婷文字轉語音也是由台灣團隊 AI Labs.tw 所推出,目前可使用的語音模型只有三種,包含兩種女聲與一種男聲,三種人聲都是最熟悉的台灣人口音,語音聽起來自然且流暢。
在雅婷文字轉語音當中,有三種語音模型,分別是雅婷、意晴以及家豪,中文發音自然的,就像日常中會聽到的台灣人講話的腔調,支援生成中文及英文語音,只是可惜的是它的聲音模型數量少,也沒辦法自行調整語速等項目,而每次能轉換的字數最多 300 個字元,語音合成次數以及下載數量則沒有限制。
▼ 雅婷文字轉語音操作介面
▼ 生成語音參考
雅婷文字轉語音的功能相較於其他的文字轉語音工具來說,稍微簡單了點,雖然有轉換字數的限制,但是沒有語音轉換數量以及下載數量的限制,即便是需要轉換中長文稿也可以,只是將文稿分批放進去會比較麻煩一點,如果在尋找沒有使用限制的工具的話,雅婷文字轉語音也許可以成為你的選項之一喔!
▉ 雅婷文字轉語音優缺點分析
- 優點
- 支援中文介面,可生成中英語音
- 中文發音貼近台灣人日常腔調,自然度佳
- 無生成次數、下載數量限制
- 操作介面簡單
- 缺點
- 聲音模型可選擇性較少
- 無法調整語速、語調與音量
- 中英夾雜時,英文發音較有 AI 感
- 轉換速度較慢
- 網站連結 ▶▶ 雅婷文字轉語音
推薦 4. TTSMAKER
TTSMAKER 提供多種聲音模型以及風格給用戶選擇,支援中文介面以及生成中文語音,但是 TTSMAKER 的中文語音多是帶有中國口音的中文,較少台灣腔調的語音模型,目前塔塔所找到的台灣語音模型大概只有兩三種,基本上聽起來與台灣人的口音相似,沒有出現標示台灣腔調卻出現中國口音的問題。
TTSMAKER 提供多種語言的語音合成,每周提供 20,000 個字元進行轉換,每次的轉換字數會根據使用者選擇的模型,而有不同的字數限制,使用者可以選擇是否需要加入背景音樂,調整檔案下載格式、音檔的音質,語速、音高、音量以及停頓時間也都可以,自由度非常高。
▼ TTSMAKER 操作介面與進階設定
▼ 生成語音參考
TTSMAKER 大多數的模型單次轉換限制字數大約落在 1000 個字元左右,沒有下載數量限制,可進行局部試聽,不會耗費免費額度,也有提供沒有字數限制的模型,只是這類模型的語音聽起來顆粒感以及機器感較重,沒有那麼自然,如果沒有大量的轉換需求的話,可以嘗試看看這一款工具。
▉ TTSMAKER 優缺點分析
- 優點
- 支援中文介面,可生成中文語音
- 提供多種模型、風格
- 無下載限制
- 可調節選項多,自由度高
- 語音可商用
- 缺點
- 中文語音多為中國腔調
- 台灣腔調可用語音模型較少
- 部分模型可轉換字數僅有 200 字
- 模型雖多,但聽起來無明顯差異
- 無字數轉換的模型,語音聽起來機器感較重
- 網站連結 ▶▶ TTSMAKER
推薦 5. narakeet
不想要一直複製貼上嗎?這款工具或許可以成為你的新選項!narakeet 支援上傳純文字文件,使用者可以上傳副檔名為 「.txt」、「.docx 或 .doc」、「.xlsx 或 .xls」 以及 PDF 等檔案,只要大小不超過 10 MB,基本上都是可以順利使用的喔!而 narakeet 雖然不支援中文介面,但還是可以生成台灣腔調的中文語音。
narakeet 提供多種語言選項,可使用的聲音風格也會隨著選擇不同的語音模型而有不同的選項,像是塔塔選擇了台灣國語,可選擇的聲音選項共有 6 種,點選旁邊的播放鍵可以先試聽聲音;使用者也可以自行調整音訊的聲音大小以及語速,相較可惜的是無法調整音調,檔案下載格式與輸出類型則可以自由調整。
▼ 點選播放鍵旁的圖示(紅框處)即可叫出進階選項
▼ 生成語音參考
narakeet 字數轉換並沒有限制,但是在轉換次數上有一定限制,免費用戶最多能建立 20 則語音,超過了就無法使用,要花錢訂閱才能繼續使用,如果不會覺得麻煩的話也可以使用多個帳戶交替使用,上傳文件這個功能非常好用,這樣就不用再把文字一段一段的複製貼上了,可以節省不少時間。
▉ narakeet 優缺點分析
- 優點
- 可生成中文語音
- 可調整音量、語速、輸出格式
- 支援上傳純文字文件
- 無轉換字數限制
- 語音流暢度佳
- 缺點
- 不支援中文介面
- 可選擇語音風格較少
- 無法調整音調
- 有轉換次數限制
- 轉換速度較慢
總結、推薦使用哪款?
使用以上這 5 款文字轉語音工具後,塔塔個人比較喜歡使用 TTSMAKER 以及 ATEN 優聲學,TTSMAKER 可以自由調整的選項較多,自由度相對高,且每周提供 20,000 個轉換字數,對於塔塔日常的使用量來說還算足夠;而 ATEN 優聲學則是因為它的語音流暢度非常好,不用擔心系統念錯多音字,還有局部試聽功能,不用擔心占用免費額度。
如果一次看完這麼多工具,資訊量太大無法選擇的話,塔塔建議大家可以從「文本長度」以及「流暢度」這兩點來做選擇;如果你使用的文稿是中長篇的話,那塔塔會建議使用「TTSMAKER」或「narakeet」,這兩者的轉換限制較寬鬆,後者還支援上傳純文字文件;如果想要找語音流暢度好、自然度高的話,可以選擇「雅婷文字轉語音」或是「ATEN 優聲學」,這兩項工具的語音自然度相對高,不會有奇怪的停頓點,發音也沒顆粒感。
首圖來源:AI 生成