
音檔優化
選出目標講者
上傳多人對話音檔,分辨並選出要建立聲線的目標講者。
支援 mp3、wav、m4a 等音訊;手機也可從相簿選 mp4、mov 等影片作為素材。 單檔請小於 50 MB。
建議上傳多人對話、訪談或 Podcast 片段;單次處理最長 120 秒。
分辨結果
處理完成後,可在此試聽各講者音軌。
適用情境
適合雙人 Podcast、訪談或多人輪流發言的對話,想從中保留其中一位的聲音。
請使用原始錄音,不建議使用人聲分離後的檔案。多人同時講話或有效發言極短的素材,效果可能有限,建議換段輪流發言較清楚的錄音。
和建立專屬聲線(Voice Clone)有什麼關係?
多人對話素材需先把目標講者的聲音獨立出來,模型才較能學到單一人聲。若分離後的個別音軌仍夾帶明顯 BGM 或環境噪音,可再個別做去除背景音。
常見問題
- 多人對話要先做講者分離,還是先去除背景音?
- 建議先做講者分離,且請使用原始錄音。分出各講者後,若個別音軌仍夾帶明顯 BGM 或環境噪音,再個別做去除背景音。單人錄音若主要是被背景音蓋過,則可直接做去除背景音。
- 支援哪些音訊或影片格式?單次可處理多長?
- 支援常見音訊(如 mp3、wav、m4a)與影片(如 mp4、mov,會擷取音軌處理)。單次最長 120 秒,單檔上限 50 MB;較長或過大的影片建議先剪短或轉成 mp3 再上傳。
- 可以用人聲分離後的檔案嗎?
- 不建議。請使用原始錄音上傳,以取得較穩定的講者分辨結果;若素材同時夾帶明顯 BGM,請先完成講者分離,再視需要對個別音軌做去除背景音。
- 適合 Podcast、訪談或多人對話嗎?
- 適合雙人 Podcast、訪談或輪流發言的多人對話。若多人同時講話、有效發言極短,或音量過小的段落,可能無法產生可試聽音檔,建議換段素材再試。
- 分出來的音檔可以拿去做 Voice Clone 嗎?
- 可以作為 Voice Clone 樣本的前處理步驟。仍須確保目標講者有足夠長、連續且清楚的發言;樣本品質與完整流程說明可參考音檔優化指南。