Sonusi 聲敘 logoSonusi 聲敘

教學指南

想做 Voice Clone,卻卡在樣本品質?

Voice Clone(建立專屬聲線)效果不自然、不像本人?問題通常不在模型,而在樣本品質。先優化音檔,再建立專屬聲線,成功率通常更高。

立即去除背景音選出目標講者即將推出

這些素材都能先處理,再送去 Voice Clone

  • 帶 BGM 的影片與音檔
  • 訪談多人對話
  • 手機錄影環境音雜亂
  • 有效發言太短

兩步流程

兩步音檔優化,為什麼能拉高 Voice Clone 成功率

帶 BGM 或多人講話的樣本直接送去 Voice Clone,模型容易學到多餘的聲音。先做以下兩步,讓樣本盡量只剩清楚、單一的目標人聲,成品聽感通常會好一截。

  1. 1

    去除背景音

    削弱襯底音樂或伴奏,讓模型較能聽清說話的人聲,而不是把 BGM 一起學進音色裡。

    什麼時候需要

    • 樣本帶 BGM 或伴奏,人聲聽起來被蓋過
    • 手邊只有帶音樂的 Podcast、訪談或影片音軌
  2. 2

    選出目標講者

    從多人對話中分辨並選出目標講者,避免其他人的聲音混進樣本,讓模型學到更純的單一人聲。

    什麼時候需要

    • 雙人 Podcast、對談節目,需要只保留其中一位的聲音
    • 訪談音軌裡多人輪流發言,想挑出要建立聲線的那一位

兩步依素材狀況選做,不必每次都全做;重點是送去 Voice Clone 前,樣本已盡量以目標人聲為主。

環境雜音為主或多人同時說話的錄音,建議換段乾淨、單人素材再試。

常見問題

帶 BGM 的影片或 Podcast,可以做 Voice Clone 嗎?

可以,但建議先處理樣本品質。Reels、Shorts、YouTube 影片音軌或帶伴奏的 Podcast,通常需先做音檔優化(例如去除背景音),讓人聲更清楚,再挑連續、單人的片段作為樣本。可先用短段試聽效果,確認人聲夠清楚再進一步評估。

訪談或多人對話的錄音,可以做 Voice Clone 嗎?

可以嘗試,但需先把目標講者的聲音獨立出來。多人輪流發言的素材,建議透過選出目標講者(音檔優化步驟之一)挑出要建立聲線的那一位,避免其他人的聲音混進樣本;若同時夾帶明顯 BGM,也可能需先做去除背景音。

Voice Clone 需要準備多長的錄音?

有效發言越完整、連續越好。若目標講者只有極短幾句,即使做完前處理,仍難支撐穩定的專屬聲線;宜準備較完整、輪流發言清楚的單人片段。