行 · 專案

AI 短劇產線・一句話到成片 營運中

從一句話到一支有旁白、有字幕的短片,中間是五段接起來的產線:

  1. 生圖——文字生成分鏡圖
  2. 轉影片——圖生影片(I2V),單段上限約 15 秒
  3. 配音——中文神經語音,或用 GPT-SoVITS 克隆我自己的聲音;字幕檔同步產出
  4. 對嘴——MuseTalk 讓真人臉型影片跟著旁白動嘴
  5. 組裝——ffmpeg 上字幕、接轉場、縫成片

每一段都是獨立工具,壞了哪段換哪段。三十秒以上的影片靠多段拼接——沒有一步登天的生成,只有縫得好不好看的工。

做完的體會:工具鏈會一直換,但「分鏡怎麼切、哪一秒該停」這種判斷,目前還是人的。

生成式影像語音克隆ffmpeg

← 回工作檯