Tech & News Come Along with You: 新係統能根據音頻剪輯創建與演講者對口型的視頻

此前已經有一家創業公司推出語音合成服務，通過對60秒語音文檔的部分信息進行篩選采集，隨後進行重組，最後可以變成任何人的聲音。現在華盛頓大學的研究人員已經創建了一個將音頻剪輯轉換成與演講者對口型的視頻的係統。

為了使這個係統工作，需要分析大約14個小時的現場演講視頻- 研究人員希望能夠顯著減少這個數字，也許減少至一個小時。隨後他們利用神經網絡進行改進。當係統被提供包括演講人員的"目標視頻"（他們可以在其中談論任何東西）時，連同他們的音頻文件說出所需的單詞，它將兩者組合在一起。它可以通過放棄視頻的原始音頻，將其替換為所需的音頻，並將計算機模擬版本的演講者的口型加入到視頻中。最終的結果是，人們聽到他們說出所需要的話，而且看起來也是這樣。

助理教授 Ira Kemelmacher-Shlizerman表示："現實的音頻-視頻轉換具有實際應用，例如會議的改進視頻會議，以及能夠通過從音頻創建視覺來與虛擬現實中的曆史人物進行對話等。這是一種有助於實現下一步措施的突破。"

Tech & News Come Along with You

AD

2017年9月20日星期三

新係統能根據音頻剪輯創建與演講者對口型的視頻

没有评论:

发表评论