北京時間7月13日早間消息,研究人員開發了一種機器學習算法,可以將聲音片段變成能口型一致的視頻內容。研究人員展示的這段視頻顯示了美國前總統巴拉克·奧巴馬(Barack Obama)談論恐怖主義等多個話題的場景,但這實際上卻是使用現有的視頻演講人工生成的片段。來自華盛頓大學的研究人員相信,該係統可以最終用於改進視頻通話,甚至確定某段視頻的真偽。
該係統對神經網絡進行訓練,使之學會觀看人類講話的視頻,然後將音頻文件轉化成真實的口型。之後再將其嫁接到視頻中的人臉上。為了實現這一目標,他們將該校圖形實驗室之前的研究成果,與最新的口型合成技術結合起來。
該技術還可以實現小幅時移,從而讓神經網絡預測說話者接下來所要表達的內容。該團隊之所以選擇奧巴馬,是因為這套係統需要14小時的視頻進行學習,而作為全世界上鏡率最高的人之一,奧巴馬顯然是最佳人選。
"Skype或Messenger這樣的視頻聊天工具未來可以讓任何人收集視頻,然後對電腦進行訓練。"華盛頓大學的伊拉·開梅爾馬切-什利澤曼(Ira Kemelmacher-Shlizerman)說。
由於通過互聯網傳輸音頻所需的帶寬遠低於視頻,所以這套新係統或許可以終結故障頻頻的視頻聊天。
"當你使用Skype或Google Hangouts聊天時,會發現連接不太順暢,分辨率也很低,這令人很不高興,但音頻往往很好。"該論文的聯合作者、艾倫學院教授史蒂夫·賽茨(Steve Seitz)說,"所以,如果可以使用音頻生成更高質量的視頻,那就太好了。"
之前的音頻轉視頻技術重點是錄製多個人反複說同一句話的視頻,然後嚐試捕捉聲音與不同口型之間的相關性。但這一過程成本高昂,而且非常耗時。
通過將這一過程調轉過來——將視頻提供給網絡,而不僅僅是音頻——該團隊可能開發各種算法來判斷一段視頻的真偽。然而,這種神經網絡目前隻能一次學習一個人。
"你不能隨便找個人就把它的聲音轉化成奧巴馬的視頻。"賽茨說,"我們對此非常謹慎,不希望從某個人嘴裏說出其他人的話。我們隻是把某人說過的話變成此人的視頻。"
未來,該算法或許隻需要使用1個小時的視頻就能識別某人的聲音和說話模式,而不必非要14小時的資料。
相關文章
没有评论:
发表评论