AD

2017年9月22日星期五

偽造視頻連口型都能對上:“語音對口型”AI出世

北京時間7月13日早間消息,研究人員開發了一種機器學習算法,可以將聲音片段變成能口型一致的視頻內容。研究人員展示的這段視頻顯示了美國前總統巴拉克·奧巴馬(Barack Obama)談論恐怖主義等多個話題的場景,但這實際上卻是使用現有的視頻演講人工生成的片段。來自華盛頓大學的研究人員相信,該係統可以最終用於改進視頻通話,甚至確定某段視頻的真偽。

fake_obamas.0.gif

該係統對神經網絡進行訓練,使之學會觀看人類講話的視頻,然後將音頻文件轉化成真實的口型。之後再將其嫁接到視頻中的人臉上。為了實現這一目標,他們將該校圖形實驗室之前的研究成果,與最新的口型合成技術結合起來。

該技術還可以實現小幅時移,從而讓神經網絡預測說話者接下來所要表達的內容。該團隊之所以選擇奧巴馬,是因為這套係統需要14小時的視頻進行學習,而作為全世界上鏡率最高的人之一,奧巴馬顯然是最佳人選。

"Skype或Messenger這樣的視頻聊天工具未來可以讓任何人收集視頻,然後對電腦進行訓練。"華盛頓大學的伊拉·開梅爾馬切-什利澤曼(Ira Kemelmacher-Shlizerman)說。

由於通過互聯網傳輸音頻所需的帶寬遠低於視頻,所以這套新係統或許可以終結故障頻頻的視頻聊天。

"當你使用Skype或Google Hangouts聊天時,會發現連接不太順暢,分辨率也很低,這令人很不高興,但音頻往往很好。"該論文的聯合作者、艾倫學院教授史蒂夫·賽茨(Steve Seitz)說,"所以,如果可以使用音頻生成更高質量的視頻,那就太好了。"

之前的音頻轉視頻技術重點是錄製多個人反複說同一句話的視頻,然後嚐試捕捉聲音與不同口型之間的相關性。但這一過程成本高昂,而且非常耗時。

通過將這一過程調轉過來——將視頻提供給網絡,而不僅僅是音頻——該團隊可能開發各種算法來判斷一段視頻的真偽。然而,這種神經網絡目前隻能一次學習一個人。

"你不能隨便找個人就把它的聲音轉化成奧巴馬的視頻。"賽茨說,"我們對此非常謹慎,不希望從某個人嘴裏說出其他人的話。我們隻是把某人說過的話變成此人的視頻。"

未來,該算法或許隻需要使用1個小時的視頻就能識別某人的聲音和說話模式,而不必非要14小時的資料。

相關文章
中國科學家開發出生理鹽水"驅動"的可植入柔性電池2017年08月13日
由食用油製成的聚合物可以吸收汞汙染2017年08月12日
科學家發現史前哺乳動物南非麝足獸長相怪異的原因:喜歡用頭部撞擊對手2017年08月12日
新喀裏多尼亞島上的龜頭海蛇進化成純黑色 以去除體內汙染物2017年08月12日
哈勃望遠鏡拍攝小型星係NGC 5949壯麗照片2017年08月12日
"好奇號"五歲了 可它再沒唱過《生日快樂》2017年08月11日
俄羅斯的反射鏡衛星未能成功部署反射鏡2017年08月11日
最原始的滑翔哺乳動物露真容,化石就保存在北京2017年08月11日
世界首批對器官移植無"毒"活豬誕生2017年08月11日
新型HPV疫苗可以預防大約93%的宮頸癌2017年08月11日

没有评论:

发表评论