AD

2017年7月16日星期日

Google最新研究:讓機器像人一樣“拍出”完美照片

機器學習(ML)在許多目標明確的領域有優秀的表現。具有明確正誤答案區分的任務將有助於訓練,而且能讓算法實現預設的目標,比如準確地從圖像中識別物體,或者合理的將語言進行翻譯。然而,也有許多領域的任務是很難客觀評價的,在諸如評價一張照片美麗與否這種太主觀的問題上時——這與每個人的審美有關,就不太適合用機器學習來解決了。

圖:賈斯珀國家公園的一張專業攝影照

為了研究機器學習是如何學習主觀概念的,Google針對藝術性的創作引入了一種試驗性的深度學習係統。這個係統會模仿專業攝影師來展開工作。它的工作流程如下:從穀歌街景中瀏覽景觀圖,分析出最佳的構圖,然後進行各種後期處理,從而創造出一幅賞心悅目的圖像。

這位虛擬攝影師通過瀏覽阿爾卑斯山、加拿大的班夫及賈斯珀國家公園、加州Big Sur和黃石國家公園等地的4萬張全景照片,創作了許多令人印象深刻的作品,其中一些甚至達到了專業水準——專業攝影師如此評價到。

訓練模型

雖然照片中的美感可以用類似AVA係統中的數據集來模擬,但是就這麼直接的用AVA係統來處理照片,可能會在美感上有部分方麵的缺失,比如做出的照片過飽和。再者,如果想通過監督學習適當地從多個方麵來學習美感,所需的標簽數據集會很難收集,所以這也不是一個好方法。

他們的方法隻需要一些高質量的照片,不需要後期前後圖像的對比或額外的標簽。這個係統能自動將照片中的美感解析成不同方麵,每一方麵都能通過相反的圖像操作產生的負麵例子來單獨學習。

通過使圖像處理半正交化,可以找到快速和獨立的最優化步驟,從構圖、飽和度/HDR水平和明暗的張力上對圖像進行美化:

圖:圖(a)是全景圖,圖(b)將圖(a)進行裁切,圖(c)是對圖(b)進行飽和度和HDR優化處理,圖(d)是應用戲劇張力蒙版之後的效果。

他們用傳統的圖像濾波器生成了包括飽和度、HDR細節和構圖的負麵例子,還引入了一種名為戲劇張力蒙版(dramatic mask)的特殊操作,它是在學習明暗張力概念的過程中一同產生的。

這些負麵例子是這樣生成的:應用一組圖像濾波器,隨機地調整高質量照片的亮度,將圖片的質量變差。在訓練中,他們使用生成對抗網絡(GAN),在這種模式下,生成網絡會創建一個蒙版來改善負麵例子中的光線,判別網絡則試圖將光線改善後的照片與樣本照片進行區分。

與vignette這樣的固定形狀濾波器(shape-fixed filter)不同,戲劇張力蒙版增加了內容感知亮度調節部分。GAN訓練天然的競爭性極大地豐富了調節圖像特性的能力,在論文中可以看到更多的訓練細節。

結果

下麵是這種係統基於Google街景的一些創作。如下圖所示,經過訓練後能夠判斷美感的濾波器創造出了一些讓人驚歎的照片(包括文中最初出現的照片):

圖:加拿大,賈斯珀國家公園

圖:瑞士,茵特拉肯

圖:意大利,Parco delle Orobie Bergamasche公園

圖:加拿大,賈斯珀國家公園

專業評估

為了評價這個算法的效果如何,他們設計了一個類"圖靈測試"實驗:將這個係統創作出來的照片和其他不同質量的照片摻雜在一起,然後把它們展示給幾個專業攝影師。他們要求這些攝影師為每張照片評分,分數是基於如下標準:

1分:傻瓜式拍照,照片沒有考慮構圖以及光線等因素。

2分:沒有攝影基礎的一般大眾拍出來的照片,看起來還可以,但沒有明顯的藝術感。

3分:半專業。照片中展示出了明顯的藝術感,攝影師正朝著專業攝影師邁進。

4分:專業。

在下麵的圖表中,曲線顯示了專業攝影師為已經預估分數的圖片打的分數。對於他們預估的高分圖片,大約有40%收到了"半專業"或"專業"的評價。

未來的研究

街道全景圖為這個項目提供了一個測試平台。有一天,這種技術甚至可以幫助我們現實世界中拍出更好看的照片。

via:Google Research Blog

相關文章

没有评论:

发表评论