
鑒於數據、計算力、算法等諸多門檻,自神經機器翻譯(NMT)產品化以來,在很大程度上便是互聯網巨頭們的競技場。如今,又一個新的挑戰者高調加入進來,直接把矛頭指向堪稱行業技術標杆的穀歌、微軟以及 Facebook。上周,來自德國的 DeepL 翻譯上線,號稱實現了 NMT 技術的新突破,打造出了"世界上最精確、語言組織最自然的機器翻譯係統";並宣布在自家組織的盲測中,打敗了穀歌翻譯以及微軟與 Facebook 的 NMT 係統,釁意十足。
![]()
目前,DeepL 翻譯已支持英德法西等 42 門歐洲語言,正在對漢、日、俄等語言進行訓練,並計劃在將來發布一款 API,讓開發者能夠將 DeepL 翻譯整合入其應用中。
公司前身
首先要說,這家公司的來曆並不簡單。
公司的前身是運營已近十年的在線外語詞典 Linguee,DeepL 翻譯也完全由 Linguee 團隊打造。Linguee 在國內沒什麼存在感,至於在海外……有穀歌翻譯專美於前,存在感也不是很高,但還是有一批認可它的用戶。
![]()
Linguee 的英漢、漢英詞典界麵
不過,Linguee 的成敗現在已經不重要,畢竟都換馬甲了——Linguee 在今年正式更名 DeepL,以"Deep"提醒 VC 自己是一家正兒八經的深度學習公司。
真正重要的是 Linguee 的技術積累。Linguee 由前穀歌翻譯研究員 Gereon Frahling 在 2007 年離職開發,2009 年正式上線。Linguee 的核心優勢是它的爬蟲和機器學習係統,前者抓取互聯網上的雙語對照翻譯,後者對這些翻譯的質量進行評估。兩者結合,使 Linguee 成為了當時"世界上首個翻譯搜索引擎"。十年積累,Linguee 無論在數據和對算法的研究上都不可小覷。
![]()
去年在倫敦 Noah 上演講的 Gereon Frahling
一年前,其研究團隊著手欲實現一個新目標:利用在機器翻譯領域的多年專業積累,打造一套業內最先進的 NMT 係統。這便是 8 月 29 日上線的 DeepL 翻譯。
三大優勢
既然底子厚實,我們來看看這些積累給 DeepL 帶來了哪些資源優勢。以下信息均是 DeepL 一家之言,尚無第三方背書,大家需自行判斷其含金量。
數據
Linguee 的數據集有逾十億組對照翻譯語句,號稱是世界上最大的人工翻譯數據集。 Linguee 能隨時搜索近似翻譯結果。
計算力
DeepL 在冰島搭建了一台超算,號稱在全球 HPC 中性能排名第 23 位,浮點運算能力達到 5.1 petaFLOPS。因而能實現令 DeepL 十分自豪的計算速度:每秒處理百萬量級的詞語翻譯。
算法
采用 CNN 而不是 NMT 產品通用的 RNN。DeepL 宣稱其技術積累使得它能夠克服 CNN 的主要短板,因而能實現比基於 RNN 的競品算法更精確、自然的翻譯結果。
效果展示
DeepL 宣稱其翻譯係統的表現打敗了穀歌翻譯以及微軟、Facebook 的 NMT 係統, 是基於兩個指標:盲測反饋和 BLEU 分數。
盲測
DeepL 邀請了職業翻譯者,對 DeepL 翻譯、穀歌翻譯、微軟翻譯以及 Facebook 的 NMT 係統進行了盲測,要求測試者選出所認為的最好的翻譯結果。測試語言為三組,分別是英德、英法、英西互譯,樣本為 100 個句子。DeepL 並未公布每組參與測試的職業譯者數量。測試結果如下:
![]()
如圖所示,在每一門測試中,選擇 DeepL 的測試者都最多。 DeepL 在英譯德、英譯法、英譯西的優勢尤其明顯。其官方統計是:選擇 DeepL 為最佳翻譯結果的次數,與選擇另外三家 NMT 服務的平均比例為 3:1 。
BLEU
BLEU 是業內評估機器翻譯質量最常用的打分算法,其得分被認為與人類的評判結果具有較大相關性。
DeepL 宣布,其英譯德、英譯法的 BLEU 得分超過了所有已發表的 NMT 研究,包括穀歌 Transformer。結果如下:
![]()
如圖,在英譯法項目上,DeepL 的 BLEU 分數超過次優方案約 3.5%。
業內觀點
踏入江湖的第一日,DeepL 就自封"天下第一"。業內同行對此怎麼看?
對此,雷鋒網谘詢了搜狗語音交互中心總監陳偉、商鵲網 CEO 鄒劍宇,以及 Facebook 機器學習工程師王楊。需要說明的是,三位老師均表示:由於缺乏關於 DeepL 算法、數據庫的第一手資料,也沒有來自第三方的信息,無法對其翻譯水平做出客觀判斷。商鵲網的 CEO 鄒劍宇評論道:"從相關報道中,對算法的描述並不詳細,沒有論文披露細節,所以並不好理解。"
因此,以下僅為這四位看到 DeepL 宣傳信息後的一些個人看法。
一、
在 Facebook從事應用機器學習的工程師王楊,聽到這件事的第一反應是懷疑——單是同時勝過穀歌翻譯和Facebook NMT這一點,不拿出有足夠說服力的證據就難以取信於人。穀歌的NMT 積累深厚,Facebook的NMT也在快速發展。一個新的產品想要如其所宣傳的那樣實現大幅超越,很難。
若 DeepL 確實在技術上實現了突破,那麼不排除他們有全新的多語種(multilingual)模型。
至於 DeepL 的算法模型基於 CNN 而不是 RNN,王楊表示"這從側麵支持了 Facebook 的研究"。FAIR(Facebook AI Research)一直認為 CNN 在機器翻譯上的潛力遠遠大過 RNN,尤其是計算速度,這也是 Facebook 在 NMT 領域的主要研究方向之一。
二、
搜狗語音交互中心總監陳偉,他們機器翻譯團隊剛剛在 WMT 2017評測中獲得中英、英中兩個翻譯方向的第一名,他認為數據對 DeepL 的貢獻可能遠大過其它因素。而 Linguee 的數據爬取和積累,是一項不小的優勢。
陳偉評論道:
"從 BLEU 對比看,提升的比較明顯,感覺他們十億量級的高質量數據對效果幫助比較大。實測大家都覺得好,這至少說明它數據的全麵性還是夠的。"
據一位德語專業的譯員說,DeepL 德英互譯的體驗確實不錯,這絲毫不意外——作為一家德國公司,順理成章的,DeepL 重點關注的是德英、法英這些語種的翻譯。這為 DeepL 在這幾門語種的數據積累也提供了一定的聚焦和便利。
DeepL 公布的盲測、BLEU 評分,衡量的均是德、法、西這三門歐洲語言與英語之間的互譯。
在算法方麵,陳偉表示:
"沒看到他們技術的詳細介紹,隻了解到使用了 CNN 而沒有使用 RNN,但是我感覺架構變動不會太大,應該類似於 Facebook 的 convs2s。
他並不認可"CNN 是神經機器翻譯未來"的說法:
在搜狗的實驗對比中,"RNN-NMT、CNN-NMT 和穀歌的 Transformer 框架。三個技術我們都認真研究和優化過,目前 Transformer 框架已經在搜狗翻譯係統上線,從機器評分和人工評測來看,都領先主要競品,較RNN-NMT、CNN-NMT提升也比較明顯。
業內也沒有一致觀點認為 CNN 是 NMT 的未來。我覺得技術方案無論是 CNN、RNN、Transformer 都沒做到極致,目前主流技術框架到底是什麼沒有定論,算法細節的打磨和多種技術的融合會是未來發展趨勢,另外數據量會是各家公司的技術壁壘。"
最後,陳偉總結,根據 DeepL 公布的報告,目前的評測存在三個地方導致難以評估其技術:
人工評測的測試數據量僅有 100 句,而一般人工評測或者 BLEU 評測會采用幾千句的數量。
DeepL對比其他家並沒有使用相同的訓練數據集,因此性能無法很好評估。
更多的技術細節沒有公布,很難把握具體的情況。
三、
商鵲網 CEO 鄒劍宇十分認同數據和計算資源對 NMT 產品的重要性:
"報道說其訓練引擎是基於一台冰島超級計算機,可以說深度學習真的很需要計算力。Linguee 本身是一個不錯的語料庫公司,數據積累有自己的特點,這應該是其引擎優秀表現的一個基礎。
對於引擎的評測,Linguee引擎的盲測很好,BLEU 值超過其他引擎最優質 3 個百分點(行業通識是,2 個 BLEU 值的提高就可以稱作'顯著')。"
對於 BLEU 值究竟能在多大程度上客觀反映翻譯質量,鄒劍宇強調,需要合理看待其參考價值,不可把它等同於普通人麵對翻譯結果的直觀體驗:
"翻譯評測有三類對象:科研人員,譯員和普通閱讀用戶,三者評測的目標和方法不一致。BLEU 是一個科研環境的評測參數,和人的閱讀體驗感受有很大的不同,不可以同類而論。"
他最後忍不住拿自家產品做對比,表示商鵲網的新引擎甚至達到了比穀歌翻譯高出 6 個百分點的 BLEU 值。
號稱打敗穀歌翻譯的 Deepl 究竟靠不靠譜?的最新相關 …號稱打敗穀歌翻譯的 DeepL 究竟靠不靠譜?鑒於數據、計算力、算法等諸多門檻,自神經機器翻譯(NMT)產品化以來,在很大程度上便是互聯網巨頭們的競技場。如今,又一個新的挑戰者高調加入進來,直接把矛頭指向堪稱行業技術標杆的穀歌、微軟以及 Facebook。上周,來自德國的 DeepL 翻譯上線,號稱 ...
相關文章
没有评论:
发表评论