Tech & News Come Along with You: 號稱打敗穀歌翻譯的 DeepL 究竟靠不靠譜？

鑒於數據、計算力、算法等諸多門檻，自神經機器翻譯（NMT）產品化以來，在很大程度上便是互聯網巨頭們的競技場。如今，又一個新的挑戰者高調加入進來，直接把矛頭指向堪稱行業技術標杆的穀歌、微軟以及 Facebook。上周，來自德國的 DeepL 翻譯上線，號稱實現了 NMT 技術的新突破，打造出了"世界上最精確、語言組織最自然的機器翻譯係統"；並宣布在自家組織的盲測中，打敗了穀歌翻譯以及微軟與 Facebook 的 NMT 係統，釁意十足。

目前，DeepL 翻譯已支持英德法西等 42 門歐洲語言，正在對漢、日、俄等語言進行訓練，並計劃在將來發布一款 API，讓開發者能夠將 DeepL 翻譯整合入其應用中。

公司前身

首先要說，這家公司的來曆並不簡單。

公司的前身是運營已近十年的在線外語詞典 Linguee，DeepL 翻譯也完全由 Linguee 團隊打造。Linguee 在國內沒什麼存在感，至於在海外……有穀歌翻譯專美於前，存在感也不是很高，但還是有一批認可它的用戶。

Linguee 的英漢、漢英詞典界麵

不過，Linguee 的成敗現在已經不重要，畢竟都換馬甲了——Linguee 在今年正式更名 DeepL，以"Deep"提醒 VC 自己是一家正兒八經的深度學習公司。

真正重要的是 Linguee 的技術積累。Linguee 由前穀歌翻譯研究員 Gereon Frahling 在 2007 年離職開發，2009 年正式上線。Linguee 的核心優勢是它的爬蟲和機器學習係統，前者抓取互聯網上的雙語對照翻譯，後者對這些翻譯的質量進行評估。兩者結合，使 Linguee 成為了當時"世界上首個翻譯搜索引擎"。十年積累，Linguee 無論在數據和對算法的研究上都不可小覷。

去年在倫敦 Noah 上演講的 Gereon Frahling

一年前，其研究團隊著手欲實現一個新目標：利用在機器翻譯領域的多年專業積累，打造一套業內最先進的 NMT 係統。這便是 8 月 29 日上線的 DeepL 翻譯。

三大優勢

既然底子厚實，我們來看看這些積累給 DeepL 帶來了哪些資源優勢。以下信息均是 DeepL 一家之言，尚無第三方背書，大家需自行判斷其含金量。

數據

Linguee 的數據集有逾十億組對照翻譯語句，號稱是世界上最大的人工翻譯數據集。 Linguee 能隨時搜索近似翻譯結果。

計算力

DeepL 在冰島搭建了一台超算，號稱在全球 HPC 中性能排名第 23 位，浮點運算能力達到 5.1 petaFLOPS。因而能實現令 DeepL 十分自豪的計算速度：每秒處理百萬量級的詞語翻譯。

算法

采用 CNN 而不是 NMT 產品通用的 RNN。DeepL 宣稱其技術積累使得它能夠克服 CNN 的主要短板，因而能實現比基於 RNN 的競品算法更精確、自然的翻譯結果。

效果展示

DeepL 宣稱其翻譯係統的表現打敗了穀歌翻譯以及微軟、Facebook 的 NMT 係統，是基於兩個指標：盲測反饋和 BLEU 分數。

盲測

DeepL 邀請了職業翻譯者，對 DeepL 翻譯、穀歌翻譯、微軟翻譯以及 Facebook 的 NMT 係統進行了盲測，要求測試者選出所認為的最好的翻譯結果。測試語言為三組，分別是英德、英法、英西互譯，樣本為 100 個句子。DeepL 並未公布每組參與測試的職業譯者數量。測試結果如下：

如圖所示，在每一門測試中，選擇 DeepL 的測試者都最多。 DeepL 在英譯德、英譯法、英譯西的優勢尤其明顯。其官方統計是：選擇 DeepL 為最佳翻譯結果的次數，與選擇另外三家 NMT 服務的平均比例為 3：1 。

BLEU

BLEU 是業內評估機器翻譯質量最常用的打分算法，其得分被認為與人類的評判結果具有較大相關性。

DeepL 宣布，其英譯德、英譯法的 BLEU 得分超過了所有已發表的 NMT 研究，包括穀歌 Transformer。結果如下：

如圖，在英譯法項目上，DeepL 的 BLEU 分數超過次優方案約 3.5%。

業內觀點

踏入江湖的第一日，DeepL 就自封"天下第一"。業內同行對此怎麼看？

對此，雷鋒網谘詢了搜狗語音交互中心總監陳偉、商鵲網 CEO 鄒劍宇，以及 Facebook 機器學習工程師王楊。需要說明的是，三位老師均表示：由於缺乏關於 DeepL 算法、數據庫的第一手資料，也沒有來自第三方的信息，無法對其翻譯水平做出客觀判斷。商鵲網的 CEO 鄒劍宇評論道："從相關報道中，對算法的描述並不詳細，沒有論文披露細節，所以並不好理解。"

因此，以下僅為這四位看到 DeepL 宣傳信息後的一些個人看法。

一、

在 Facebook從事應用機器學習的工程師王楊，聽到這件事的第一反應是懷疑——單是同時勝過穀歌翻譯和Facebook NMT這一點，不拿出有足夠說服力的證據就難以取信於人。穀歌的NMT 積累深厚，Facebook的NMT也在快速發展。一個新的產品想要如其所宣傳的那樣實現大幅超越，很難。

若 DeepL 確實在技術上實現了突破，那麼不排除他們有全新的多語種（multilingual）模型。

至於 DeepL 的算法模型基於 CNN 而不是 RNN，王楊表示"這從側麵支持了 Facebook 的研究"。FAIR（Facebook AI Research）一直認為 CNN 在機器翻譯上的潛力遠遠大過 RNN，尤其是計算速度，這也是 Facebook 在 NMT 領域的主要研究方向之一。

二、

搜狗語音交互中心總監陳偉，他們機器翻譯團隊剛剛在 WMT 2017評測中獲得中英、英中兩個翻譯方向的第一名，他認為數據對 DeepL 的貢獻可能遠大過其它因素。而 Linguee 的數據爬取和積累，是一項不小的優勢。

陳偉評論道：

"從 BLEU 對比看，提升的比較明顯，感覺他們十億量級的高質量數據對效果幫助比較大。實測大家都覺得好，這至少說明它數據的全麵性還是夠的。"

據一位德語專業的譯員說，DeepL 德英互譯的體驗確實不錯，這絲毫不意外——作為一家德國公司，順理成章的，DeepL 重點關注的是德英、法英這些語種的翻譯。這為 DeepL 在這幾門語種的數據積累也提供了一定的聚焦和便利。

DeepL 公布的盲測、BLEU 評分，衡量的均是德、法、西這三門歐洲語言與英語之間的互譯。

在算法方麵，陳偉表示：

"沒看到他們技術的詳細介紹，隻了解到使用了 CNN 而沒有使用 RNN，但是我感覺架構變動不會太大，應該類似於 Facebook 的 convs2s。

他並不認可"CNN 是神經機器翻譯未來"的說法：

在搜狗的實驗對比中，"RNN-NMT、CNN-NMT 和穀歌的 Transformer 框架。三個技術我們都認真研究和優化過，目前 Transformer 框架已經在搜狗翻譯係統上線，從機器評分和人工評測來看，都領先主要競品，較RNN-NMT、CNN-NMT提升也比較明顯。
業內也沒有一致觀點認為 CNN 是 NMT 的未來。我覺得技術方案無論是 CNN、RNN、Transformer 都沒做到極致，目前主流技術框架到底是什麼沒有定論，算法細節的打磨和多種技術的融合會是未來發展趨勢，另外數據量會是各家公司的技術壁壘。"

最後，陳偉總結，根據 DeepL 公布的報告，目前的評測存在三個地方導致難以評估其技術：

人工評測的測試數據量僅有 100 句，而一般人工評測或者 BLEU 評測會采用幾千句的數量。
DeepL對比其他家並沒有使用相同的訓練數據集，因此性能無法很好評估。
更多的技術細節沒有公布，很難把握具體的情況。

三、

商鵲網 CEO 鄒劍宇十分認同數據和計算資源對 NMT 產品的重要性：

"報道說其訓練引擎是基於一台冰島超級計算機，可以說深度學習真的很需要計算力。Linguee 本身是一個不錯的語料庫公司，數據積累有自己的特點，這應該是其引擎優秀表現的一個基礎。
對於引擎的評測，Linguee引擎的盲測很好，BLEU 值超過其他引擎最優質 3 個百分點（行業通識是，2 個 BLEU 值的提高就可以稱作'顯著'）。"

對於 BLEU 值究竟能在多大程度上客觀反映翻譯質量，鄒劍宇強調，需要合理看待其參考價值，不可把它等同於普通人麵對翻譯結果的直觀體驗：

"翻譯評測有三類對象：科研人員，譯員和普通閱讀用戶，三者評測的目標和方法不一致。BLEU 是一個科研環境的評測參數，和人的閱讀體驗感受有很大的不同，不可以同類而論。"

他最後忍不住拿自家產品做對比，表示商鵲網的新引擎甚至達到了比穀歌翻譯高出 6 個百分點的 BLEU 值。

號稱打敗穀歌翻譯的 Deepl 究竟靠不靠譜？的最新相關 …號稱打敗穀歌翻譯的 DeepL 究竟靠不靠譜？

鑒於數據、計算力、算法等諸多門檻，自神經機器翻譯（NMT）產品化以來，在很大程度上便是互聯網巨頭們的競技場。如今，又一個新的挑戰者高調加入進來，直接把矛頭指向堪稱行業技術標杆的穀歌、微軟以及 Facebook。上周，來自德國的 DeepL 翻譯上線，號稱 ...

Tech & News Come Along with You

AD

2017年9月10日星期日

號稱打敗穀歌翻譯的 DeepL 究竟靠不靠譜？

没有评论:

发表评论