在线视频播放免费视频酥酥,国产 AV 仑乱内谢,久久精品国产线看观看亚洲

美國時間9月27日，谷歌公布推出谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯體系(GNMT)，采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)技術(shù)大幅提拔機(jī)器翻譯的水平，《麻省理工學(xué)院技術(shù)評論》雜志MIT TR 報道稱“幾乎與人類無異”。

效果是讓人耳目一新的。翻譯界偕行Michael Zhang在其微信公眾號“譯言千金”做了一次谷歌翻譯引擎新老版本和人工翻譯的對比：下文的“GT1”代表2016年3月份GT機(jī)譯效果;“GT2”代表2016年10月中旬GT機(jī)譯效果。

老版本的谷歌譯文是讓人你認(rèn)識的“機(jī)器文”：詞是對的，整句必要你在腦子里調(diào)整語序后再理解。新版本的譯文和人說話的語序幾乎一樣，和人工翻譯沒有大區(qū)別。

觸手可及的體感轉(zhuǎn)變觸動了用戶和媒體的心弦：它就是我們通常認(rèn)為的那個會說人話的人工智能，科技的力量很推翻，至少“推翻了翻譯行業(yè)”。

谷歌引擎到底提高了多少?谷歌在發(fā)表的論文中列舉了幾個語向的翻譯錯誤降落率。

其中英語到西班牙語降落了87%，英文到中文降落了58%。

“錯誤率降落”是怎么回事?我的同事懸臂箱，商鵲網(wǎng)CTO魏勇鵬在接受雷鋒網(wǎng)的記者采訪時詮釋了谷歌是如何做的：

比如漢譯英。谷歌隨機(jī)從中文維基百科遴選500個句子，讓基于統(tǒng)計的老引擎PBMT、基于神經(jīng)網(wǎng)絡(luò)的GNMT和諳練譯員各自做一次上海做網(wǎng)站站百度搜索排行，譯文質(zhì)量打分從0到6分不等，6分為滿分。效果就是老引擎得分3.694，新引擎得分4.263，人工翻譯得分4.636。

錯誤率計算體例為：

勇鵬告訴記者：“一、從3.6提拔到4.2，和從4.2提拔到4.6，這兩個所必要支出的努力程度，后者可能是前者的10倍以上都不止，但Google就簡單的線性計算為縮小了60%的差距。二、中英的人工翻譯，得到的評分也就只是4.6，比英西的人工翻譯要低得多，這點說明用來作為基準(zhǔn)的‘人’未必是靠譜的，以它為基準(zhǔn)來評估也未必靠譜�！�

加拿大國家研究委員會NRC多語言處理研究組陳博興研究員在他的微信同伙圈發(fā)文給了一個評價：

“谷歌所做的事情是將這兩年學(xué)術(shù)界神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的多種技術(shù)做了一個整合集成，行使他們壯大的工程能力和計算能力，搭了一個很好的體系。他們的單體系比我行使開源訓(xùn)練的體系在統(tǒng)一個數(shù)據(jù)集上要好了也許3個多BLEU值�！咀ⅲ築LEU標(biāo)準(zhǔn)是美國商務(wù)部部屬的國家標(biāo)準(zhǔn)與技術(shù)研究所NIST舉辦的一項機(jī)器翻譯研究水平評測，其原理是比較機(jī)譯效果和人譯效果的相似度，完全同等得分為100(當(dāng)然不同的人的翻譯很難“完全同等”，所以得分100為理想值)。2008年NIST的英文-中文的機(jī)器翻譯評測效果，谷歌翻譯得分41.42�！�3個多BLEU的差距，假如由人來判斷，細(xì)心看的話，是能感覺到的，但是也就是一個小的提高，談不上突破什么的。

“對于他們(谷歌發(fā)表)的文章，我覺得有兩個遺憾的地方：1.所采用的技術(shù)都是之前發(fā)表過的，沒有全新的技術(shù)(對google的要求天然要高一點，呵呵)。2. 假如我們有那么大的計算和工程能力以及那么多人力可以投入，即使只是整合已有技術(shù)，我覺得我們可以做得更好，比如我會加上清華大學(xué)劉洋他們首先采用的風(fēng)險訓(xùn)練方法來進(jìn)行訓(xùn)練，等等�！�

陳先生提到的劉洋在接受媒體采訪時淡淡地說：“谷歌做的其實是把目前學(xué)術(shù)界的一些技術(shù)集成在一路。谷歌自己的數(shù)據(jù)、運(yùn)算能力，還有工程師水平都特別很是高，所以他們通過集成做了一個特別很是強(qiáng)的體系，這個體系和傳統(tǒng)方法相比有比較明顯的進(jìn)步。但媒體的報道有點夸張，并不能說機(jī)器翻譯已經(jīng)接近人的水平，或者完全庖代人。谷歌這項工作還達(dá)不到 ‘推翻性突破’ 這種程度。”

專業(yè)人士的評價和通俗用戶的體感不完全同等。于是懂行的故意人找出了一些風(fēng)趣的谷歌翻譯案例。加拿大博芬翻譯公司的趙杰打算寒假回過年，在網(wǎng)上查詢找到一家合適的酒店，各種條件都不錯，但是看到價錢時含糊了，“The price is quite high”。老趙找到酒店的原版中文介紹，原文是“性價比相稱高”，谷歌給的譯文把意思給弄反了。

谷歌新翻譯引擎在穩(wěn)當(dāng)處理原文譯文語序的同時，出現(xiàn)了一些莫名其妙的題目。

引擎把“美美”翻成了“美國和美國”，而一個標(biāo)點或者一個近義詞的改變，會讓它的譯文發(fā)生很大的轉(zhuǎn)變，甚者譯文會意思迥異。相比之下，采用統(tǒng)計原理訓(xùn)練的有道翻譯則把“我想美美地睡一覺”和“我要美美地睡一覺”給出了同樣的英文譯文。

“谷歌的新引擎的錯誤無法追溯�！敝锌圃褐鲃踊膹埣铱「毖芯繂T說，多層神經(jīng)網(wǎng)絡(luò)的算法模型的計算過程是一個黑盒子，人無法理解息爭釋程序主動學(xué)習(xí)的過程。“谷歌的新引擎在語言流利性有大幅度進(jìn)步，但是在原文忠誠度上沒有顯明轉(zhuǎn)變。”張家俊說。

普通化的話來講，統(tǒng)計型翻譯引擎的基礎(chǔ)數(shù)據(jù)是雙語對齊的詞、短語和句子，數(shù)據(jù)對齊的精度越高翻譯質(zhì)量也越高。但是數(shù)據(jù)精度越高，也意味著在現(xiàn)實應(yīng)用中命中的概率也越低。曩昔以谷歌的壯大計算能力和的語言數(shù)據(jù)，也無法在窮盡各種語境、各種文句上可以再上一個臺階，谷歌的統(tǒng)計型翻譯引擎的BLEU值好幾年維持在40+的水平而無法顯明進(jìn)步。

神經(jīng)網(wǎng)絡(luò)的算法不再依靠人對語言的理解(詞、短語和句子的對齊譯法)，在許多語種中把詞切分到字母的層級(即Subword)，比如詞根、后綴等，對原文各個詞之間的關(guān)系也計算得更加過細(xì)。谷歌新翻譯引擎的神經(jīng)網(wǎng)絡(luò)達(dá)到了八層，計算的過程耗費(fèi)了偉大的計算能力。這有賴于谷歌本身開發(fā)專門面向深度學(xué)習(xí)的TPU處理器，其單位耗電量的性能達(dá)到GPU和FPGA的10倍，且不外賣。

“神經(jīng)機(jī)器翻譯NMT體系是個好東西，但相對傳通盤計機(jī)器翻譯SMT來說，體系部署所需硬件投入至少漲十幾倍。舉個例子，拋開翻譯性能而言，像采用我們組裝的支撐4塊GPU的服務(wù)器，NMT體系在如許一臺價值4萬多元的服務(wù)器上運(yùn)行速度和吞吐，才接近于SMT體系在3000多元的PC機(jī)上的性能。假設(shè)用戶為了知足大規(guī)模吞吐和翻譯工作的話，比如必要100臺機(jī)器的話，基于小牛翻譯SMT版本只必要投入30多萬硬件，但知足同樣的性能假如采用小牛翻譯NMT體系可能必要投入400多萬硬件。真的期待硬件成本繼承降落，才能真正讓小牛翻譯NMT體系真正走入中小企業(yè)啊。”小牛翻譯的創(chuàng)始人、東北大學(xué)朱靖波教授感觸道。

谷歌新引擎的發(fā)布讓機(jī)器翻譯行的專業(yè)人士達(dá)成了同等：神經(jīng)網(wǎng)絡(luò)算法的翻譯引擎庖代傳統(tǒng)引擎是行業(yè)趨勢。但“庖代”是拋棄照舊迭代?這是一個龐大的題目，它意味著諸多傳統(tǒng)機(jī)器翻譯研究學(xué)者和行業(yè)從業(yè)者如何跨入下一步?

張家俊在10月下旬發(fā)表了一篇論文，宣布了他做的一項研究。他使用了一些傳統(tǒng)詞典的雙語數(shù)據(jù)支撐神經(jīng)網(wǎng)絡(luò)的翻譯引擎。因為算法的不同，這些詞典的詞對齊數(shù)據(jù)無法直接被神經(jīng)網(wǎng)絡(luò)的引擎使用。佳俊找到一些使用這些詞的公開語句，行使傳統(tǒng)引擎翻譯成英文，再把這些復(fù)活成的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)引擎的源數(shù)據(jù)。在訓(xùn)練后的翻譯引擎測試數(shù)據(jù)中，假如有100個低頻詞被詞典覆蓋，接近80個可以得到譯文，匹配度接近80%。

“把現(xiàn)有的詞典都照你的方法處理成神經(jīng)網(wǎng)絡(luò)引擎的語料，它的詞的正確度就能大幅度進(jìn)步嗎?”筆者問張先生。家俊說：“不是的。我給的數(shù)據(jù)是傳統(tǒng)翻譯引擎的譯文，有很大的噪音，因此不能說數(shù)據(jù)越多結(jié)果越好�！�

張家俊說傳統(tǒng)研發(fā)的積累，讓他得以在新舊引擎之間找到了一些可以繼續(xù)并創(chuàng)新的方法，為神經(jīng)網(wǎng)絡(luò)翻譯引擎的提高提出補(bǔ)缺的新思路。

陳博興研究員說：“機(jī)器翻譯在可以預(yù)見的將來庖代不了人工翻譯。尤其是如今的人工翻譯的市場跟機(jī)器翻譯的市場基本上不重合，人工翻譯對準(zhǔn)的是高端市場，要求很的翻譯需求，而機(jī)器翻譯則是1，要求不那么的翻譯情景，比如旅游，比如網(wǎng)頁欣賞，比如信息監(jiān)控等等。2，機(jī)器翻譯幫助專業(yè)翻譯人員進(jìn)步服從。假如中國對交際流的程度達(dá)到歐美如今的程度，那么中國的高端翻譯市場將會是無比偉大的。有志于從事翻譯的同窗，放心勇敢地進(jìn)來吧�！�

“舉例來說，理想的法律翻譯是100分，現(xiàn)實工作達(dá)到95或98分就很好了，80分、85分、95分的質(zhì)量，收入/報酬的差別不是以五個百分點計算，而是以倍數(shù)計算。PE(注：譯后編輯，一種新的翻譯工作模式，譯員基于機(jī)器翻譯的效果進(jìn)行校對編輯優(yōu)化)假如沒有能力提拔那幾個百分點，那和機(jī)器翻譯沒啥差別，報價、收入一樣上不去�！蔽⒉┥系囊粋€資深法律譯者，@readthinker99 對譯后編輯的看法。

神經(jīng)網(wǎng)絡(luò)翻譯引擎NMT對翻譯行業(yè)的益處是它給出的效果更吻合人的敘述風(fēng)俗，可用的部分更多，而從事譯后編輯的譯員可以更專注在垂直的專業(yè)術(shù)語短語上給出好的翻譯，是一石二鳥服從進(jìn)步成本降低的好事情。

——————————

后記：

大賭注

面對神經(jīng)網(wǎng)絡(luò)計算的黑盒子，身在現(xiàn)實研究和開發(fā)中的專家基本上都和陳博興老師持雷同態(tài)度：機(jī)器翻譯離理解人類語言還很遠(yuǎn)，可見的時間里跨語種的深入交流必要借助有專業(yè)外語能力的人工幫助。由于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)體例和基于統(tǒng)計的機(jī)器翻譯算法一樣，都沒有涉及到語義的理解。無論如今神經(jīng)翻譯引擎讀起來有多接近人的話語，這個軟件其實“不理解”它計算出來的譯文的意思。

人類對本身身認(rèn)知過程的運(yùn)轉(zhuǎn)機(jī)制，還處于很淺層的研究階段，腦科學(xué)還無法還原大腦在思考一個題目的心理過程。英國物理學(xué)家、認(rèn)知學(xué)家戴維·多伊奇教授的看法是：“由于在其核內(nèi)心有一個懸而未決的哲學(xué)題目：我們還不了解創(chuàng)造性如何運(yùn)作�！彼匀祟愐簿蜔o法復(fù)制創(chuàng)造的過程。這幾乎是人對自身認(rèn)知、對人工智能AI的清醒的一個出發(fā)點，但是神經(jīng)網(wǎng)絡(luò)研究者給了另外一條路徑。

清華大學(xué)的韓鋒先生給一本譯著《重新定義智能》作序著文《讓“人腦”走下神壇》，該文寫于Alphago與李世石大戰(zhàn)的過程中。其重要論點是，物理研究已經(jīng)知道事物或體系有自相似性，基于一種重整化群的方法，使用神經(jīng)網(wǎng)絡(luò)的算法和夠大的計算能力，可以計算出有計算機(jī)智能的邏輯，并得以詮釋對象，比如Alphago克服了李世石。(詳細(xì)闡述過程請參見原文)

韓先生的點出了大部分機(jī)器翻譯專家面對的一個隱蔽題目：他們認(rèn)為以可靠的能力和認(rèn)知，機(jī)器無法理解人。但是誰也不能確認(rèn)下一步神經(jīng)網(wǎng)絡(luò)會算出什么?那么韓鋒先生提出來得可能性不能被證偽�；艚�、馬斯克說的機(jī)器威脅人類，也同樣不能被證偽。

真風(fēng)趣啊。AI時代，人類認(rèn)知學(xué)的大家伙廣告策劃，擁有大數(shù)據(jù)的公司都在面對、覬覦或憂慮有一個潘多拉的盒子被打開。更多的人則充滿熱情和信念、欣喜地預(yù)備歡迎新的AI的提高，并計算現(xiàn)有的數(shù)據(jù)和能力，在那能做什么。萬一沒實現(xiàn)呢，我們也不會失去將來。

(本文得到了我的同事魏勇鵬、胡日勒的專業(yè)支撐)

作者：鄒劍宇

美女91-美女18一级毛片免费看-美女18毛片免费视频-美女18毛片-美乃雀中文字幕在线一区-美美女高清毛片视频免费观看

谷歌神經(jīng)翻譯引擎進(jìn)步了多少？