隨著經(jīng)濟(jì)全球化的發(fā)展,國(guó)際知識(shí)產(chǎn)權(quán)戰(zhàn)略的重要性日益突顯。我們不僅要將日本國(guó)內(nèi)的專利信息傳遞給全世界,還要把握世界其他國(guó)家的專利申請(qǐng)情報(bào)。各類專利文獻(xiàn)的精確翻譯不可或缺,專利文獻(xiàn)的翻譯量也由此猛增。然而,傳統(tǒng)人力翻譯在成本和速度方面的弊端使得其難以勝任海量翻譯的重任。為解決這一難題,人們將目光移向了機(jī)器翻譯。
2019年5月,日本專利廳專利信息公開平臺(tái)開始啟用全新“機(jī)器翻譯系統(tǒng)”,該機(jī)器翻譯系統(tǒng)采用強(qiáng)大的機(jī)器翻譯引擎。這一引擎由日本情報(bào)通信研究機(jī)構(gòu)(以下簡(jiǎn)稱“NICT”)主導(dǎo)研發(fā),東芝數(shù)字解決方案株式會(huì)社長(zhǎng)期積累的自然語(yǔ)言處理技術(shù)也給予了支持。
為實(shí)現(xiàn)快速、準(zhǔn)確、自然的翻譯目標(biāo)――在開發(fā)過(guò)程中,只有將人工智能的快速學(xué)習(xí)與技術(shù)人員的知識(shí)經(jīng)驗(yàn)融合在一起,才能突破重重技術(shù)難關(guān)。
東芝數(shù)字解決方案株式會(huì)社 ICT解決方案事業(yè)部 政府部門解決方案技術(shù)第二部 三宅悠紀(jì)子
信息通信研究機(jī)構(gòu)(NICT)高級(jí)語(yǔ)音翻譯研究開發(fā)推進(jìn)中心 副主任 隅田英一郎
日本專利廳 總務(wù)部總務(wù)科專利信息室 主任助理 目黑光司
東芝數(shù)字解決方案株式會(huì)社 ICT解決方案事業(yè)部 政府部門營(yíng)業(yè)第四部 西本俊之
一、混合型機(jī)器翻譯 讓專利文獻(xiàn)翻譯工作更簡(jiǎn)單
在保護(hù)日本科技成果,促進(jìn)科技創(chuàng)新方面,專利審查工作發(fā)揮著極其重要的作用。專利審查員在審查專利過(guò)程中,需要查明新技術(shù)與現(xiàn)有技術(shù)之間的區(qū)別,并合理設(shè)定專利權(quán)。
日本專利廳總務(wù)部信息室主任助理——目黑光司先生參與了機(jī)器翻譯項(xiàng)目的全過(guò)程,包括系統(tǒng)采購(gòu)到實(shí)施監(jiān)測(cè)。據(jù)他講,日本專利廳的使命是“執(zhí)行全球最快、最高質(zhì)量的審查工作”。
“我們專利廳的業(yè)務(wù)工作主要分兩大塊:一、調(diào)查海量增長(zhǎng)的國(guó)外專利技術(shù)文獻(xiàn);二、將審查結(jié)果發(fā)送到國(guó)外,幫助日本企業(yè)順利取得國(guó)外專利授權(quán)?!保亢冢?/p>
“為完成這些業(yè)務(wù),我們必須將日語(yǔ)審查結(jié)果翻譯成英語(yǔ),并將世界各國(guó)的專利文獻(xiàn)翻譯成日語(yǔ)。在此需求上,我們更新了專利信息平臺(tái)(J-PlatPat),并著手構(gòu)建新型機(jī)器翻譯系統(tǒng)。為實(shí)現(xiàn)“全球最快、最高質(zhì)量審查”的目標(biāo),新型機(jī)器翻譯系統(tǒng)中翻譯速度和翻譯品質(zhì)是最重要的兩點(diǎn)。
全球?qū)@暾?qǐng)數(shù)量變化統(tǒng)計(jì)
通過(guò)公開競(jìng)標(biāo),東芝數(shù)字解決方案株式會(huì)社(東芝集團(tuán)旗下公司,主要業(yè)務(wù)是采用系統(tǒng)集成、人工智能和物聯(lián)網(wǎng)等手段,為用戶提供服務(wù)解決方案)成功拿下這筆訂單。該公司的西本俊之和三宅悠紀(jì)子參與了從招標(biāo)、提案到正式發(fā)布的全過(guò)程,西本俊之擔(dān)任營(yíng)業(yè)負(fù)責(zé)人,三宅悠紀(jì)子擔(dān)任翻譯品質(zhì)的技術(shù)負(fù)責(zé)人。
“東芝長(zhǎng)期致力于機(jī)器翻譯技術(shù)開發(fā)工作。主要采用基于規(guī)則的機(jī)器翻譯引擎1(以下簡(jiǎn)稱RBMT)。針對(duì)此次中標(biāo)的機(jī)器翻譯系統(tǒng)項(xiàng)目,我們首先考慮的是,要與現(xiàn)有開發(fā)成果銜接起來(lái)。因此,我們采用了RBMT提案。然而,在即將采購(gòu)之時(shí),我們發(fā)現(xiàn)RBMT不能達(dá)到翻譯質(zhì)量要求,到底是什么原因呢?……我們甚至考慮過(guò)放棄這一提案。我無(wú)意中想起曾經(jīng)與NICT合作的往事,當(dāng)時(shí),NICT將翻譯引擎技術(shù)轉(zhuǎn)讓給了我們,我還特地去拜訪了隅田先生。”(西本)
1 基于規(guī)則的機(jī)器翻譯引擎:基于辭典和語(yǔ)法知識(shí)的機(jī)器翻譯。此外,還有基于海量對(duì)譯數(shù)據(jù)(雙語(yǔ)對(duì)照格式數(shù)據(jù))的統(tǒng)計(jì)機(jī)器翻譯、基于深度學(xué)習(xí)技術(shù)的神經(jīng)機(jī)器翻譯。
NICT在專利文件機(jī)器翻譯領(lǐng)域的研究成果頗豐,且與日本專利廳保持著良好的合作關(guān)系。除此以外,NICT還擁有數(shù)億條世界最大的專利文獻(xiàn)數(shù)據(jù)對(duì)譯,并依托海量對(duì)譯數(shù)據(jù)開發(fā)了先進(jìn)的神經(jīng)機(jī)器翻譯系統(tǒng)(以下簡(jiǎn)稱“NMT”)。NICT科研負(fù)責(zé)人——隅田欣然接受了西本的咨詢請(qǐng)求,兩人開始就技術(shù)轉(zhuǎn)讓問題進(jìn)行交流。
“為了普及翻譯技術(shù),NICT一向?qū)ν馓峁┍狙芯克_發(fā)的翻譯引擎和程序。雖說(shuō)這是NICT的使命,但并不代表我們可以向任何企業(yè)轉(zhuǎn)讓翻譯技術(shù)。接受技術(shù)轉(zhuǎn)讓的企業(yè)必須有堅(jiān)實(shí)的技術(shù)后盾作為保障,否則,我們苦心研發(fā)的翻譯技術(shù)將無(wú)法得到普及。
在這方面,東芝擁有豐富的機(jī)器翻譯開發(fā)經(jīng)驗(yàn),而我們?cè)诮y(tǒng)計(jì)機(jī)器翻譯(以下簡(jiǎn)稱“SMT”)技術(shù)轉(zhuǎn)讓方面亦擁有眾多實(shí)際案例。關(guān)于專利領(lǐng)域機(jī)器翻譯技術(shù)轉(zhuǎn)讓問題的討論,我當(dāng)然愿意參與?!保ㄓ缣铮?/p>
東芝部分翻譯引擎介紹
2 BLEU值:將正確譯文與機(jī)器翻譯結(jié)果進(jìn)行比較,根據(jù)相似度對(duì)翻譯質(zhì)量進(jìn)行評(píng)估的指標(biāo)。得分從0%到100%。得分越高,翻譯質(zhì)量越高。
首先,東芝團(tuán)隊(duì)列出了翻譯引擎?zhèn)溥x名單,其中包括RBMT、SMT、NMT等7種翻譯引擎,再征求NICT方面的意見和建議,選出最適合專利文檔的翻譯引擎。
“使用各個(gè)引擎翻譯1000多個(gè)文檔,評(píng)估每種引擎的精度以及在文章翻譯方面的優(yōu)點(diǎn)和缺點(diǎn)。只有自己親眼查看和對(duì)比這些翻譯結(jié)果,才能夠選出最佳方案?!保ㄎ鞅荆?/p>
“隨著招標(biāo)提案工作的推進(jìn),為了實(shí)現(xiàn)精準(zhǔn)自然的翻譯效果,我們不斷優(yōu)化機(jī)器翻譯系統(tǒng)。
比如,RBMT適用于文檔前半部分和最尾端,NMT適用于文檔中間部分?;谶@種情況,要實(shí)現(xiàn)高質(zhì)量專利文檔翻譯,需要構(gòu)建復(fù)雜的翻譯引擎。事實(shí)證明,全部使用單一翻譯引擎,是無(wú)法確保翻譯質(zhì)量的。”(三宅)
每種引擎翻譯1000多個(gè)文檔,每個(gè)文檔的翻譯稿件都需要仔細(xì)檢查。通過(guò)這種笨拙的測(cè)試方法,我們最終發(fā)現(xiàn):以NMT為主,合理使用RBMT和SMT的混合型翻譯引擎是最佳選擇。對(duì)于翻譯前后的處理工作,我們認(rèn)為采用東芝長(zhǎng)期積累的自然語(yǔ)言處理技術(shù)更合適。這樣一來(lái),既引入了最先進(jìn)的NICT引擎,又能發(fā)揮出東芝在機(jī)器翻譯領(lǐng)域的優(yōu)勢(shì)。
二、升級(jí)機(jī)器翻譯機(jī)制 解決長(zhǎng)篇翻譯難題
經(jīng)過(guò)不懈努力,2018年4月,東芝數(shù)字解決方案株式會(huì)社在公開競(jìng)標(biāo)中成功拿下機(jī)器翻譯系統(tǒng)訂單。以實(shí)現(xiàn)1年1個(gè)月后——2019年5月系統(tǒng)啟動(dòng)為目標(biāo),開始了開發(fā)工作。為了達(dá)到理想的翻譯效果,公司成立了兩個(gè)團(tuán)隊(duì),分別負(fù)責(zé)翻譯質(zhì)量和翻譯速度。
“我們要求的不僅僅是翻譯的質(zhì)量和速度,價(jià)格、成本等方面也必須通過(guò)評(píng)估。東芝數(shù)字解決方案株式會(huì)社不只使用最新的NMT翻譯引擎,還構(gòu)建了完善的引擎支持系統(tǒng),以確保翻譯引擎穩(wěn)定運(yùn)行。
我們對(duì)機(jī)器翻譯系統(tǒng)提出的要求是:不僅要保證翻譯質(zhì)量,還必須適用于專利信息平臺(tái)。顯然,逐句翻譯無(wú)法滿足要求,文章以幾頁(yè)為單位傳給機(jī)器翻譯系統(tǒng),由翻譯系統(tǒng)進(jìn)行文檔分割,再并行進(jìn)行翻譯。”(目黑)
“一般來(lái)說(shuō),機(jī)器翻譯不擅長(zhǎng)翻譯長(zhǎng)句,句子越長(zhǎng),需要處理的時(shí)間就越多。使用預(yù)處理進(jìn)行長(zhǎng)句分割方法,能夠提高翻譯質(zhì)量。機(jī)器翻譯系統(tǒng)首先用RBMT對(duì)日語(yǔ)長(zhǎng)句結(jié)構(gòu)進(jìn)行分析,在長(zhǎng)句中的意思轉(zhuǎn)折位置做標(biāo)記。再將完成分割標(biāo)記的文檔傳送到NICT的NMT中。這種無(wú)縫協(xié)作確保了翻譯速度和翻譯質(zhì)量?!保ㄎ鞅荆?/p>
在專利文檔中,當(dāng)一個(gè)長(zhǎng)句被分成一行一句后,句子之間往往會(huì)夾雜一些無(wú)用的字符,比如:頁(yè)碼等。
機(jī)器翻譯長(zhǎng)句分割示例
“人工智能目前仍無(wú)法合并或分割句子。為了從細(xì)節(jié)方面提高整體翻譯質(zhì)量,必須先進(jìn)行‘文章結(jié)構(gòu)分析’。深入分析文章結(jié)構(gòu)的語(yǔ)言處理工作正需要東芝來(lái)完成?!保亢冢?/p>
三宅女士回顧項(xiàng)目時(shí)說(shuō):“毫無(wú)疑問,文章結(jié)構(gòu)分析是本項(xiàng)目的重點(diǎn)之一”。比如,在翻譯系統(tǒng)構(gòu)建過(guò)程中,出現(xiàn)了一個(gè)奇怪的翻譯結(jié)果,就是“Sunrise”(日出)這個(gè)單詞,這個(gè)單詞與專利內(nèi)容毫不相干。對(duì)此,我們感到非常困惑,經(jīng)過(guò)調(diào)查,原因出乎所有人意料。
“專利文件經(jīng)常遇到下圖這種格式。由于前后兩段緊連在一起,變成了‘日出’這個(gè)詞,翻譯引擎順勢(shì)將其翻譯成‘Sunrise’。為消除這種錯(cuò)譯,結(jié)構(gòu)解析時(shí)需要進(jìn)行數(shù)百個(gè)處理。而且這種錯(cuò)誤只能通過(guò)目視檢查的方式發(fā)現(xiàn)。一次分析就需要通讀200多份翻譯文檔,這依靠的是不畏艱辛的精神及巨大的體力投入。”(三宅)
機(jī)器翻譯錯(cuò)誤示例
在科技方面的專利文獻(xiàn)中,還可能會(huì)出現(xiàn)化學(xué)式和DNA序列。字母和數(shù)字羅列是導(dǎo)致誤譯的原因之一。事實(shí)上,NMT并不擅長(zhǎng)準(zhǔn)確翻譯這類字符串,經(jīng)常會(huì)出現(xiàn)“漏譯”和“冗余”(生成無(wú)關(guān)字符串)的情況。對(duì)此,三宅女士等人采用了“無(wú)需翻譯”的方式。具體機(jī)制是:從輸入的句子中識(shí)別出字符串,例如:化學(xué)公式和DNA序列等,先使用引擎翻譯字符串以外的部分,然后將翻譯結(jié)果與字符串合并,輸出最終的翻譯結(jié)果。這樣一來(lái),就避免了NMT特有的錯(cuò)譯問題。
“與RBMT相比,NMT和SMT的翻譯質(zhì)量更高,計(jì)算量也更大,因此需要更多的處理時(shí)間。以往,翻譯專利等長(zhǎng)篇文檔至少需要30分鐘。此次開發(fā)的翻譯系統(tǒng)是面向?yàn)g覽網(wǎng)頁(yè)的用戶,需要提供實(shí)時(shí)在線翻譯,不能讓用戶在電腦前等待30分鐘。為提高翻譯速度,東芝團(tuán)隊(duì)經(jīng)過(guò)反復(fù)試錯(cuò)、調(diào)整,終于達(dá)到了滿意的翻譯速度。”(西本)
三、持續(xù)優(yōu)化機(jī)器翻譯 開發(fā)多語(yǔ)種翻譯系統(tǒng)
2019年5月,東芝推出日英翻譯功能。專利信息平臺(tái)(J-PlatPat)正式啟用文檔及日本專利公報(bào)的日英翻譯功能。國(guó)外專利審查員參考日本審查結(jié)果,日本人申請(qǐng)國(guó)外專利,翻譯專利參考文件時(shí),都可以使用此項(xiàng)翻譯功能。
“我們進(jìn)行了多種測(cè)試,比如平時(shí)不大可能有的大翻譯量的測(cè)試,不留任何小瑕疵,最終迎來(lái)了正式發(fā)布的時(shí)刻。剛剛發(fā)布后,我們就接到了用戶打來(lái)的電話,用戶反饋說(shuō):‘這么高的翻譯質(zhì)量令我十分驚訝’。這種反饋是極為難得的,充分證明了翻譯準(zhǔn)確度已得到顯著提升。目前,該項(xiàng)目仍將持續(xù)進(jìn)行中,我們將會(huì)進(jìn)一步提升翻譯質(zhì)量和系統(tǒng)配置,以便處理更多語(yǔ)種,我非常有信心完成后半程的開發(fā)工作?!保亢冢?/p>
“難得有機(jī)會(huì)了解到普通用戶的反饋,我真的非常高興。尤其感謝目黑先生以及專利廳的其他員工,向我們提出了很多寶貴意見。讓我深有感觸的是,專利廳、NICT、東芝數(shù)字解決方案株式會(huì)社能作為一個(gè)團(tuán)隊(duì),攜手并肩,朝著提高翻譯質(zhì)量和速度的共同目標(biāo),不斷前行?!保ㄈ?/p>
“目前,我們正在開發(fā)中日和韓日翻譯功能,我們的目標(biāo)是在2020年4月正式發(fā)布機(jī)器翻譯系統(tǒng)。在翻譯引擎技術(shù)方面,我們向NICT的隅田先生反饋各種問題,并及時(shí)進(jìn)行調(diào)整,同時(shí),我們的應(yīng)用程序也在持續(xù)改善中。目前,機(jī)器翻譯的最終服務(wù)模式和理想形態(tài)還尚不明朗。我希望借助本項(xiàng)目獲取的知識(shí)經(jīng)驗(yàn),開發(fā)出能夠滿足政府機(jī)關(guān)、研究機(jī)構(gòu)、企業(yè)翻譯需求的解決方案”(西本)
“東芝開發(fā)的機(jī)器翻譯系統(tǒng)在對(duì)安全性有要求的操作環(huán)境下也能正常工作,未來(lái)有望向其它領(lǐng)域拓展,比如:政府機(jī)關(guān)、以及制藥、金融、汽車等安全性要求高行業(yè),而且,這些行業(yè)的對(duì)譯數(shù)據(jù)已經(jīng)非常豐富。NICT表示,希望在高精度引擎技術(shù)轉(zhuǎn)讓方面,繼續(xù)與東芝開展合作?!保ㄓ缣铮?/p>
專利廳發(fā)布的“全球最快、最高質(zhì)量”的審查支持系統(tǒng)是NICT和東芝的共同努力的結(jié)果,NICT的先進(jìn)翻譯引擎技術(shù)與東芝的自然語(yǔ)言處理技術(shù)堪稱完美搭檔。不斷鞏固和發(fā)展這種合作伙伴關(guān)系,持續(xù)開發(fā)語(yǔ)言翻譯系統(tǒng),這讓我們得以窺見機(jī)器翻譯的未來(lái)。東芝一直致力于創(chuàng)新研發(fā)高科技產(chǎn)品,希望與不同行業(yè)的尖端科技型企業(yè)共同努力,碰撞火花,點(diǎn)亮未來(lái)無(wú)限可能。