現(xiàn)如今,日本等國家少子化與老齡化的日趨嚴(yán)重,勞動力也變得越來越緊缺,工作方式的改革又需要業(yè)界提高生產(chǎn)效率。為同時解決這兩大難題,利用機(jī)器人實(shí)現(xiàn)業(yè)務(wù)自動化的RPA(機(jī)器人流程自動化)技術(shù)引起了社會廣泛關(guān)注。以金融業(yè)為主的各個行業(yè)已開始引入RPA技術(shù),并取得了顯著成果。比如說,實(shí)現(xiàn)了自動創(chuàng)建文檔與錄入數(shù)據(jù)錄等功能。
目前,市面上已經(jīng)出現(xiàn)了能夠?qū)⒄Z音自動轉(zhuǎn)換成文字的人工智能軟件。但由于精準(zhǔn)的文字轉(zhuǎn)換難度超出想象,對于會議、演講等記錄工作,我們不得不繼續(xù)采用人工方式。
我們該如何解決這一問題呢?――東芝給出的方案是全新開發(fā)的人工智能語音識別系統(tǒng)。
為了解人工智能語音識別系統(tǒng)的需求背景和開發(fā)過程需要突破的技術(shù)難題,我們咨詢了東芝株式會社研究開發(fā)中心的兩位負(fù)責(zé)人——蘆川先生與藤村先生。
一、快速準(zhǔn)確地將語音轉(zhuǎn)換成文字,并通過清晰字幕實(shí)時顯示!
東芝一直致力于拓展智能媒體領(lǐng)域的業(yè)務(wù)(智能媒體是對人類語音和圖像進(jìn)行知識處理,并加以靈活應(yīng)用的技術(shù))。長年積累的技術(shù)開發(fā)經(jīng)驗(yàn)極大地推動了人工智能語音識別系統(tǒng)的開發(fā)。
此次開發(fā)項(xiàng)目的研討工作始于2015年。那一年恰逢“信息無障礙”環(huán)境建設(shè)的風(fēng)口,日本政府號召民眾,努力打造一個便于殘障人士無障礙地獲取各類信息的社會環(huán)境。對此,東芝早早就開始了通用設(shè)計(jì)產(chǎn)品和服務(wù)的開發(fā)工作,建立了成熟的通用設(shè)計(jì)(UD)顧問制度,并邀請身體有殘障的員工參與產(chǎn)品開發(fā)。
蘆川先生表示:“聽覺障礙人士的普遍心聲是希望實(shí)時參與會議和講演,而不是通過事后查看文字記錄的方式來了解會議與講演內(nèi)容。我們的計(jì)劃是引入一個能夠自動顯示實(shí)時文字信息的字幕,方便聽覺障礙人士了解相關(guān)內(nèi)容,從而幫助殘障人士實(shí)現(xiàn)‘信息獲取’與‘效率提升’兩大目標(biāo)。人工智能語音識別系統(tǒng)的開發(fā)工作正是朝著這兩大目標(biāo)進(jìn)行的。”(蘆川先生)
株式會社東芝 研究開發(fā)中心
人工智能媒體實(shí)驗(yàn)室 研究主任 蘆川平
二、提高算法的準(zhǔn)確度,語音識別率高達(dá)85%!
接觸過文字轉(zhuǎn)換的朋友都深有體會:將對話、講義及講演等語音忠實(shí)、完整地轉(zhuǎn)換成文字,反而會變成一篇晦澀難懂的文章。轉(zhuǎn)換后的文字信息會出現(xiàn)很多冗余的內(nèi)容,比如:“嗯”、“那個”等無意義詞語,以及對理解內(nèi)容毫無幫助的隨聲附和語句等。
此次的人工智能語音識別系統(tǒng)能夠精準(zhǔn)地識別出說話人的語音,并且可以分辨出無意義的詞語和停頓部分。這一功能對于提高工作效率極為重要。人工智能的核心是算法,據(jù)說為了提高算法的準(zhǔn)確度,開發(fā)團(tuán)隊(duì)設(shè)立了各種各樣的課題并進(jìn)行了深入研究。
“在開始階段,我們屢屢碰壁,發(fā)現(xiàn)提高識別精度是非常困難的一件事。我們的目的不在于開發(fā)和研究本身。說到底,我們的目的是為用戶帶來方便。通過采用日漸流行的LSTM1模型以及CTC學(xué)習(xí)2手段,能夠根據(jù)語音特征,識別出人類特有的無意義詞語、停頓等部分”(藤村)
1 LSTM(長短期記憶):RNN(遞歸神經(jīng)網(wǎng)絡(luò))的一種高級形式,其隱藏層中含有遞歸結(jié)構(gòu)。能夠?qū)﹂L期依賴關(guān)系進(jìn)行學(xué)習(xí),而這種學(xué)習(xí)能力是傳統(tǒng)RNN無法實(shí)現(xiàn)的。
2 CTC(聯(lián)結(jié)主義時間分類):針對輸入輸出的序列長度差異問題,通過引入空字符和設(shè)計(jì)損失函數(shù)的方法,來導(dǎo)入RNN的手段。
株式會社東芝 研究開發(fā)中心
人工智能媒體實(shí)驗(yàn)室 主任研究員 藤村浩司
傳統(tǒng)的語音識別系統(tǒng)是采用分析波形的方法,將不同波形的語音確定為相應(yīng)假名,例如:“ア”或“イ”等,然后進(jìn)行分析。但是,無意義詞語和停頓的波形千變?nèi)f化,存在無數(shù)種形式,采用逐一分析的方式是無法窮盡的。
“無意義詞語是填充話語之間的空白部分,而停頓則是話語之間的休息片斷。通過LSTM模型能夠把話語中的這些部轉(zhuǎn)換為統(tǒng)計(jì)模型,然后再通過CTC對模型進(jìn)行識別訓(xùn)練。這樣一來,就能夠檢測出擁有無數(shù)種形式的無意義詞語、停頓部分了。
目前尚無一家公司能夠開發(fā)出完全準(zhǔn)確的語音識別系統(tǒng)。更廣闊的開發(fā)空間和更高的技術(shù)等待著我們?nèi)ヌ剿?。我們的語音識別系統(tǒng)目前能夠支持日語、英語、漢語三種語言,但這遠(yuǎn)遠(yuǎn)不夠,我們的終極目標(biāo)是讓不同語種的人士可以圍坐于圓桌旁輕松暢聊,讓科幻小說和漫畫中的未來場景在現(xiàn)實(shí)中一一實(shí)現(xiàn)。當(dāng)然,那需要超高的準(zhǔn)確度,可以說我們開發(fā)工作就是讓夢想照進(jìn)現(xiàn)實(shí)?!保ㄌ俅澹?/p>
目前,我們的人工智能語音識別系統(tǒng)識別精度很高,在同行業(yè)具有很大優(yōu)勢。當(dāng)我們利用外部演講機(jī)會進(jìn)行實(shí)證(實(shí)際驗(yàn)證)實(shí)驗(yàn)時,語音識別率平均達(dá)到85%。而且無需對識別結(jié)果進(jìn)行編輯,也不需要相關(guān)人員事先進(jìn)行學(xué)習(xí),就能理解發(fā)言內(nèi)容。未來我們將繼續(xù)提高語音識別準(zhǔn)確度,研討如何將其應(yīng)用到人工智能交流系統(tǒng)「RECAIUS?」領(lǐng)域。
我們也在進(jìn)行相關(guān)應(yīng)用程序的開發(fā)。比如說,面向聽覺障礙人士開發(fā)的實(shí)時字幕顯示功能。由人工智能檢測出的無意義詞語和停頓并不是被全部刪除掉,而是以淺色字體形式顯示在字幕中,讓聽覺障礙人士意識到這些詞語的存在。這是充分聽取殘障人士們的意見后,從他們的角度出發(fā),制定的精細(xì)化字幕顯示方案。
聲音自動字幕系統(tǒng)(左)和字幕顯示圖像(右)
“對我們而言,像‘嗯’、‘那個’這種無意義詞語只是會影響我們的閱讀。但是,聽覺障礙人士希望獲取到完整的信息。他們通常是跟隨說話人的嘴唇運(yùn)動來閱讀字幕,如果將無意義詞語和停頓部分刪除,就會給他們帶來‘好像說了些什么,但字幕上沒有顯示’的感受,從而產(chǎn)生焦躁情緒。
因此,我們將無意義詞語和停頓部分也保留在字幕中,但為方便閱讀,將這些部分顯示為淺色字體。當(dāng)我們需要保存記錄時,可以刪掉這些部分,制作成一份簡潔的文檔?!保ㄌJ川先生)
三、用于制造業(yè)的人工智能已見雛形,在生產(chǎn)現(xiàn)場發(fā)揮真正的價值!
2019年3月,我們有幸與DWANGO株式會社合作,通過NICONICO網(wǎng)站對“第81屆信息處理學(xué)會全國大會”的實(shí)況進(jìn)行現(xiàn)場直播,此次直播采用了帶有實(shí)時字幕的視頻形式。
為了早日投入商業(yè)使用,東芝開發(fā)團(tuán)隊(duì)正在努力提高人工智能語音系統(tǒng)的識別準(zhǔn)確度和各項(xiàng)功能。此外,東芝面向的不僅是辦公業(yè)務(wù),還包括生產(chǎn)現(xiàn)場。
“現(xiàn)實(shí)情況是,幾乎所有辦公環(huán)境都未將人工智能語音識別系統(tǒng)作為一項(xiàng)服務(wù)加以靈活應(yīng)用。在我看來最理想的狀態(tài)是,人工智能語音識別系統(tǒng)能夠得到用戶信賴而被廣泛應(yīng)用,最終成為一項(xiàng)日常業(yè)務(wù)。比如說,我現(xiàn)在所說的這些話能夠被完整地識別,并且記錄成業(yè)務(wù)級別的文檔形式,同時還能根據(jù)發(fā)言人的不同,分辨并區(qū)別記錄。我們要實(shí)現(xiàn)的目標(biāo)正是這種方便可靠的人工智能語音識別系統(tǒng)”(蘆川先生)
“目前,語音識別業(yè)務(wù)并不普及,生產(chǎn)現(xiàn)場也是如此。但是,在維修檢查時,以及工廠的某些特定場景,確實(shí)需要用免提電話記錄聲音。在這種情況下,人工智能語音識別系統(tǒng)一定會大顯身手的。將語音識別系統(tǒng)無縫融入生產(chǎn)現(xiàn)場,便于工人們將產(chǎn)生于現(xiàn)場的智慧與經(jīng)驗(yàn)記錄和傳遞。當(dāng)然,這需要進(jìn)行長期的語音識別系統(tǒng)開發(fā),并在生產(chǎn)及基礎(chǔ)設(shè)施現(xiàn)場積累足夠的知識經(jīng)驗(yàn)后才能夠?qū)崿F(xiàn)。我認(rèn)為這正是東芝開發(fā)語音識別系統(tǒng)的根本目的之一。”(藤村)
目前,日本存在著勞動力緊缺的問題。預(yù)計(jì)進(jìn)入“2020年代”后,勞動力緊缺問題將更加嚴(yán)重。我們的當(dāng)務(wù)之急是節(jié)省人力,提高生產(chǎn)效率,確保聽覺障礙人士順利獲取信息。在未來,辦公環(huán)境和生產(chǎn)現(xiàn)場對于人工智能語音識別系統(tǒng)的需求一定會不斷增長,人工智能語音識別系統(tǒng)必將大展身手。