雅莹直播app大全下载最新版本免费安装软件 ,薰香直播安卓版本免费安装

現(xiàn)如今，日本等國家少子化與老齡化的日趨嚴(yán)重，勞動力也變得越來越緊缺,工作方式的改革又需要業(yè)界提高生產(chǎn)效率。為同時解決這兩大難題，利用機(jī)器人實(shí)現(xiàn)業(yè)務(wù)自動化的RPA（機(jī)器人流程自動化）技術(shù)引起了社會廣泛關(guān)注。以金融業(yè)為主的各個行業(yè)已開始引入RPA技術(shù)，并取得了顯著成果。比如說,實(shí)現(xiàn)了自動創(chuàng)建文檔與錄入數(shù)據(jù)錄等功能。

目前，市面上已經(jīng)出現(xiàn)了能夠?qū)⒄Z音自動轉(zhuǎn)換成文字的人工智能軟件。但由于精準(zhǔn)的文字轉(zhuǎn)換難度超出想象，對于會議、演講等記錄工作，我們不得不繼續(xù)采用人工方式。

我們該如何解決這一問題呢？――東芝給出的方案是全新開發(fā)的人工智能語音識別系統(tǒng)。

為了解人工智能語音識別系統(tǒng)的需求背景和開發(fā)過程需要突破的技術(shù)難題，我們咨詢了東芝株式會社研究開發(fā)中心的兩位負(fù)責(zé)人——蘆川先生與藤村先生。

一、快速準(zhǔn)確地將語音轉(zhuǎn)換成文字，并通過清晰字幕實(shí)時顯示！

東芝一直致力于拓展智能媒體領(lǐng)域的業(yè)務(wù)（智能媒體是對人類語音和圖像進(jìn)行知識處理，并加以靈活應(yīng)用的技術(shù)）。長年積累的技術(shù)開發(fā)經(jīng)驗(yàn)極大地推動了人工智能語音識別系統(tǒng)的開發(fā)。

此次開發(fā)項(xiàng)目的研討工作始于2015年。那一年恰逢“信息無障礙”環(huán)境建設(shè)的風(fēng)口，日本政府號召民眾,努力打造一個便于殘障人士無障礙地獲取各類信息的社會環(huán)境。對此，東芝早早就開始了通用設(shè)計(jì)產(chǎn)品和服務(wù)的開發(fā)工作，建立了成熟的通用設(shè)計(jì)（UD）顧問制度，并邀請身體有殘障的員工參與產(chǎn)品開發(fā)。

蘆川先生表示：“聽覺障礙人士的普遍心聲是希望實(shí)時參與會議和講演，而不是通過事后查看文字記錄的方式來了解會議與講演內(nèi)容。我們的計(jì)劃是引入一個能夠自動顯示實(shí)時文字信息的字幕，方便聽覺障礙人士了解相關(guān)內(nèi)容，從而幫助殘障人士實(shí)現(xiàn)‘信息獲取’與‘效率提升’兩大目標(biāo)。人工智能語音識別系統(tǒng)的開發(fā)工作正是朝著這兩大目標(biāo)進(jìn)行的。”（蘆川先生）

株式會社東芝研究開發(fā)中心人工智能媒體實(shí)驗(yàn)室研究主任蘆川平

株式會社東芝研究開發(fā)中心
人工智能媒體實(shí)驗(yàn)室研究主任蘆川平

二、提高算法的準(zhǔn)確度，語音識別率高達(dá)85％！

接觸過文字轉(zhuǎn)換的朋友都深有體會：將對話、講義及講演等語音忠實(shí)、完整地轉(zhuǎn)換成文字，反而會變成一篇晦澀難懂的文章。轉(zhuǎn)換后的文字信息會出現(xiàn)很多冗余的內(nèi)容，比如：“嗯”、“那個”等無意義詞語，以及對理解內(nèi)容毫無幫助的隨聲附和語句等。

此次的人工智能語音識別系統(tǒng)能夠精準(zhǔn)地識別出說話人的語音，并且可以分辨出無意義的詞語和停頓部分。這一功能對于提高工作效率極為重要。人工智能的核心是算法，據(jù)說為了提高算法的準(zhǔn)確度，開發(fā)團(tuán)隊(duì)設(shè)立了各種各樣的課題并進(jìn)行了深入研究。

“在開始階段，我們屢屢碰壁，發(fā)現(xiàn)提高識別精度是非常困難的一件事。我們的目的不在于開發(fā)和研究本身。說到底，我們的目的是為用戶帶來方便。通過采用日漸流行的LSTM¹模型以及CTC學(xué)習(xí)²手段，能夠根據(jù)語音特征，識別出人類特有的無意義詞語、停頓等部分”（藤村）
1 LSTM（長短期記憶）：RNN（遞歸神經(jīng)網(wǎng)絡(luò)）的一種高級形式，其隱藏層中含有遞歸結(jié)構(gòu)。能夠?qū)﹂L期依賴關(guān)系進(jìn)行學(xué)習(xí)，而這種學(xué)習(xí)能力是傳統(tǒng)RNN無法實(shí)現(xiàn)的。
2 CTC（聯(lián)結(jié)主義時間分類）：針對輸入輸出的序列長度差異問題，通過引入空字符和設(shè)計(jì)損失函數(shù)的方法，來導(dǎo)入RNN的手段。

株式會社東芝研究開發(fā)中心人工智能媒體實(shí)驗(yàn)室主任研究員藤村浩司

株式會社東芝研究開發(fā)中心
人工智能媒體實(shí)驗(yàn)室主任研究員藤村浩司

傳統(tǒng)的語音識別系統(tǒng)是采用分析波形的方法，將不同波形的語音確定為相應(yīng)假名，例如：“ア”或“イ”等，然后進(jìn)行分析。但是，無意義詞語和停頓的波形千變?nèi)f化，存在無數(shù)種形式，采用逐一分析的方式是無法窮盡的。

“無意義詞語是填充話語之間的空白部分，而停頓則是話語之間的休息片斷。通過LSTM模型能夠把話語中的這些部轉(zhuǎn)換為統(tǒng)計(jì)模型，然后再通過CTC對模型進(jìn)行識別訓(xùn)練。這樣一來，就能夠檢測出擁有無數(shù)種形式的無意義詞語、停頓部分了。

目前尚無一家公司能夠開發(fā)出完全準(zhǔn)確的語音識別系統(tǒng)。更廣闊的開發(fā)空間和更高的技術(shù)等待著我們?nèi)ヌ剿?。我們的語音識別系統(tǒng)目前能夠支持日語、英語、漢語三種語言，但這遠(yuǎn)遠(yuǎn)不夠，我們的終極目標(biāo)是讓不同語種的人士可以圍坐于圓桌旁輕松暢聊，讓科幻小說和漫畫中的未來場景在現(xiàn)實(shí)中一一實(shí)現(xiàn)。當(dāng)然，那需要超高的準(zhǔn)確度，可以說我們開發(fā)工作就是讓夢想照進(jìn)現(xiàn)實(shí)?！保ㄌ俅澹?/p>

目前，我們的人工智能語音識別系統(tǒng)識別精度很高，在同行業(yè)具有很大優(yōu)勢。當(dāng)我們利用外部演講機(jī)會進(jìn)行實(shí)證（實(shí)際驗(yàn)證）實(shí)驗(yàn)時，語音識別率平均達(dá)到85％。而且無需對識別結(jié)果進(jìn)行編輯，也不需要相關(guān)人員事先進(jìn)行學(xué)習(xí)，就能理解發(fā)言內(nèi)容。未來我們將繼續(xù)提高語音識別準(zhǔn)確度，研討如何將其應(yīng)用到人工智能交流系統(tǒng)「RECAIUS?」領(lǐng)域。

我們也在進(jìn)行相關(guān)應(yīng)用程序的開發(fā)。比如說，面向聽覺障礙人士開發(fā)的實(shí)時字幕顯示功能。由人工智能檢測出的無意義詞語和停頓并不是被全部刪除掉，而是以淺色字體形式顯示在字幕中，讓聽覺障礙人士意識到這些詞語的存在。這是充分聽取殘障人士們的意見后，從他們的角度出發(fā)，制定的精細(xì)化字幕顯示方案。

聲音自動字幕系統(tǒng)（左）和字幕顯示圖像（右）

“對我們而言，像‘嗯’、‘那個’這種無意義詞語只是會影響我們的閱讀。但是，聽覺障礙人士希望獲取到完整的信息。他們通常是跟隨說話人的嘴唇運(yùn)動來閱讀字幕，如果將無意義詞語和停頓部分刪除，就會給他們帶來‘好像說了些什么，但字幕上沒有顯示’的感受，從而產(chǎn)生焦躁情緒。

因此，我們將無意義詞語和停頓部分也保留在字幕中，但為方便閱讀，將這些部分顯示為淺色字體。當(dāng)我們需要保存記錄時，可以刪掉這些部分，制作成一份簡潔的文檔?！保ㄌJ川先生）

三、用于制造業(yè)的人工智能已見雛形，在生產(chǎn)現(xiàn)場發(fā)揮真正的價值！

2019年3月，我們有幸與DWANGO株式會社合作，通過NICONICO網(wǎng)站對“第81屆信息處理學(xué)會全國大會”的實(shí)況進(jìn)行現(xiàn)場直播，此次直播采用了帶有實(shí)時字幕的視頻形式。

為了早日投入商業(yè)使用，東芝開發(fā)團(tuán)隊(duì)正在努力提高人工智能語音系統(tǒng)的識別準(zhǔn)確度和各項(xiàng)功能。此外，東芝面向的不僅是辦公業(yè)務(wù)，還包括生產(chǎn)現(xiàn)場。

“現(xiàn)實(shí)情況是，幾乎所有辦公環(huán)境都未將人工智能語音識別系統(tǒng)作為一項(xiàng)服務(wù)加以靈活應(yīng)用。在我看來最理想的狀態(tài)是，人工智能語音識別系統(tǒng)能夠得到用戶信賴而被廣泛應(yīng)用，最終成為一項(xiàng)日常業(yè)務(wù)。比如說，我現(xiàn)在所說的這些話能夠被完整地識別，并且記錄成業(yè)務(wù)級別的文檔形式，同時還能根據(jù)發(fā)言人的不同，分辨并區(qū)別記錄。我們要實(shí)現(xiàn)的目標(biāo)正是這種方便可靠的人工智能語音識別系統(tǒng)”（蘆川先生）

“目前，語音識別業(yè)務(wù)并不普及，生產(chǎn)現(xiàn)場也是如此。但是，在維修檢查時，以及工廠的某些特定場景，確實(shí)需要用免提電話記錄聲音。在這種情況下，人工智能語音識別系統(tǒng)一定會大顯身手的。將語音識別系統(tǒng)無縫融入生產(chǎn)現(xiàn)場，便于工人們將產(chǎn)生于現(xiàn)場的智慧與經(jīng)驗(yàn)記錄和傳遞。當(dāng)然，這需要進(jìn)行長期的語音識別系統(tǒng)開發(fā)，并在生產(chǎn)及基礎(chǔ)設(shè)施現(xiàn)場積累足夠的知識經(jīng)驗(yàn)后才能夠?qū)崿F(xiàn)。我認(rèn)為這正是東芝開發(fā)語音識別系統(tǒng)的根本目的之一。”（藤村）

目前，日本存在著勞動力緊缺的問題。預(yù)計(jì)進(jìn)入“2020年代”后，勞動力緊缺問題將更加嚴(yán)重。我們的當(dāng)務(wù)之急是節(jié)省人力，提高生產(chǎn)效率，確保聽覺障礙人士順利獲取信息。在未來，辦公環(huán)境和生產(chǎn)現(xiàn)場對于人工智能語音識別系統(tǒng)的需求一定會不斷增長，人工智能語音識別系統(tǒng)必將大展身手。

天魅直播免费版app下载-天魅直播永久免费版下载-天魅直播最新下载安装

熱門分類

熱門標(biāo)簽

相關(guān)文章

語音瞬間轉(zhuǎn)換成文字！

人工智能（AI）開啟工作的新方式