華為諾亞方舟實驗室語音語義首席科學家劉群指出,隨著人類進入智能時代,智能設備和數(shù)據(jù)量都空前增長,通過語音和語言進行人機交互的需求也在急速增長,語音和自然語言處理領域?qū)⒂楷F(xiàn)更多有影響力的前沿研究和技術(shù)創(chuàng)新。
自然語言是人類智慧的獨特表現(xiàn)。自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域的一個重要研究方向,旨在研究人機之間用自然語言進行有效通信的理論和方法。根據(jù)Gartner發(fā)布的《2018世界人工智能產(chǎn)業(yè)發(fā)展藍皮書》,到2021年,全球自然語言處理市場的價值預計會達到160億美元。
自然語言處理是AI皇冠上的明珠
《營贏》:從整個科學領域的角度來考慮,您覺得自然語言處理的意義是什么?
劉群:語言學是一門古老的學科,人類為什么會有語言?動物為什么沒有發(fā)展出人類這樣復雜高級的語言?語言機制是人類大腦中先天就有的,還是像其他能力一樣后天獲得的?語言是如何形成和發(fā)展的?語言本身服從一些怎樣的規(guī)律?無數(shù)的不解之謎等待著科學家來回答。
計算語言學,或者自然語言處理,既是一門科學,也是一門應用技術(shù)。從科學角度說,像其他計算機科學一樣,它是一種從模擬角度來研究語言的學科。自然語言處理并不直接研究人類語言的機制,而是試圖讓機器去模擬人類的語言能力。如果說計算機擁有了像人一樣的語言能力,從某種角度,我們就可以說,我們理解了人類的語言機制。由于理解自然語言需要關(guān)于外在世界的廣泛知識以及運用操作這些知識的能力,所以自然語言處理是一個人工智能完備(AI-complete)的問題,并被視為人工智能的核心問題之一。
《營贏》:有人認為自然語言處理應該是實現(xiàn)通用人工智能的關(guān)鍵挑戰(zhàn),得語言者得天下,您怎么看?
劉群:這句話有一定的道理。有人把人的智能分為三大類:感知智能、運動智能和認知智能。
第一,感知智能,包括聽覺、視覺、觸覺等;最近兩年,深度學習的引入大幅度提高了語音和圖像的識別率,所以計算機在感知智能層面已經(jīng)做得相當不錯了,在一些典型的測試下,達到或者超過了人類的平均水平。
第二,運動智能,指能夠在復雜的環(huán)境中自由行動的能力。運動智能是機器人研究的核心問題之一。
第三,認知智能屬于最高級的智能活動。動物也具有感知智能和運動智能,但在認知智能方面,卻明顯低于人類。認知智能是包括理解、運用語言的能力,掌握知識、運用知識的能力,以及在語言和知識基礎上的推理、規(guī)劃和決策能力。認知智能中最基礎也是最重要的部分就是語言智能,研究語言智能的學科就是自然語言處理。
自然語言處理的研究對象是人類語言,如詞語、短語、句子、篇章等。通過對這些語言單位的分析,我們不僅希望理解語言所表達的字面含義,還希望能理解說話人所表達的情感,以及說話人通過語言所傳達的意圖。沒有成功的自然語言處理,就不會有真正的認知智能。
自然語言理解和處理也是人工智能中最難的部分。比如一幅圖像,改變像素,或者一個局部,對整個圖像的內(nèi)容影響并不太大。但文字就不一樣了,很多情況下,一句話中改變一個字,意思會完全不一樣。
很多人工智能/機器學習技術(shù),在圖像識別領域,已經(jīng)獲得了很大的成功,但在自然語言處理領域,還處于起步的階段。比如說,風格的生成?,F(xiàn)在人們很容易把一幅畫轉(zhuǎn)變成梵高的風格,但要把一段話轉(zhuǎn)換成莎士比亞風格,還沒有技術(shù)能夠做得很好。
所以,有些學者把自然語言處理稱為人工智能皇冠上的明珠,是很有道理的,我非常認同這種說法。
自然語言處理的賽道
《營贏》:您認為目前自然語言處理面臨的最大問題是什么?
劉群:我認為自然語言處理今后面臨的主要問題是兩個。
一是語義理解,或者說知識的學習,或常識的學習問題。這是自然語言處理技術(shù)如何變得更深的問題。盡管常識的理解對人類來說不是問題,但是它卻很難被教給機器。比如我們可以對手機助手說查找附近的餐館,手機就會在地圖上顯示出附近餐館的位置。但你如果說我餓了,手機助手可能就無動于衷,因為它缺乏餓了需要就餐這樣的常識,除非手機設計者把這種常識灌入到了這個系統(tǒng)中。但大量的這種常識都潛藏在我們意識的深處,AI系統(tǒng)的設計者幾乎不可能把所有這樣的常識都總結(jié)出來,并灌入到系統(tǒng)中。
二是低資源問題。所謂無監(jiān)督學習、Zero-shot學習、Few-shot學習、元學習、遷移學習等技術(shù),本質(zhì)上都是為了解決低資源問題。面對標注數(shù)據(jù)資源貧乏的問題,譬如小語種的機器翻譯、特定領域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問答系統(tǒng)等,自然語言處理尚無良策。這類問題統(tǒng)稱為低資源的自然語言處理問題。對這類問題,我們除了設法引入領域知識(詞典、規(guī)則)以增強數(shù)據(jù)能力之外,還可以基于主動學習的方法來增加更多的人工標注數(shù)據(jù),以及采用無監(jiān)督和半監(jiān)督的方法來利用未標注數(shù)據(jù),或者采用多任務學習的方法來使用其他任務,甚至其他語言的信息,還可以使用遷移學習的方法來利用其他的模型。這是自然語言處理技術(shù)如何變得更廣的問題。
《營贏》:過去十年,自然語言處理領域影響最深遠的研究是什么?
劉群:答案很明確,就是深度學習技術(shù)的引入。
基于深層神經(jīng)網(wǎng)絡的深度學習方法從根本上改變了自然語言處理技術(shù)的面貌,把自然語言處理問題的定義和求解從離散的符號域搬到了連續(xù)的數(shù)值域,導致整個問題的定義和所使用的數(shù)學工具與以前完全不同,極大地促進了自然語言處理研究的發(fā)展。
在深度學習技術(shù)引入自然語言處理之前,自然語言處理所使用的數(shù)學工具跟語音、圖像、視頻處理所使用的數(shù)學工具截然不同,這些不同模態(tài)之間的信息流動存在巨大的壁壘。而深度學習的應用,把自然語言處理和語音、圖像、視頻處理所使用的數(shù)學工具統(tǒng)一起來了,從而打破了這些不同模態(tài)信息之間的壁壘,使得多模態(tài)信息的處理和融合成為可能。
總之,深度學習的應用,使得自然語言處理達到了前所未有的水平,也使得自然語言處理應用的范圍大大擴展??梢哉f,自然語言處理的春天已經(jīng)來臨。
《營贏》:自然語言處理對框架乃至硬件層面提出了哪些獨特的需求呢?
劉群:AI研究對硬件的需求是無止境的??梢哉f,貧窮限制了想象力,硬件限制了模型。只有在更好的硬件條件下,科學家才能嘗試更復雜的模型,才能發(fā)展出更新更好的方法。
我不覺得自然語言處理對框架和硬件有獨特的需求,自然語言處理的需求跟其他AI研究的需求應該是類似的,更多的內(nèi)存、更高的帶寬、更多的并行、更高的速度,永遠都是需求的。有了這些,針對自然語言處理問題做一些特定的優(yōu)化,并不是太大的問題。
《營贏》:2018年,學術(shù)界有哪些新的方法或者趨勢,讓您覺得會對自然語言處理的應用產(chǎn)生新的影響?
劉群:2018年自然語言處理研究領域最令人驚艷的成果是預訓練語言模型,這包括基于RNN的Elmo和基于Transformer的GPT和Bert。預訓練語言模型的成功充分證明了我們可以從海量的無標注文本中學到大量潛在的知識,而無需為每一項自然語言處理任務都標注大量的數(shù)據(jù)。
在應用方面,Google演示的Duplex技術(shù)讓人耳目一新。與此同時,國內(nèi)幾個公司提供的會議同聲翻譯技術(shù)也令人印象深刻,語音同傳雖然還有很多錯誤,與人類同聲傳譯相比還有很大差距,但其實用性已經(jīng)毋庸置疑。這項技術(shù)的實際應用在幾年前還難以想象,在這么短時間內(nèi)就達到了現(xiàn)在這樣可以初步實用的水平,真是非常出乎意料。
華為發(fā)力自然語言處理
《營贏》:華為諾亞方舟實驗室在自然語言處理領域的技術(shù)布局包括哪些?取得了哪些進展?
劉群:華為諾亞方舟實驗室的自然語言處理研究主要包括三個大的方向:語音技術(shù)、機器翻譯和對話技術(shù)。
諾亞方舟的自然語言處理技術(shù),已經(jīng)開始在華為的各種產(chǎn)品和服務中獲得廣泛的應用。以大家日常使用的華為手機為例,華為的手機語音助手就集成了諾亞方舟的語音識別和對話技術(shù)。諾亞方舟的機器翻譯技術(shù)支持了華為內(nèi)部海量的技術(shù)資料的翻譯。諾亞方舟基于知識圖譜的問答技術(shù)為華為的全球技術(shù)支持系統(tǒng)(GTS),提供了快速準確地回答復雜技術(shù)問題的能力。
諾亞方舟實驗室的自然語言處理在研究方面也取得了突出的成果。我們在自然語言文本匹配、對話生成、神經(jīng)網(wǎng)絡機器翻譯方面的研究成果被研究者廣泛引用。在NIPS近五年來引用最多的50篇論文中就有一篇是我們的論文,在ACL近五年來應用最高的20篇論文中也有我們的一篇論文、引用最高的30篇論文中有我們的3篇論文。
《營贏》:聽覺、視覺結(jié)合的多模態(tài)是否會是自然語言處理未來很有前途的研究方向?華為是否已有這方面的研究了?
劉群:是的。我們已經(jīng)開始在這一領域開展研究了。
自然語言處理場景應用產(chǎn)業(yè)化
《營贏》:自然語言作為人類社會信息的載體,使得自然語言處理不只是計算機科學的專屬。自然語言處理如何能成為其他領域(如金融、法律、醫(yī)療健康等)的重要支撐技術(shù)?
劉群:自然語言處理技術(shù)早已深入我們的日常生活。很多人都沒有意識到,我們每天都在享受自然語言處理技術(shù)提供的便利,比如,拼音輸入法。很多人大概有印象,20年前流行過五筆字型輸入法。但后來,拼音輸入法幾乎完全取代了五筆字型。
其實當年五筆字型流行的時候并非沒有拼音輸入法,那時的拼音輸入法智能程度非常低,用戶需要為每一個拼音從大量同音字中選擇正確的漢字,聯(lián)想功能也非常弱,輸入速度非常慢。只有到后來自然語言處理技術(shù)取得了長足的進步,統(tǒng)計語言模型使得我們能夠為一長串的拼音自動選擇最可能的漢字序列,才使得拼音輸入法最終取代五筆字型,并占據(jù)了漢字輸入法的主導地位。
另外,現(xiàn)在的搜索引擎也大量使用了自然語言處理技術(shù)。你在百度或者谷歌搜索四川的人口,搜索引擎除了給你一系列相關(guān)的網(wǎng)頁以外,還會直接給出一個具體的答案,這就用到了自然語言問答技術(shù)。
在金融、法律、醫(yī)療健康等領域,自然語言處理技術(shù)也得到了越來越廣泛的應用。在金融領域,自然語言處理可以為證券投資提供各種分析數(shù)據(jù),如熱點挖掘、輿情分析等,還可以進行金融風險分析、欺詐識別等。在法律領域,自然語言處理可以幫助進行案例搜索、判決預測、法律文書自動生成、法律文本翻譯、智能問答等等。在醫(yī)療健康領域,自然語言處理技術(shù)更是有著廣闊的應用前景,如病歷的輔助錄入、醫(yī)學資料的檢索和分析、輔助診斷等等?,F(xiàn)代醫(yī)學資料浩如煙海,新的醫(yī)學手段、方法發(fā)展迅猛,沒有任何醫(yī)生和專家能夠掌握所有的醫(yī)學發(fā)展的動態(tài),自然語言處理可以幫助醫(yī)生快速準確地找到各種疑難病癥最近的研究進展,使得病人最快地享受醫(yī)學技術(shù)進步的成果。
《營贏》:自然語言的研究對普通人有什么影響,會給我們的生活帶來什么方便或沖擊?
劉群:會讓大家的生活越來越方便。比如打客服電話,你不用再選擇一大堆的語音菜單。語音助手可以理解你的需求,貼心地幫你完成日常生活中的各種任務。機器甚至可以幫你寫報告、寫詩、寫情書等等。與此同時,技術(shù)的進步也會給我們的生活帶來一些沖擊。比如就業(yè)方面,機器取代人工會造成一些人失業(yè)。但新技術(shù)的應用讓一些職業(yè)消失的同時,又創(chuàng)造出大量新的就業(yè)機會。作為個人應該主動積極地想辦法去適應這種變化,而不是消極等待和抱怨。