2011年在智力問答節目《危險邊緣》中一戰成名后,IBM的超級電腦沃森一直未脫離人們關注的視野。目前,IBM已經將這臺超級電腦應用于醫療和金融等領域,而根據最新消息,IBM還將利用沃森設計移動版客戶服務應用。通過這一應用,消費者無須再與客戶服務中心聯系以獲得建議,而是直接向沃森提問即可。
基于大數據技術的沃森,為我們提供了人工智能的新思路,同時,在大數據的價值和應用方面也給我們以啟示。7月25日,參與沃森研發的IBM中國研究院信息管理與醫療健康首席科學家潘越做客IC咖啡北京站,向大家講述了超級電腦沃森背后的秘密。
瞄準自然語言處理
如果你去看一下2011年沃森和兩名人類選手的比賽視頻,一定會對沃森的“機智”欽佩不已。比賽中,沃森與兩名人類選手短兵相接,你來我往,戰得不亦樂乎。現場的觀眾也對他們的精彩表現報以熱烈的掌聲。
而在回答問題時,除了那種機器合成的略顯刻板的聲音,你幾乎看不出沃森與其他選手有什么不同。事實上,沃森比其他選手更聰明,最終以明顯優勢贏得了比賽。
那么,沃森究竟是怎么做到這一切的?
如果了解了其背后的技術原理,你不禁會對科學家的智慧感到驚嘆。
潘越表示,《危險邊緣》中的問題,不僅是開放式的,而且還是嵌套式的復雜結構。比如:一個美國的城市,這個城市最大的機場是以二戰一位英雄命名的,第二大機場是以二戰一場戰役命名的。每個問題都涉及到多方面的知識。
潘越介紹說,一開始,科學家們的想法是建立一個包含所有答案的數據庫,但由于問題的開放性,建立這樣一個數據庫顯然是不可能完成的任務。
由于《危險邊緣》的題目分不同的類型,因此,科學家又考慮能否建立某個類型的數據庫。但他們通過統計發現,《危險邊緣》在過去的歷史中,一共積累了20多萬個問題,包含2500多個類型,出現頻率最高的類型,占比不超過3%,而出現頻率排名前十的類型之和,占比也不超過20%。所以,建立某一個類型數據庫的想法也很難行得通。
最終研究人員決定,不建立數據庫,而是讓電腦直接處理自然語言,然后去尋找答案。
勝利的秘密
接下來,科學家開始對人類的思維邏輯進行分析。潘越介紹說,當人碰到一個復雜的問題時,首先要做的是去理解這個問題,然后會針對這個問題尋找答案,尋找到備選答案之后,還要為每個備選的答案尋找證據,然后對證據進行分析,最后才會確定正確答案。
遵循這一思路,科學家在沃森研制中也采取了這種分步的策略。
潘越表示,沃森在回答一個問題時,會分為幾個步驟。第一步是對問題進行分析,包括問題中的人物、時間、地點等命名實體,期待得到的答案的類型是什么以及命名實體和答案之間的關系是什么,等等。
完成第一步之后,沃森會把分析得出的關鍵詞和命名實體做備選答案的生成,通過搜索,將段落里面的句法樹和命名實體抽出來,作為備選答案。
第三步,沃森要為備選答案尋找證據。這也是一個搜索的過程。沃森會把備選答案作為關鍵詞進行搜索,得到很多文章的段落,然后再進行分析,從多個維度對備選答案進行打分。
“驗證一個備選答案,會有100多個不同的維度,沃森對這100多個維度進行評分,再折算成一個分數,然后對備選答案進行排序。”潘越說。
因此,在沃森“機智”的背后,是海量的、嚴謹的計算。演講中潘越舉了這樣一個例子:在細胞分裂中,有絲分裂分開了細胞核,而細胞分裂分開了包圍在細胞核周圍的這種液體。
在理解了這個問題之后,沃森通過不同的搜獲及抽取策略,會生成很多備選答案,如細胞器、細胞質、液泡、等離子體、線粒體。對每一個備選答案,都要從不同維度去評價其是否正確。通過上述方法,綜合各種類型判斷的技術,沃森得到了這樣一個答案:細胞質是一種包圍在細胞核周圍的流體。
接下來,沃森還要通過文本挖掘的方式,比較流體和液體這兩個詞匯。最終對細胞質是不是液體有一個判斷,然后提供一個概率值,用于表示這一判斷的置信度。
潘越介紹說,置信度對于沃森的意義是,在恰當的時機作出恰當的選擇。比如,當沃森遙遙領先對手時,即使對問題的答案有較高置信度,也未必會回答,因為這時候沃森采取的策略比較保守,保證不失分就可以了。而當沃森的領先優勢不明顯時,雖然答案的置信度低一些,但沃森也會采取比較激進的策略。“我們通過置信度管理風險和制定游戲策略。”潘越說。
IBM花費如此大精力研發沃森,顯然不僅僅是在智力問答節目中出風頭,更為看重的是沃森的商業應用。潘越表示,醫療衛生是沃森重要的應用領域。“醫學知識十分龐雜,就連專業人士也很難全部掌握。如果能夠讓機器去掌握這些醫學知識,就可以幫助醫生去作診斷。”
沃森的另一個重要應用領域是金融。潘越表示,沃森可以對相關的信息,特別是文本信息進行處理,然后作出投資決策。
不過潘越也指出,沃森所代表的“深度問答”,只是人工智能的方向之一,此外,人工智能需要突破的領域還有圖像的識別,運動的協調,以及如何理解人類語言中的概念。這些都需要科學家們進一步的努力。
(來源:中國科學報)最新展會 |
網站首頁 - 關于我們 - 使用協議 - 免責條款 - 版權隱私 - 網站地圖 - 友情鏈接 - 廣告服務 - 會員服務 - 免費注冊 - 聯系方式 | ||||||||
問題請通過在線提問反饋 | 在線客戶QQ:105452034 | 收費會員及廣告咨詢電話13332201705 技術支持:遼寧衡駿節能科技有限公司 | ||||||||
Copyright 2007- dbzz.net All Rights Reserved 東北制造網(東北地區唯一制造業網上平臺) 版權所有 遼ICP備2021008091號 遼公網安備21021702000105 | ||||||||
為獲得最佳瀏覽效果,建議使用IE7以上,或Firefox7以上瀏覽器 | ||||||||
|