位置:首頁 -> 行業(yè)新聞 -> 國(guó)際市場(chǎng) |
2011年在智力問答節(jié)目《危險(xiǎn)邊緣》中一戰(zhàn)成名后,IBM的超級(jí)電腦沃森一直未脫離人們關(guān)注的視野。目前,IBM已經(jīng)將這臺(tái)超級(jí)電腦應(yīng)用于醫(yī)療和金融等領(lǐng)域,而根據(jù)最新消息,IBM還將利用沃森設(shè)計(jì)移動(dòng)版客戶服務(wù)應(yīng)用。通過這一應(yīng)用,消費(fèi)者無須再與客戶服務(wù)中心聯(lián)系以獲得建議,而是直接向沃森提問即可。
基于大數(shù)據(jù)技術(shù)的沃森,為我們提供了人工智能的新思路,同時(shí),在大數(shù)據(jù)的價(jià)值和應(yīng)用方面也給我們以啟示。7月25日,參與沃森研發(fā)的IBM中國(guó)研究院信息管理與醫(yī)療健康首席科學(xué)家潘越做客IC咖啡北京站,向大家講述了超級(jí)電腦沃森背后的秘密。
瞄準(zhǔn)自然語言處理
如果你去看一下2011年沃森和兩名人類選手的比賽視頻,一定會(huì)對(duì)沃森的“機(jī)智”欽佩不已。比賽中,沃森與兩名人類選手短兵相接,你來我往,戰(zhàn)得不亦樂乎。現(xiàn)場(chǎng)的觀眾也對(duì)他們的精彩表現(xiàn)報(bào)以熱烈的掌聲。
而在回答問題時(shí),除了那種機(jī)器合成的略顯刻板的聲音,你幾乎看不出沃森與其他選手有什么不同。事實(shí)上,沃森比其他選手更聰明,最終以明顯優(yōu)勢(shì)贏得了比賽。
那么,沃森究竟是怎么做到這一切的?
如果了解了其背后的技術(shù)原理,你不禁會(huì)對(duì)科學(xué)家的智慧感到驚嘆。
潘越表示,《危險(xiǎn)邊緣》中的問題,不僅是開放式的,而且還是嵌套式的復(fù)雜結(jié)構(gòu)。比如:一個(gè)美國(guó)的城市,這個(gè)城市最大的機(jī)場(chǎng)是以二戰(zhàn)一位英雄命名的,第二大機(jī)場(chǎng)是以二戰(zhàn)一場(chǎng)戰(zhàn)役命名的。每個(gè)問題都涉及到多方面的知識(shí)。
潘越介紹說,一開始,科學(xué)家們的想法是建立一個(gè)包含所有答案的數(shù)據(jù)庫,但由于問題的開放性,建立這樣一個(gè)數(shù)據(jù)庫顯然是不可能完成的任務(wù)。
由于《危險(xiǎn)邊緣》的題目分不同的類型,因此,科學(xué)家又考慮能否建立某個(gè)類型的數(shù)據(jù)庫。但他們通過統(tǒng)計(jì)發(fā)現(xiàn),《危險(xiǎn)邊緣》在過去的歷史中,一共積累了20多萬個(gè)問題,包含2500多個(gè)類型,出現(xiàn)頻率最高的類型,占比不超過3%,而出現(xiàn)頻率排名前十的類型之和,占比也不超過20%。所以,建立某一個(gè)類型數(shù)據(jù)庫的想法也很難行得通。
最終研究人員決定,不建立數(shù)據(jù)庫,而是讓電腦直接處理自然語言,然后去尋找答案。
勝利的秘密
接下來,科學(xué)家開始對(duì)人類的思維邏輯進(jìn)行分析。潘越介紹說,當(dāng)人碰到一個(gè)復(fù)雜的問題時(shí),首先要做的是去理解這個(gè)問題,然后會(huì)針對(duì)這個(gè)問題尋找答案,尋找到備選答案之后,還要為每個(gè)備選的答案尋找證據(jù),然后對(duì)證據(jù)進(jìn)行分析,最后才會(huì)確定正確答案。
遵循這一思路,科學(xué)家在沃森研制中也采取了這種分步的策略。
潘越表示,沃森在回答一個(gè)問題時(shí),會(huì)分為幾個(gè)步驟。第一步是對(duì)問題進(jìn)行分析,包括問題中的人物、時(shí)間、地點(diǎn)等命名實(shí)體,期待得到的答案的類型是什么以及命名實(shí)體和答案之間的關(guān)系是什么,等等。
完成第一步之后,沃森會(huì)把分析得出的關(guān)鍵詞和命名實(shí)體做備選答案的生成,通過搜索,將段落里面的句法樹和命名實(shí)體抽出來,作為備選答案。
第三步,沃森要為備選答案尋找證據(jù)。這也是一個(gè)搜索的過程。沃森會(huì)把備選答案作為關(guān)鍵詞進(jìn)行搜索,得到很多文章的段落,然后再進(jìn)行分析,從多個(gè)維度對(duì)備選答案進(jìn)行打分。
“驗(yàn)證一個(gè)備選答案,會(huì)有100多個(gè)不同的維度,沃森對(duì)這100多個(gè)維度進(jìn)行評(píng)分,再折算成一個(gè)分?jǐn)?shù),然后對(duì)備選答案進(jìn)行排序。”潘越說。
因此,在沃森“機(jī)智”的背后,是海量的、嚴(yán)謹(jǐn)?shù)挠?jì)算。演講中潘越舉了這樣一個(gè)例子:在細(xì)胞分裂中,有絲分裂分開了細(xì)胞核,而細(xì)胞分裂分開了包圍在細(xì)胞核周圍的這種液體。
在理解了這個(gè)問題之后,沃森通過不同的搜獲及抽取策略,會(huì)生成很多備選答案,如細(xì)胞器、細(xì)胞質(zhì)、液泡、等離子體、線粒體。對(duì)每一個(gè)備選答案,都要從不同維度去評(píng)價(jià)其是否正確。通過上述方法,綜合各種類型判斷的技術(shù),沃森得到了這樣一個(gè)答案:細(xì)胞質(zhì)是一種包圍在細(xì)胞核周圍的流體。
接下來,沃森還要通過文本挖掘的方式,比較流體和液體這兩個(gè)詞匯。最終對(duì)細(xì)胞質(zhì)是不是液體有一個(gè)判斷,然后提供一個(gè)概率值,用于表示這一判斷的置信度。
潘越介紹說,置信度對(duì)于沃森的意義是,在恰當(dāng)?shù)臅r(shí)機(jī)作出恰當(dāng)?shù)倪x擇。比如,當(dāng)沃森遙遙領(lǐng)先對(duì)手時(shí),即使對(duì)問題的答案有較高置信度,也未必會(huì)回答,因?yàn)檫@時(shí)候沃森采取的策略比較保守,保證不失分就可以了。而當(dāng)沃森的領(lǐng)先優(yōu)勢(shì)不明顯時(shí),雖然答案的置信度低一些,但沃森也會(huì)采取比較激進(jìn)的策略。“我們通過置信度管理風(fēng)險(xiǎn)和制定游戲策略。”潘越說。
IBM花費(fèi)如此大精力研發(fā)沃森,顯然不僅僅是在智力問答節(jié)目中出風(fēng)頭,更為看重的是沃森的商業(yè)應(yīng)用。潘越表示,醫(yī)療衛(wèi)生是沃森重要的應(yīng)用領(lǐng)域。“醫(yī)學(xué)知識(shí)十分龐雜,就連專業(yè)人士也很難全部掌握。如果能夠讓機(jī)器去掌握這些醫(yī)學(xué)知識(shí),就可以幫助醫(yī)生去作診斷。”
沃森的另一個(gè)重要應(yīng)用領(lǐng)域是金融。潘越表示,沃森可以對(duì)相關(guān)的信息,特別是文本信息進(jìn)行處理,然后作出投資決策。
不過潘越也指出,沃森所代表的“深度問答”,只是人工智能的方向之一,此外,人工智能需要突破的領(lǐng)域還有圖像的識(shí)別,運(yùn)動(dòng)的協(xié)調(diào),以及如何理解人類語言中的概念。這些都需要科學(xué)家們進(jìn)一步的努力。
(來源:中國(guó)科學(xué)報(bào))最新展會(huì) |
活躍企業(yè) | 更多 |
網(wǎng)站首頁 - 關(guān)于我們 - 使用協(xié)議 - 免責(zé)條款 - 版權(quán)隱私 - 網(wǎng)站地圖 - 友情鏈接 - 廣告服務(wù) - 會(huì)員服務(wù) - 免費(fèi)注冊(cè) - 聯(lián)系方式 | ||||||||
問題請(qǐng)通過在線提問反饋 | 在線客戶QQ:105452034 | 收費(fèi)會(huì)員及廣告咨詢電話13332201705 技術(shù)支持:遼寧衡駿節(jié)能科技有限公司 | ||||||||
Copyright 2007- dbzz.net All Rights Reserved 東北制造網(wǎng)(東北地區(qū)唯一制造業(yè)網(wǎng)上平臺(tái)) 版權(quán)所有 遼ICP備2021008091號(hào) 遼公網(wǎng)安備21021702000105 | ||||||||
為獲得最佳瀏覽效果,建議使用IE7以上,或Firefox7以上瀏覽器 | ||||||||
|