IBM李永輝 從人工智慧到大資料的終點

2021-09-23 02:34:52 字數 4946 閱讀 7745

zdnet至頂網軟體頻道訊息:人工智慧技術在大資料領域發揮的作用日益重要,it技術人員對ibm waston的興趣也與日俱增。近日,ibm科技部的傑出工程師李永輝參加了2023年中國大資料技術大會 ,並接受了csdn雲計算的專訪,以waston為例分析了人工智慧技術的行業應用實踐和前景。李永輝認為,通過結構化資料和非結構化資料的結合產生智慧型是大資料未來的方向,以watson為代表的感知運算技術正是要實現這一目標,其能力將融入到各種行業解決方案或者it產品中發揮作用,包括採用雲端交付的模式。

專訪內容整理如下:

csdn:請您先介紹一下ibm 如何認識大資料技術的一些最新進展。

李永輝:首先祝賀2023年中國大資料大會取得成功,我們今天很高興看到在會場有超過1000人參加大會,包括各個廠商和很多海外的專家,這代表大資料在中國的巨大影響和關注度。從ibm的角度看起來,大資料的4v在未來都會有很多不同的發展,以至於未來的系統從硬體、軟體的發展方向都會著重這4個v的配合。

ibm認為,針對結構化資料處理的傳統資料庫技術,和針對非結構化資料的nosql技術,未來都會有很大的發展。我們希望結合結構化資料跟非結構化資料產生一些洞悉來指導業務創新,這是我們看到未來發展的乙個終點。

csdn:對不同型別的資料價值的挖掘,ibm現在也特別看重人工智慧,您覺得哪些大資料問題需要我們採用人工智慧的技術來解決?

李永輝:ibm把人工智慧歸類為感知運算的乙個發展方向,感知運算的特點在於從傳統的結構化資料的處理到未來的大資料、非結構化流動資料的處理,從原來簡單的資料查詢到未來發現資料、挖掘資料的重點。現在我們只是看人產生的資料,未來可能會有更多的一些物件產生的資料、物聯網產生的資料、機器產生的資料等等,需要乙個更具智慧型的選擇。

至於未來的使用方向,隨著計算資源成本的降低、工具的開放和一些開源產品的發展,門檻會越來越低,而且感知運算未來會朝多個方向發展,針對不同的行業會有它自己自身的特性,而且每乙個發展出來的產品會有更低的門檻,融入在未來的一些it產品或者是應用裡邊一起發展。

csdn:waston是ibm感知運算技術的代表,您覺得它在產業中的優勢如何體現?

李永輝:watson是ibm為紀念100周年而設計和研究,參加了2023年美國電視遊戲節目《危險邊緣》jeopardy並贏得了第二次人機大戰。我們採用深度答問技術,通過語義分析抓取關鍵字眼,分析問題本質,把它解拆到多台機器裡面,並行做分析做搜尋對比,綜合起來得出乙個結果。

這台機器的特點在於結合了ibm在各個領域最好的技術,硬體平台是乙個橫向擴充套件到2880個power核心的集群,配合gpfs的檔案系統做好高效能計算、彈性擴充套件、高度並行化和分級儲存管理,軟體則結合ibm多年累積的研發成果,包括人類自然語言的解析能力,自我學習的能力,非結構化資料分析的功能集中在一起,所以是ibm最強的裝置與最好的軟體的組合。未來watson的技術會使用在不同的領域,優秀能力會整合到ibm未來的產品中。

csdn:您剛才說針對不同的行業會有各種解決方案,能否介紹基於waston的不同行業解決方案?是否有一些可以通過雲環境交付的?

李永輝:贏了第二次人機大戰以後,我們就希望把watson商品化,透過它的技術融入到我們的產品,也結合不同的行業專家一起做。首先我們選擇的是醫療行業,主要希望來解決人類目前解決不了的癌症**難題,或者說是為治癌症提供一種建議。

第二個行業我們切入金融行業,因為我們看到金融行業裡邊有很多的需求,像風險的管理,客戶關係的管理,還有像那些財務報表的分析等等,實際上都可以通過watson的自我分析能力提供輔助。往後我們還有不同行業的支援。

在雲端的環境發展,watson未來的計畫之一是希望變成一種可服務的方式,包括在雲端提供一些api的方式,來提供使用。目前有7個服務放在ibm bluemix平台上,可以讓使用者用起來。這些服務很多是跟語言的解析、分析有關係的。可見的未來,我們會陸陸續續地提供更多的能力到網上。

csdn:語言解析/分析在大資料中也有很多的應用,但中國和外國的語言會有一些區別,需要本地化,waston系統針對中國做了哪些本地化的研發呢?另外有哪些成功的案例?

李永輝:語言的解析跟各個國家的文化、語言使用習慣有很大的關係,而且需要乙個學習的過程。在watson提供的服務裡面,目前只有一部分的服務有中文的辨析,方便下一步大資料分析應用的採用。同時ibm也有中國研究院,也做了針對中國文化的相關研究,在未來會有乙個更好的結合。

watson不像一般的機器是賣一套硬體,或者賣一套軟體給客戶,而是提供乙個平台,希望跟行業有乙個很好的結合,是結合客戶本身協作的方式發展來應用的。為推動watson的商業化,ibm今年組建了新的沃森業務集團,針對一些特殊的行業提供有關的watson結合。剛才提到了我們的第乙個結合是醫療行業的結合,在美國有一些醫療行業的企業共同研究。另外,在金融行業我們在全球和花旗銀行、dbs等有一些合作。既然把watson的一些服務開放到網上,我們預估未來會有各種各樣的應用會整合到裡面。

csdn:剛才您說的抗癌應用,現在它的最新進展情況能介紹一下嗎?

李永輝:抗癌是我們的第乙個應用,在2023年左右開始,經過1—2年的安裝、應用的除錯還有學習,最重要是學習,因為醫療行業裡邊涉及到大量的歷史資料,包括病人的病例還有大量的醫學期刊等等。通過機器學習,系統提供乙個有證據的建議給一些醫生,來幫助他們判斷,診斷**癌症的下一步方案。因為機器不能替醫生做醫療決定,watson只會提供乙個建議,並列出建議背後的鏈結,醫生要做判斷的時候,我們會做乙個有關證據的分析、查詢等等。

在美國已經有一些實際成功的案例,他們在**一些癌症病人的過程中,發現一些非常罕見的狀況,全球範圍內只有不到10個的醫生知道**的方式,但是透過機器學習期刊,他可以告訴所有醫生考慮是不是這種情況。一般情況下,相對於浩瀚的醫學知識,每年醫生能花在學習些新東西上的時間很少,而透過機器學習的幫助,醫生可以增加症狀診斷的精準度,可靠性。

csdn:抗癌可能是目前醫療界面臨的最大的難題,那麼用於其他方面的難題,是不是可以用相同的原理獲得解決方案?

李永輝:從解決方案來講,在癌症以外的領域也可以使用,只是每乙個行業,甚至醫療行業內部的每乙個專業,都有自己的專業知識,要做相關的資訊蒐集、分析等等,經過除錯以後才能使用。所以說我們之前跟醫療行業合作的兩個案例,都是超過1年的合作期才會有乙個比較好的成果。

csdn:培訓的週期除了跟資料量、病症的複雜程度有關,還跟哪些因素有關係?

李永輝:首先,每個行業專門的知識都有它的術語,那些解析、分析語言可能不懂。ibm watson有一些技術是可以找到一些新的專業術語,然後知道關聯性,知道那個知識重要還是不重要,然後這些資訊掃尋資料的時候我們就會懂得找一些相關的資料出來,這個是乙個難點。

其次,每個行業,特別是專業的行業,它本身的發展還是很快的。像醫療行業,有生物科技的產生,還有可穿戴裝置,對身體的素質、身體病理的特徵收集的資料可能會海量的增加,怎麼樣把那些歷史醫療資料跟新的資料結合交叉地分析出乙個有用的資料,這也是未來的乙個挑戰。

另外,當處理行龐大資料的時候,機器本身的機制可能需要一些更高效的一種方式來處理。

csdn:您一直強調開源和開放,這兩個方面我們有著什麼樣的努力呢?

李永輝:ibm是開源業界的乙個重要貢獻者。語言分析領域的乙個國際的標準是uima,它為非結構化分析提供乙個通用的平台,能夠減少重複開發,裡邊實際上有很多ibm的貢獻,同時這也是watson在開發語音分析的過程裡邊的一種主要技術。下一步我們透過watson也會發展水平擴充套件的技術,來實現語音分析大幅度的並行化。至於開放,剛才也提到像ibm的power——很高效能的乙個核心處理器,這個是業界第一次有高階的處理器的技術開放給業界,還有一些介面也會開放出來,我們預估在未來會有很多的變化。

csdn:您剛才還提到waston有一些服務是要放在網上,如果第三方的開發者要應用到waston的一些成果,對他們的技能方面有哪些需求?

李永輝:我們看到未來watson的使用場景可能會有兩個發展方向;一方面是透過開放api或者saas的方式讓更多的使用者可以使用watson的一些能力,這部分基本上目前是通過免費的方式提供服務;另一方面是專業的系統,ibm會更緊密地結合行業,來開發有關的特色應用,跟行業結合每乙個具備分析能力的系統需要很多的培訓,每乙個行業的要求都是不一樣的。如同剛才舉的例子,醫療行業**癌症跟**傷風感冒也是不太一樣的。

csdn:您能總結一下waston未來的重點研發方向嗎?

李永輝:ibm是非常著重研發的it企業,有乙個好處就是結合硬體、軟體還有服務可以提供,包括雲端的服務。除了將利用openpower聯盟的成果,如通過capi高速連線通道更好地整合gpu、fpga加速、記憶體共享等技術提公升硬體平台的大規模實時處理能力之外,未來watson的乙個主要發展方向,是拓展更多不同的行業結合不同行業所謂跨行業的結合以外,同時也會透過雲端,提供更多的、更好的服務給普羅大眾,讓他們也可以分享到watson的研發成果。

csdn:企業要實施大資料,如果他希望用到人工智慧的技術,ibm有哪些建議?

李永輝:首先我們建議各個企業要了解到他行業、業務範圍裡邊,有哪些地方可以結合大資料、或者非結構化的資料,進一步提公升他們的服務,我們看到一些領域像客戶關係管理,風險管理等等,結合大資料的分析,像社交資料的分析,會有很大的好處。這是行業內部,第一步需要他自己挖掘那些和業務鏈有關的資料。第二步,建議從小規模開始,成功了就可以大規模地使用。也就是除了傳統資料庫以外,採用一些非結構化資料分析的工具,結合這兩者,可以更好地達到下一步的發展。

從平台的選擇來講,開始的時候也要考慮到未來發展下去,怎麼在一種多租戶環境把利用率提高,怎麼提供更好的平台。ibm希望通過power的硬體,透過ibm的一些軟體產品,可以給客戶乙個更多、更好的選擇。

csdn:最後談談您對今年的bdtc大會有哪些感受和建議?

李永輝:首先非常感謝主辦方邀請ibm參加2023年的大資料技術大會。我們希望未來有更多的人加入大資料領域,希望在這個大會上,ibm和中國本地的技術專家可以跨區域地進行更多的交流,使中國在大資料的縱深領域繼續發展。

原文發布時間為:2023年12月17日

大資料備忘錄 從弱人工智慧到一般人工智慧

不論你從事哪個行業,即使你的行業在科技行業之外,你也一定注意到了 人工智慧 ai 這樣乙個熱門的詞彙。全球有數十家,或者說有上百家初創企業都將自己標榜為人工智慧企業。在其他討論中,你可能會遇到人類尚未發現人工智慧的說法。這兩種主張怎麼可能會同時出現呢?目前大多數活躍在人們眼前的人工智慧實際上都是弱人...

從大資料到人工智慧有多遠?

當以色列著名歷史學家 人類簡史 未來簡史 作者尤瓦爾.赫拉利現身 xworld 未來進化 活動現場時,歷史和未來彷彿在此刻交匯,而尤瓦爾對於人工智慧不僅僅是21世紀最重要的科學進化,也不僅僅是人類歷史上最重要的科學進化,而是整個生命創始以來最重要的變化的結論,則令現場數千名觀眾振聾發聵,醍醐灌頂。是...

人工智慧與大資料

現在,沒有什麼流行詞比大資料和人工智慧更常見了。無數的分析家向我們保證,將從根本上重塑我們的日常生活。事實上,對於圍繞人工智慧和大資料的所有討論,很少有人提到這兩種新興技術的融合,尤其是在解釋人工智慧為什麼迫切需要大資料以取得成功的時候。這是人工智慧和大資料操作之間的秘密聯絡,以及這兩種新興趨勢將如...