評論《資料探勘的三個挑戰》

2021-05-26 17:35:15 字數 1286 閱讀 5917

今天,實驗的老師上傳了香港大學的計算機學院教授在中國計算機前沿發表的《three challenges in data mining》,讀後對目前的資料探勘領域的一些前沿技術有了些體會。下面就隨便聊下這篇文章。

文章主要講了三個部分:轉移學習,社會網路和移動環境學習。大家知道現今的機器學習領域,效能較好使用的較多的大多是監督和半監督的演算法,這就涉及到需要大量標註的訓練集。但是現實是,當涉及某個新領域的新任務時,並沒有大量的標註的訓練集,這就嚴重制約了新領域新任務的機器學習。怎麼解決這個問題呢,大家提出了轉移學習的概念,所謂轉移學習就是利用和任務領域相關領域的大量已標註的訓練集,結合現今領域少量的標註訓練集對新領域的學習模型進行訓練,以此期望改善新領域的學習模型的效果。轉移學習的用處很多,只要是該領域的訓練集較少,都可以採用這種方法。當然也可以用在希望通過相關領域訓練集共用,然後讓幾個領域的任務的效能都能得到提高。該文中舉了兩個例子,乙個是無線wiki獲取使用者位置資訊**的問題,具體也沒有搞的很懂,但是主要是將不同裝置的訓練集共用,然後達到共同提高。第二個例子提到的是生物資訊學領域的應用,因為生物資料需要大量實驗才能達到,需要很大的代價,所以怎樣共用各個領域已經標註的實驗資料,就變得很有價值。

文章的第二部分講述了社會網路中的cf(協同過濾)和鏈結**問題,這兩個問題都和個性化推薦系統有關。目前提出的主要問題是稀疏網路的問題,有時候節點之間的鏈結很少。在新的領域中,初始鏈結也是很少的幾乎沒有,這樣就無法進行推薦,這就是所謂的「冷啟動」問題,有人提出了用轉移學習的方法去解決冷啟動問題,有人提出用標籤的方式等等。大的**如google和amazon擁有大量的使用者,不存在稀疏網路的問題,但是目前有很多中小型**存在這樣的問題,怎樣利用這麼多**已有的資料,整合起來進行鏈結**和協同過濾,是我們需要努力的方向。

文章第三部分提出了乙個有別於傳統機器學習的領域:基於移動平台和環境相關的機器學習。主要是想開發基於移動平台如手機等的應用:商店推薦、慢性疾病監測等,希望結合使用者所處的環境:地理位置,天氣狀況,身體狀況,運動軌跡等等因素,這就需要大量的感測器去採集資料,這是硬體上的問題。軟體上的問題就是雜訊(低質量)資料較多,個人的所能提供的資訊依然有限,這就需要我們整合更多人的資訊來進行模型的學習。

總體來說,啟發很大,然我以後的研究中多了些解決思路。第一部分的轉移學習是通用的方**,可以應用到很多機器學習和資料探勘的領域。第二部分和第三部分都是和應用相關的,作者提出了很多新穎的應用方向和解決思路,也讓我眼界大開。說起又想起了作者的單位,香港大學,感嘆呀!今天看到了科學網上的新聞,ieee全球52個華人會士,大陸地區才兩個清華乙個,華科乙個(沒想到華科那麼牛),但是還不如香港和台灣,感嘆呀,你說比不過公尺國就算了,小弟也比不過,有點打擊人。努力學習呀,爭取以後不給中國人丟臉!

整合ERP系統的三個關鍵挑戰

如今,企業資源規劃 erp 已經變得越來越複雜。隨著erp系統的可選擇性不斷增多,企業一直在努力選擇 實施和整合適合其業務需求的erp系統。企業必須設定特定的檢查清單,以選擇符合公司期望的erp。企業可以制定計畫以應對以下三個與erp相關的主要挑戰,為erp系統的實施和整合奠定基礎。挑戰 1 耗時的...

三個 的讀音

三個牛念?b n 三個馬念?bi o 三個羊念?sh n 三個水念淼 mi o 垚 三個土,讀音y o,意 山高,多用於人名。犇 三條牛,讀音b n,意 同 奔 急走,跑,緊趕,逃跑等。聶 三隻耳朵,讀音ni 鱻 三條魚,讀音xi n 意古同 鮮 磊 三塊石頭,讀音l i,本義 石頭多 猋 三條小狗...

商業智慧型BI應用的三個層次 報表 分析 挖掘

現階段,大部分稍有規模的企業都建立了比較完善的crm erp oa等基礎資訊化系統。隨著企業的不斷發展壯大,這些系統產生了大量的資料。這些資料分散在各個系統中,無法及時有效地運用到企業經營決策中,給企業發展帶來一定困擾。而商業智慧型bi就是幫助企業將生產經營過程中的資料中隱藏的資訊挖掘出來,輔助企業...