1.6 網路資料探勘
網路挖掘的目的是從網路超連結結構、網頁和使用資料來發現有用的資訊或知識。網路是作為資料探勘應用輸入的最大資料來源之一。
網路資料探勘基於資訊檢索、機器學習(machine learning,ml)、統計學、模式識別和資料探勘。儘管很多資料探勘方法可以應用於網路挖掘,但是由於異構的、半結構化的和非結構化的網路資料,所以網路挖掘不單純是乙個資料探勘問題。
網路內容挖掘(web content mining):這有助於從網頁內容中挖掘有用的資訊。
網路用法挖掘(web usage mining):這有助於從網路日誌中發現使用者訪問模式,以便檢測入侵、欺詐和試圖闖入的情況。
應用於網路資料探勘的演算法源自經典的資料探勘演算法。它們有很多相似之處,比如挖掘過程,但也存在差異。網路資料探勘的特徵使其不同於資料探勘的原因如下:
資料是非結構化的。
網路資訊不斷變化和資料量不斷增長。
任何資料型別都可以在網路上得到,如結構化和非結構化資料。
網路上存在異構資訊,冗餘頁面也存在。
網路上鏈結著海量資訊。
資料是雜訊資料。
網路資料探勘不同於一般資料探勘是由於源資料集的巨大動態容量、極其多樣化的資料格式等。與網路相關的最流行的資料探勘任務如下:
資訊提取(information extraction,ie):資訊提取的任務包含以下步驟:詞彙標記、句子分割、詞性分配、命名實體識別、短語解析、句子解析、語**釋、話語解釋、模板填充以及合併。
自然語言處理(natural language processing,nlp):它研究人與人和人與機器互動的語言特徵、語言能力和行為模型、用這樣的模型實現過程的框架、過程/模型的迭代優化以及對結果系統的評估技術。與網路資料探勘相關的經典自然語言處理任務包括標註、知識表示、本體論模型等。
問題回答(question answering):目標就是以自然語言形式從文字集中尋找問題的答案。它可以歸類為槽填充、有限域以及具有更高難度的開放域。乙個簡單的例子就是基於預先定義的常見問題解答(faq)來回答客戶的詢問。
資源發現(resource discovery):比較流行的應用是優先收集重要的頁面;使用鏈路拓撲結構、主題區域性性和主題爬行進行相似性搜尋;社群發現。
《R語言資料探勘》 1 4 社交網路挖掘
1.4 社交網路挖掘 正如我們前面提到的,資料探勘是從資料中發現乙個模型,社交網路挖掘就是從表示社交網路的圖形資料中發現模型。社交網路挖掘是網路資料探勘的乙個應用,比較流行的應用有社會科學和文獻計量學 pagerank和hits演算法 粗粒度圖模型的不足 增強模型和技術 主題提取的評估以及網路的評估...
《R語言資料探勘》 1 3 資料探勘
1.3 資料探勘 資料探勘就是在資料中發現乙個模型,它也稱為探索性資料分析,即從資料中發現有用的 有效的 意想不到的且可以理解的知識。有些目標與其他科學,如統計學 人工智慧 機器學習和模式識別是相同的。在大多數情況下,資料探勘通常被視為乙個演算法問題。聚類 分類 關聯規則學習 異常檢測 回歸和總結都...
R語言資料探勘資料
包含理論知識與rpart包例項。包含演算法的自行實現,以及rweka包的c4.5演算法 tree包的cart演算法。離散選擇模型大師kenneth train的個人主頁,提供了matlab r和gauss的源 個人推薦r 中的rsghb包,採用的估計方法是hierarchical bayes演算法,...