preface 前言
過去十年,資料儲存變得更便宜,硬體變得更快,演算法上也有了引人注目的進步,這一切為資料科學的快速興起鋪平了道路,並推動其發展成為計算領域最重要的機遇。雖然「資料科學」一詞可以包含從資料清理、資料儲存到用圖形圖表視覺化資料的所有環節,但該領域最重要的收穫是發明了智慧型、精密的資料分析演算法。使用計算機尋找大量資料中埋藏的有趣模式稱為資料探勘,這一領域包含了資料庫系統、統計學和機器學習等課題。
現在,軟體開發人員可以找到數十種出色的資料探勘和機器學習書籍,從而了解這一領域的所有最新進展。大部分這類書籍都有乙個共同點,即它們都涵蓋了尋找資料中模式的少數經過檢驗的方法:分類、聚類、決策樹和回歸。當然,這些方法對於任何資料探勘人員都是非常重要的,它們的流行正是因為其有效性。但是,這幾種技術並不是全部。資料探勘是乙個豐富多彩的領域,包括數十種發現模式並做出**的技術。真正的資料探勘大師應該在工具箱中放入許多任務具,而不只是少數幾種。因此,本書的使命是介紹一些通常僅在學校課本**現的、鮮為人知的資料探勘概念。
本書使用python程式語言和基於專案的方法介紹多種常被忽視的資料探勘概念,如關聯規則、實體匹配、網路分析、文字挖掘和異常檢測等。每章都全面闡述某種特定資料探勘技術的基礎知識,提供替代方案以評估其有效性,然後用真實的資料實現該技術。
專注於實際資料是本書不同於其他資料探勘書籍的乙個特徵。為了驗證我們是否掌握了某個概念,判斷方法是看我們能否將某種方法應用於新的未知問題。對我們來說,這意味著將每種資料探勘方法應用到乙個新的問題領域或者新的資料集。強調真實資料還意味著,我們的結果可能不總像預先製作的示例資料集那樣清晰。因此,每一章都包含對如何精密地評估方法的討論。得到的結果是否有意義?結果意味著什麼?如何改善這些結果?
所以,在許多方面,本書包含了其他一些資料探勘書籍遺漏的知識。如果你想用一組有趣但常被忽視的技術補充日益增長的資料探勘工具箱,那麼學習我們介紹的特定主題,以及在每個章節中的應用方法。
本書主要內容
第1章簡單介紹資料探勘領域,在該章中,我們特別注意資料探勘與類似主題(如機器學習和資料科學)的關係。還回顧了許多不同的資料探勘方法,討論它們的各種優點和缺點。這些基礎知識對我們過渡到本書的其他章節很重要,後續的章節更偏重技術,專注於特定資料探勘工具的應用。
第3章的重點是找出看上去稍有不同但實際上相同的匹配資料元素對。學習如何通過使用資料屬性,確定兩個專案是否實際上是同一回事。在該章的最後,我們實施乙個實體匹配專案,尋找從乙個託管服務轉移到另乙個託管服務中的軟體專案,即使該項目的名稱和其他重要屬性已經改變。
第4章是網路或者圖形分析的教程,這兩種分析用於描述各種相互聯絡的實體組之間的關係。我們研究各種型別的網路,學習描述和計量它們的方法。然後,將學習到的知識投入實踐,描述乙個軟體開發人員網路是如何隨時間而變化的。
第5章是本書4個文字挖掘章節中的第乙個。該章簡單介紹了發展中的文字情緒分析領域。比較情緒挖掘的各種方法並學習結果的評估手段之後,我們實踐使用機器學習分類器來確定一組軟體開發人員聊天記錄和電子郵件記錄中的情緒。
第6章是關於尋找文字中合適名詞和名稱的。我們花費一些時間,學習這一任務的用途,了解為什麼尋找命名實體有時候比看上去更加困難。在該章的最後,我們在各種不同型別的實際文字(包括電子郵件、聊天記錄和董事會會議紀要)上實現了乙個命名實體識別系統。在實現過程中,我們應用了不同的技術以量化結果的成敗。
第7章介紹多種自動建立濃縮的文字摘要的策略。該章強調摘要提取工具,這種工具用來找出文字樣本中最重要的句子。為此,我們試驗了3種實現這一目標的不同工具,測試摘要方法並了解它們之間的差異。在介紹了每種工具之後,我們嘗試提取同一組文字文件的摘要,並對比結果。
第8章說明如何使用軟體工具揭示給定文字中存在的主題或者概念。我們可以訓練乙個電腦程式,推斷大量文字中存在的主題嗎?在一系列試驗中,我們學習使用常見的主題建模庫揭示軟體開發人員電子郵件中存在的主題,以及這些主題如何隨時間推移而變化。
第9章中我們學習如何使用資料探勘和統計技術改善自己的資料探勘過程。雖然本書的其他章節都在尋找資料中不同型別的模式,但該章將重點放在尋找異常或者不匹配特定模式的資料。不管這是因為資料是空白、遺漏還是怪異的,本章都提供了尋找或者修復這類資料並使剩餘資料可以被更有效挖掘的策略。
閱讀準備
為了完成本書中的專案,你需要python 3.5或者更高版本。我建議使用anaconda python,但是只要包含如下程式包,任何python分發版本都是可行的:numpy、matplotlib、networkx、pymysql、gensim和ntlk。第1章會簡單介紹python的安裝和以上程式庫,此後,每次使用乙個程式庫,我們將同時安裝或者公升級它。
讀者人群
本書約定
在本書中,你將發現許多區分不同資訊的文字格式。下面是這些格式的一些例子及對其意義的解釋。
下面是乙個**塊的示例:
任何命令輸入或者輸出使用如下格式:
表示警告或者重要說明。
表示提示和技巧。
contents 目 錄
譯者序關於審稿人 前言
第1章 擴充套件你的資料探勘工具箱
1.1 什麼是資料探勘
1.2 如何進行資料探勘
1.2.1 fayyad等人的kdd過程
1.2.2 韓家煒等人的kdd過程
1.2.3 crisp-dm過程
1.2.4 六步過程
1.2.5 哪一種資料探勘方法最好
1.3 在資料探勘中使用哪些技術
1.4 如何建立資料探勘工作環境
1.5 小結
第2章 關聯規則挖掘
2.1 什麼是頻繁項集
2.1.1 都市傳奇「尿布與啤酒」
2.1.2 頻繁項集挖掘基礎知識
2.2 邁向關聯規則
2.2.1 支援度
2.2.2 置信度
2.2.3 關聯規則
2.2.4 包含資料的示例
2.2.5 附加值—修復計畫中的漏洞
2.2.6 尋找頻繁項集的方法
2.3 專案—發現軟體專案標籤中的關聯規則
2.4 小結
第3章 實體匹配
3.1 什麼是實體匹配
3.1.1 資料合併
3.1.2 匹配技術
3.1.3 基於屬性的相似度匹配
3.1.4 屬性匹配方法
3.1.5 利用不相交資料集
3.1.6 基於上下文的相似度匹配
3.1.7 基於機器學習的實體匹配
3.1.8 實體匹配技術的評估
3.2 實體匹配專案
3.2.1 軟體專案匹配的難度
3.2.2 兩個例子
3.2.3 根據專案名稱匹配
3.2.4 根據人名匹配
3.2.5 根據url匹配
3.2.7 資料集
3.2.8 **
3.2.9 結果
3.3 小結
第4章 網路分析
4.1 什麼是網路
4.2 網路計量
4.2.1 網路的度數
4.2.2 網路直徑
4.2.3 網路中的通路、路徑和跡
4.2.4 網路的成分
4.2.5 圖的中心性
4.3 圖資料的表示
4.3.1 鄰接矩陣
4.3.2 邊表和鄰接表
4.3.3 圖資料結構之間的差別
4.3.4 將資料匯入圖結構中
4.4 真實專案
4.4.1 探索資料
4.4.2 生成網路檔案
4.4.3 以網路的形式理解資料
4.5 小結
第5章 文字情緒分析
5.1 什麼是情緒分析
5.2 情緒分析基礎知識
5.2.1 觀點的結構
5.2.2 文件級和句子級分析
5.2.3 觀點的重要特徵
5.3 情緒分析演算法
5.4 情緒挖掘應用
5.4.1 專案動機
5.4.2 資料準備
5.4.3 聊天訊息的資料分析
5.4.4 電子郵件訊息的資料分析
5.5 小結
第6章 文字中的命名實體識別
6.1 為什麼尋找命名實體?
6.2 命名實體識別技術
6.3 ner系統的構建與評估
6.3.1 ner和部分匹配
6.3.2 處理部分匹配
6.4 命名實體識別專案
6.5 小結
第7章 自動化文字摘要
7.1 什麼是自動化文字摘要
7.2 文字摘要工具
7.2.1 使用ntlk的簡單文字摘要
7.2.2 使用gensim的文字摘要
7.2.3 使用sumy的文字摘要
7.3 小結
第8章 文字中的主題建模
8.1 什麼是主題建模
8.2 潛在狄利克雷分配
8.3 gensim主題建模
8.3.1 理解gensim lda主題
8.3.2 理解gensim lda的遍數
8.3.3 對新文件應用gensim lda模型
8.3.4 序列化gensim lda物件
8.4 用於更大專案的gensim lda
8.5 小結
第9章 挖掘資料異常
9.1 什麼是資料異常
9.1.1 缺失資料
9.1.2 修復缺失資料
9.1.3 資料錯誤
9.1.4 離群值
9.2 小結
《Python資料探勘 概念 方法與實踐》導讀
contents 目 錄 譯者序關於審稿人 前言 第1章 擴充套件你的資料探勘工具箱 1.1 什麼是資料探勘 1.2 如何進行資料探勘 1.2.1 fayyad等人的kdd過程 1.2.2 韓家煒等人的kdd過程 1.2.3 crisp dm過程 1.2.4 六步過程 1.2.5 哪一種資料探勘方法...
資料探勘概念與技術 文字挖掘
1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...
資料探勘概念與技術
在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...