本課程講解現在工業界和學術界流行的機器學習演算法的相關知識,以及如何用python去實現這些演算法。演算法的講解包括supervised learning(有監督式學習)和unsupervised learning(無監督式學習)兩個部分。其中supervised learning包括classification(分類)和regression(回歸)的若干流行的模型的講解。 unsupervised learning部分,我們會講解clustering(聚類)和principle component analysis(主成分分析)等演算法。
除此之外,課程還包括用python進行文字資料預處理過程的講解,以及model evaluation(模型評估)和 cross-validation(交叉驗證)等實際應用中經常運用的技術。
所有機器學習的演算法講解都會配合著python的程式進行說明。本課程的講解和作業中的具體例項資料是2023年美國安然公司破產醜聞事件中的電子郵件資料。資料報含了幾十萬封電子郵件。我們將教會大家如何利用資料探勘的演算法來分析這些電子郵件,提取出來有效的資訊。
K均值演算法(K means)
k均值聚類容易實現,但是可能收斂到區域性最小值,影響k means效果的因素 優 只需要計算資料點與聚類中心的距離,其計算複雜度只有o n 缺 十分依賴於初始給定的聚類數目 同時隨機初始化可能會生成不同的聚類效果,所以它缺乏重複性和連續性。偽 建立k個點作為起始質心 通常是隨機選擇 當任意乙個點的簇...
k均值例子 資料探勘 資料探勘比賽的一些經驗心得
資料去噪 無論是資料探勘的比賽也好,還是日常生活中的各種專案也好,我們拿到手的資料集含有雜訊資料是很正常的。雜訊會降低我們的資料質量,從而影響我們模型的效果。因此,對雜訊的處理是必須的,這一點是眾所周知的事情。但是,在去噪的過程中我們也要注意以下問題。在我們這些天做的乙個比賽上,乙個隊友,拿著沒有好...
k均值聚類 K means
分類作為一種監督學習方法,要求必須事先明確知道各個類別的資訊,並且斷言所有待分類項都有乙個類別與之對應。但是很多時候上述條件得不到滿足,尤其是在處理海量資料的時候,如果通過預處理使得資料滿足分類演算法的要求,則代價非常大,這時候可以考慮使用聚類演算法。聚類屬於無監督學習,相比於分類,聚類不依賴預定義...