資料探勘實訓週報1

2021-09-17 21:44:17 字數 3658 閱讀 3860

資料探勘實訓週報1

本階段工作內容

報名官網

二、配置本機環境。

三、學習資料探勘涉及的主要python包。

1. numpy

學習鏈結1

學習鏈結2

numpy提供了大量的庫函式和操作,主要用於對多維陣列執行計算,以及對影象的處理和其他數**算。

基本操作

import numpy as np

array = np.array([1,2,3,4])

array = np.array([1,2,3,4],[1,2,3,4])

array = np.arange(10)從0到9的陣列。

array = np.array(0, 10, 2)從0開始,每個元素間隔2,直到10(不包括10)

array = np.linspace(0, 10, 5)0到10的5個等分資料,包括0和10。

array = np.zeros((10))

array = np.ones((10))

array = np.random.random((10))%注意是兩個random,範圍為0到1.

array = np.zeros((10,10))

array = np.ones((10,10))

array = np.random.random((10,10))

array[0,:]

array1 +-*/ array2,這是對元素進行操作,即元素是一對一進行±*/的。

array**2,這是對元素進行操作,即元素是一對一操作。

array1.dot(array2)

array = np.arange(20);array = array.reshape(4,5)

array.size矩陣的元素個數

array.shape矩陣的大小

高階操作

np.amax(array, axis=0)

讀取資料

2. pandas

學習鏈結1

學習鏈結2

pandas 是基於numpy的乙個工具包,主要是為了解決資料分析任務而建立的。pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法。

import numpy as np

import pandas as pd

資料結構

資料框dataframe,資料以**的形式儲存,有行索引和列索引

series = ,two':,three':}

dataframe = pd.dataframe(series)

此時`dataframe就是乙個行索引為a,b,c,d。列索引為one, two,three的4*3**。

3. scipy

學習鏈結1

學習鏈結2

scipy是基於numpy上的,它提供了許多的操作numpy的陣列的函式,是一款方便、易於使用、專為科學和工程設計的python工具包,它包括了統計、優化、整合以及線性代數模組、傅利葉變換、訊號和影象圖例,常微分方差的求解等。

scipy各子模組,**來自部落格

模組名功能scipy.cluster

向量量化

scipy.constants

數學常量

scipy.fftpack

快速傅利葉變換

scipy.integrate

積分scipy.interpolate

插值scipy.io

資料輸入輸出

scipy.linalg

線性代數

scipy.ndimage

n維影象

scipy.odr

正交距離回歸

scipy.optimize

優化演算法

scipy.signal

訊號處理

scipy.sparse

稀疏矩陣

scipy.spatial

空間資料結構和演算法

scipy.special

特殊數學函式

scipy.stats

統計函式

4. scikit-learn

學習鏈結1

學習鏈結2

官方文件

scikit-learn的簡稱是sklearn,是乙個python庫,基於 numpy 與 scipy 兩大著名工具包,專門用於機器學習的模組,包含了分類,回歸,無監督,資料降維,資料預處理等常見的大部分機器學習方法。

官方結構圖:

學習鏈結1

6. matplotlib

官方文件

學習鏈結

matplotlib是python最著名的繪相簿,它提供了一整套和matlab相似的命令api,十分適合互動式地進行製圖。因為之前經常使用的是matlab畫圖,差距不大,所以只是簡單看了一遍。

7. xgboost

學習鏈結1

學習鏈結2

學習鏈結3

8. jupyter

學習資料1

學習資料2

jupyter notebooks 是一款開源的網路應用,我們可以將其用於建立和共享**與文件。其提供了乙個環境,你無需離開這個環境,就可以在其中編寫你的**、執行**、檢視輸出、視覺化資料並檢視結果。

安裝jupyter需要將pip3更新到最新版本。

pip3 install --upgrade pip

使用命令jupyter notebook,jupyter notebooks 會在預設瀏覽器開啟,位址是:http://localhost:8888/tree

以下為成功開啟tiancheng_base.ipynb檔案

資料探勘實訓週報week8

本週理論學習主要學了特徵組合 特徵交叉一種合成特徵的方法,可以在多維特徵資料集上,進行很好的非線性特徵擬合。假設乙個資料集有特徵x1和x2,那麼引入交叉特徵值x3,使得 x3 x1x2 那麼最終的表示式為 y b w1x1 w2x2 w3x3 使用one hot向量的方式進行特徵交叉。這種方式一般適...

專案實訓週報 一

經過兩個星期的時間,我們小組初步完成了我們專案的需求分析和概要設計。專案名稱叫科研專案管理系統,實現把系統管理員 校領導 教育廳評審人員 科研專案的部分管理工作整合到乙個統一的平台,各管理人員分工協作 相互配合,及時了解科研專案進展情況。我負責的是專案結題管理的子模組,通過小組討論和孫老師的講解,我...

綜合實訓週報一

本週的理論學習主要在於學習資料探勘相關的知識,由於本人之前並沒有上過 資料探勘導論 這門課程,導致有許多的知識點都並不了解。所以本週的主要任務就是將資料探勘大概流程,所需要用到的知識大致的過了一遍。實踐學習本週主要是將該練習賽的內容看了一遍,了解了比賽相關的學習資料。之後嘗試進行相應操作,主要是進行...