一、python基礎
1.python簡介
python是一種物件導向的解釋型語言,由荷蘭人guido van rossum與2023年發明,第乙個公開發行版本於2023年發布。
python語法簡潔清晰,強制用空白符作為語句縮排。python語言最大的特點是簡單和強大。
2.python庫
(1)basemap
basemap是地圖資料視覺化的python包,是重要的地球科學工具,它可以繪製等值線、遙感圖、地圖投影向量點線等地理圖件。basemap的解決方案不是自己繪製,而是作為matplotlib的乙個外掛程式,借助matplotlib繪製地圖
(2)md5/sha1
兩種加密演算法的比較:
執行結果是:
3.偏度
偏度衡量隨機變數概率分布的不對稱性,是相對於均值不對稱程度的度量。偏度為負/正表示在概率密度函式左側/右側的尾部比右側的長,長尾在左側/右側。偏度為0表示數值相對均勻地分布在平均值的兩側,但不一定意味著一定是對稱分布。
(1)偏度公式
三階累積量與二階累積量的1.5次方的比率。偏度有時用skew[x]來表示。
4.峰度
峰度是概率密度在均值處峰值高低的特徵,通常定義四階中心矩除以方差的平方減3。
二、資料特徵分析
對資料進行質量分析以後,接下來可通過繪製圖表、計算某些特徵量等手段進行資料的特徵分析。
1.分布分析
分布分析能揭示資料的分布特徵和分布型別。對於定量資料,欲瞭解其分布形式是對稱的還是非對稱的,發現某些特大或特小的可疑值,可通過繪製頻率分布表、頻率分布直方圖、莖葉圖進行直觀地分析;對於定性分類資料,可用餅圖和條形圖直觀地顯示分布情況。
(1)定量資料的分布分析
對於對量變數而言,選擇「組數」和「組寬」是做頻率分布分析時最主要的問題,一般按照以下步驟進行。
①求極差。
②決定組距和組數。
③決定分點。
④列出頻率分布表。
⑤繪製頻率分布直方圖。
遵循的主要原則如下:
1)各組之間必須是互相排斥的。
2)各組必須將所有資料報含在內。
3)各組的組塊最好相等。
(2)定性資料的分布分析
對於定性變數,常常根據變數的分類型別來分組,可以採用餅圖和條形圖來描述定性變數的的分布。
餅圖的每乙個扇形部分代表每一型別的百分比或頻數,根據定性變數的型別數目將餅圖分成幾個部分,每一部分的大小與每一型別的頻數成正比;條形圖的高度代表每一型別的百分比或頻數,條形圖的寬度沒有意義。
2.對比分析
對比分析是指把兩個相互聯絡的指標進行比較,從數量上展示和說明研究物件規模的大小,水平的高低,速度的快慢,以及各種關係是否協調。特別適用於指標間的橫縱向比較、時間序列的比較分析。在對比分析中,選擇合適的對比標準是十分關鍵的步驟,只有選擇合適,才能做出客觀的評價,選擇不合適,評價可能得出錯誤的結論。
對比分析主要有以下兩種形式。
(1)絕對數比較
絕對數比較是利用絕對數進行對比,從而尋找差異的一種方法。
(2)相對數比較
相對數比較是由兩個有聯絡的指標對比計算的,用以反映客觀現象之間數量聯絡程度的綜合指標,其數值表現為相對數。由於研究目的和對比基礎不同,相對數可以分為以下幾種。
1)結構相對數:將同一總體內的部分數值與全部數值對比求的比重,用以說明事物的性質、結構和質量。
2)比例相對數:將同一總體內不同部分的數值進行對比,表面總體內各部分的比例關係。
3)比較相對數:將同一時期兩個性質相同的指標數值進行對比,說明同類現象在不同空間條件下的數量對比關係。
4)強度相對數:將兩個性質不同但有一定聯絡的總量指標進行對比,用以說明現象的強度、密度和普遍程度。
5)計畫完成程度相對數:是某一時期實際完成數與計畫書的對比,用以說明計畫完成程度。
6)動態相對數:將同一現象在不同時期的指標數值進行對比,用以說明發展方向和變化的速度。
Python資料分析與挖掘實戰 挖掘建模
常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...
python資料分析與挖掘實戰 資料探勘基礎
從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...
Python資料分析與挖掘實戰學習11
一 資料變換 1.連續屬性離散化 一些資料探勘演算法,特別是將某些分類演算法 如id3演算法 apriori演算法等 要求資料是分類屬性形式。這樣,常常需要將連續屬性變換成分類屬性,即連續屬性離散化。1 離散化的過程 連續屬性的離散化就是在資料的取值範圍內設定若干個離散的劃分點,將取值範圍劃分為一些...