data.describe()檢視資料的基本資訊
資料特徵分析求極差:極差=最大值-最小值
決定組數與組距:組距根據業務特點去取,組數=極差/組距
決定分點,最小值在第一組,最大值在最後乙個組
列出頻率分布圖
繪製頻率分布直方圖
對比分析將兩個相互聯絡的指標進行比較,絕對數比較和相對數比較。
統計量分析用統計指針對定量資料進行統計描述。
集中趨勢度量:1.均值,2.中位數,3.眾數
離中趨勢度量:1.極差,2.標準差,3.變異係數,4.四分位數間距
python主要資料探索函式
資料整合將不同的資料來源合併在一起的時候,可能多個資料來源表達的實體是不一致的
資料變換
最小-最大規範化也叫離差標準化,將值對映到【0,1】之間,x*=(x-min)/max-min,缺點:可能接近0,如果有新的值不再最大最小之間就要重新計算。
零-均值規範化 x*=x-x(平均)/w,w為原始資料的標準差,
小數定標規範化:x*=x/10*k
常用的離散化方法:等寬法,等頻法,基於聚類分析的方法
資料規約
python主要資料預處理函式
總結:資料規約也就是資料降維,現在常用的是pca(主成份分析方法)
聚類分析
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...
python資料分析
陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...
python資料分析
1.資料分析的含義與目標 2.python與資料分析 3.python資料分析大家族 4.python環境搭建 一 numpy 功能 ndarray 多維操作 線性代數 官網 numpy是python語言的乙個擴充程式庫。支援高階大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫。nu...