2.2 pandas
2.3 正規表示式
3 python在資料分析中的應用
之前做的資料分析小平台?
推薦書籍
①快速高效的多維陣列物件ndarray
②用於對陣列執行元素級計算以及直接對陣列執行數**算的函式
③用於讀寫硬碟上基於陣列的資料集的工具
④線性代數運算、傅利葉變換,以及隨機數生成
⑤用於將c、c++、fortran**整合到python的工具
官網/菜鳥……兩種都可,但推薦第二種安裝方法(映象),快,一般不會出錯
1、多維陣列物件 ndarray
存放同型別元素的多維陣列
1、series類似於一維陣列的物件import numpy as np # 引用numpy包,將其稱為np,便於後續使用
a = np.array([1
,2,3
])# a: [ 1 , 2, 3]
a = np.array([[
1,2]
,[3,
4]])
# a:[[1, 2] [3, 4]]
# 建立全0陣列
np.zeros(5)
# [0, 0, 0, 0, 0]
# 建立全1陣列
np.ones(5)
# [1, 1, 1, 1, 1]
# 建立空陣列(沒有具體數值)
# 注:empty中返回的數值不是0,而是未初始化數值
2、切片和索引
整數陣列索引# slice函式
a = np.arange(10)
s =slice(2
,7,2
)# 從索引 2 開始到索引 7 停止,間隔為2
# [2 4 6]
布林索引x = np.array([[
1,2]
,[3,
4],[
5,6]
]) y = x[[0
,1,2
],[0
,1,0
]]# [1 4 5]
3、陣列操作
numpy.reshape:不改變資料,改變形狀
numpy.transpose :對換陣列維度a = np.arange(8)
# a: [0 1 2 3 4 5 6 7]
b = a.reshape(4,
2)# b:[[0 1]
# [2 3]
# [4 5]
# [6 7]]
基於numpy構建,讓以numpy為中心的應用變得更加簡單。a = np.arange(12)
.reshape(3,
4)#a: [[ 0 1 2 3]
# [ 4 5 6 7]
# [ 8 9 10 11]]
b = np.transpose(a)
)# b:[[ 0 4 8]
# [ 1 5 9]
# [ 2 6 10]
# [ 3 7 11]]
①提供能夠快速便捷地處理結構化資料的大量資料結構和函式
②使python成為強大而高效的資料分析環境
③物件dataframe,面向列(column-oriented)的二維表結構,含有行標和列標
④兼具numpy高效能的陣列計算功能以及電子**和關係型資料庫(如sql)靈活的資料處理功能
官網
一組資料(各種numpy資料型別) + 一組與之相關的資料標籤(即索引)
2、dataframe**型資料結構obj = series([4
,7,-
5,3]
,index=
['a'
,'b'
,'c'
,'d'])
# a.b.c.d分別對應4.5.-7.3
a 4
b 7
c -
5d 3
含有一組有序的列,每列可以是不同的值型別(數值、字串、布林值等)。
有行索引、列索引,可被看做由series組成的字典(共用同乙個索引)。
3、處理缺失值data =
frame = dataframe(data)
# 行索引0 1 2 3 4 ,列索引pop state year
pop state year
01.5 ohio 2000
11.7 ohio 2001
23.6 ohio 2002
32.4 nevada 2001
42.9 nevada 2002
![]()
4、索引、資料統計
……
菜鳥具體內容戳鏈結?1、藥物拆分,形成0-1矩陣資料;2、對照藥物同異名,進行藥物名稱規範;
3、利用正規表示式,過濾掉錯誤字元,如炙蜈蚣條->炙蜈蚣;過濾中藥制法,如炙蜈蚣->蜈蚣
1、認識資料以圖表的形式展現資料, 增強資料的展現⼒,2、獲取資料
3、資料處理,獲得有價值的資料
柱狀圖、餅狀圖、直⽅圖、折線圖、散點圖等
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...
python資料分析
陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...
python資料分析
1.資料分析的含義與目標 2.python與資料分析 3.python資料分析大家族 4.python環境搭建 一 numpy 功能 ndarray 多維操作 線性代數 官網 numpy是python語言的乙個擴充程式庫。支援高階大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫。nu...