1,當指定某列為索引的時候,我們仍然可以用行數:使用irow()、icol()方法
例子:df.irow(0) 來獲取第0行
2、利用dataframe中的列做列表解析時候,需要強制型別轉換:
age = [2016 - int(str(df.loc[i,'證件號碼'])[6:10]) for i in df.index ] 雖然 df.loc[i,'證件號碼'] type的時候是字元型,但放到列表解析的時候貌似不是了,所以必須轉換一下
3、 身份證變為號碼還有另外一種方法:
from operator import mod
mod(int(df.證件號碼[i].replace('x','0'))%100000000,10000)
4、關於看某位置是否為空值時候需要注意:
np.isnan( 這裡的型別可以是鍊錶,或者array型別),對pandas 的series型別不可用,但是可以進行 array型別轉換
series型別看時候是空值 用 isnull()函式,例如:df['證件號碼'].isnull().ix[i] == false
5、刪掉有空值的列
6、用pandas畫直方圖
df['age'
].dropna().hist(bins=
16, range=(0,
80), alpha = .5)
#bins -- 長方形個數,range --橫軸範圍,alpha -- 透明度
7、判斷字串為空 s.isspace()
8、關於隨機
(1)state = random.choice(list(range(10))) #在0-9中隨機選擇乙個值
(2)sampler = np.random.permutation(5) #0-4隨機排序,
然後把這個放進reindex中
df.reindex(sampler)
9、隨機抽樣
(1)在『數袋子』裡面 隨機抽取
>>> bag = np.array([5,7,-1,6,4])
>>> sampler = np.random.randint(0,len(bag),size=10)
>>> bag.take(sampler)
array([5, 5, 7, 5, 7, 5, 6, 7, 7, 4])
>>> bag[sampler]
array([5, 5, 7, 5, 7, 5, 6, 7, 7, 4])
(2)在乙個序列裡面隨機選出 number個
slice = random.sample(list(range(10)), 3)#number=3
資料分析的一些思考
是否可以從個體的金錢流動中發現社會執行機制,這是我感興趣的地方,此idea由集智百科的社群劃分演算法所引發。最近在試圖花大量時間讀懂ap算 文,大概半月到一月左右,之後看能否應用於二部圖聚類,避免聚類數目指定的問題。計畫先實現單機測試版,可行的話再分布式測試實際資料。金錢 物質等都可歸於資訊流動範疇...
資料分析的一些方法(一)
本內容包含八個方法 邏輯樹 pest 多維度拆解 對比 假設檢驗 aarrr漏斗模型 rfm模型 杜邦分析方法。將零散的問題結構化,把複雜的問題簡單化。比如要計算北京有多少特斯拉。這個問題可以拆分為北京的汽車數量和北京特斯拉佔比,第乙個問題可以通過網上查詢到,第二個問題可以通過實際在十字路口上觀察,...
一些常見的資料分析方法
1.平均分析法 資料分析中的平均分析法就是運用計算平均數的方法來反應總體在一定時間 地點條件下某一數量特徵的一般水平。平均指標法的主要作用有兩點,第一就是利用平均指標對比某些現象在不同歷史時期的變化,更能說明其發展趨勢和規律。第二就是利用平均指標對比同類現象在不同地區 不同行業 不同型別單位等之間的...