chipo = pd.read_csv(path1, sep = '\t')
預處理資料:
檢視資料有多少列:info()
抽樣檢視:df.sample(frac=0.1,random_state=42)
以item name對quantity進行分類,看quantity的總量
c = chipo[['item_name','quantity']].groupby(['item_name'],as_index=false).agg()
檢視不同類別總數/多少種商品:
chipo[『item_name』].nunique()
查詢資料:
loc:
data.loc[(data['所在樓層'] == '高樓層') & (data['電梯'].isnull()),'電梯'] = '有'
loc【條件,列】,條件中可以使用&來表示多個條件的並。例項中把高樓層中電梯一欄為空的填寫為有。
value_count:
data['朝向'].value_counts()
用來檢視朝向一列所有值的種類都是什麼
選取除了倒數第三列之外的全部列:
euro12.iloc[: , :-3]
找到三個國家的射正率:
euro12.loc[euro12.team.isin(['england', 'italy', 'russia']), ['team','shooting accuracy']]
視覺化:
處理資料:
整數類的四捨五入:round()
合併資料:
把data2加入到data1下面,行合併
all_data = pd.concat([data1, data2])
列合併pd.concat([data1, data2], axis = 1)
按照id合併:
pd.merge(all_data, data3, on='subject_id')
generator object不可見:
使用list(object)就可以見了。
更改review列第一條的資料為b:
data.review.iloc[0] = 'b'
map()是 python 內建的高階函式,它接收乙個函式 f 和乙個 list,並通過把函式 f 依次作用在 list 的每個元素上,得到乙個新的object並返回。
apache日誌分析常用命令
假設apache日誌格式為 問題1 在apachelog中找出訪問次數最多的10個ip。awk apache log sort uniq c sort nr head n 10 awk 首先將每條日誌中的ip抓出來,如日誌格式被自定義過,可以 f 定義分隔符和 print指定列 sort進行初次排序...
linux日誌分析常用命令
1.檢視檔案內容 cat n 顯示行號 2.分頁顯示 more enter 顯示下一行 f 顯示下一屏 b 顯示上一屏 less get 查詢 get 字串並高亮顯示 3.顯示檔案尾 tail f 不退出持續顯示 n 顯示檔案最後n行 4.顯示標頭檔案 head n 顯示檔案開始n行 5.內容排序 ...
Linux 日至分析常用命令
注轉貼,位址詳見末尾!1.grep查詢匹配文字 a 在檔案中查詢 grep failed to initialize beanfactory upp account.log b 查詢並顯示匹配行及以下的200行 grep a 200 failed to initialize beanfactory ...