pandas處理資料方法整合

2021-10-25 05:02:32 字數 2914 閱讀 9790

1.如何將乙個表中的role欄位取值「客戶」和「坐席」處理為0和1

data[

'role'

]=data[

'role'].

(lambda x:

1if x ==

'客戶'

else

0)

data[

'keywords'

]=data.

(lambda x :get_keyword(x[

'role'

],x[

'content'])

,axis=

1)

3.去除一段話中的所有標點符號
data[

"label_txt"

]=data.

(lambda x: re.sub(

"[/n\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]",""

,x['label_txt'])

,axis=

1)

4.使用pandas將dataframe資料寫入csv檔案
df[

['asr_txt'

,'call_id'

,'re_prob']]

.to_csv(result_path,encoding=

'gbk'

,index=

false

)

5.使用pandas讀取txt檔案,檔案內容以tab分割
df=pd.read_table(r'.\test_0927.txt'

,sep=

'\t'

,encoding=

'utf-8'

)

6.返回乙個目錄下的所有檔案
files=os.listdir(filepath)
7.使用zip方法構造乙個dataframe
df=pd.dataframe(

zip(label_list,content_list)

,columns=

['label'

,'content'

])

8.重置索引,並刪除原來索引
data.reset_index(drop=

true

,inplace=

true

)#drop=true 表示刪除原有索引

#inplace=true 表示該更新對data資料生效

9.判斷乙個詞是否在一句話中
if re.search(word,sentence)

:

10.使用「,」將詞進行拼接
ky=

','.join(

[word.strip(

)for word in keywords]

)

11.對一組詞中,每個詞出現的次數進行統計
def

hotword

(content,date)

: a=counter(content)

df=pd.dataframe(columns=

['word'

,'count'

,'date'])

df['word']=

[i for i in a.elements()]

#獲取a中的所有的鍵,返回的是乙個物件,可以通過list來轉化它

df['date'

]=date

df['count']=

[a[word]

for word in df[

'word']]

return df

12.生成雲圖
stylecloud.gen_stylecloud(text=

' '.join(wordscloud)

, max_words=

500,

collocations=

false

, font_path=r'./data/simhei.ttf'

, icon_name=

'fas fa-thumbs-up'

, size=

612,

output_name=

'豆瓣正向評分詞雲圖.png'

)image(filename=

'豆瓣正向評分詞雲圖.png'

)

13.將乙個字元轉為整數型別
df[

'count'

]=df[

'count'

].astype(

'int64'

)

14.對dataframe型別資料進行排序
qushi=df.groupby(

['word'])

.sum()

.reset_index(

).sort_values(by=

'count'

,ascending=

false

)

15.python中*args和**kwargs區別:
*args:是以元組的方式存放引數

**kwargs:以字典的方式存放

16.將excel中的一行轉為字典
data=pd.read_excel(

'./data.xlsx'

)data.iloc[0,

:].to_dict(

)

pandas 資料整合concat,merge

這個函式橫向合併時,將表的所有資料通過索引相同合併,而merge函式可以選擇鍵值合併 引數功能 aixs 設定合併方式,0為縱向 1為橫向 jion 設定是交集還是並集,inner 是交集 outer 是並集 import pandas as pd import numpy as np df1 pd...

pandas 的資料處理方法

import pandas as pd 2 讀入資料 pd.read csv filepath,param 3 檢視資料的前五行 pd.head pd.tail 檢視尾5行 4 檢視資料的一些情況 series.describe 對一列進行統計 5 刪除列 pd.drop columns,inpla...

pandas處理資料

pd.read csv path to file.txt header 0,names ab index 0 names columns這個可以不寫,制定索引列是第一列,這樣就沒有序號 np.tofile d python np.txt 類似於二維列表 充分利用map函式 df.a df.a.map...