1.如何將乙個表中的role欄位取值「客戶」和「坐席」處理為0和1
data[
'role'
]=data[
'role'].
(lambda x:
1if x ==
'客戶'
else
0)
data[
'keywords'
]=data.
(lambda x :get_keyword(x[
'role'
],x[
'content'])
,axis=
1)
3.去除一段話中的所有標點符號data[
"label_txt"
]=data.
(lambda x: re.sub(
"[/n\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]",""
,x['label_txt'])
,axis=
1)
4.使用pandas將dataframe資料寫入csv檔案df[
['asr_txt'
,'call_id'
,'re_prob']]
.to_csv(result_path,encoding=
'gbk'
,index=
false
)
5.使用pandas讀取txt檔案,檔案內容以tab分割df=pd.read_table(r'.\test_0927.txt'
,sep=
'\t'
,encoding=
'utf-8'
)
6.返回乙個目錄下的所有檔案files=os.listdir(filepath)
7.使用zip方法構造乙個dataframedf=pd.dataframe(
zip(label_list,content_list)
,columns=
['label'
,'content'
])
8.重置索引,並刪除原來索引data.reset_index(drop=
true
,inplace=
true
)#drop=true 表示刪除原有索引
#inplace=true 表示該更新對data資料生效
9.判斷乙個詞是否在一句話中if re.search(word,sentence)
:
10.使用「,」將詞進行拼接ky=
','.join(
[word.strip(
)for word in keywords]
)
11.對一組詞中,每個詞出現的次數進行統計def
hotword
(content,date)
: a=counter(content)
df=pd.dataframe(columns=
['word'
,'count'
,'date'])
df['word']=
[i for i in a.elements()]
#獲取a中的所有的鍵,返回的是乙個物件,可以通過list來轉化它
df['date'
]=date
df['count']=
[a[word]
for word in df[
'word']]
return df
12.生成雲圖stylecloud.gen_stylecloud(text=
' '.join(wordscloud)
, max_words=
500,
collocations=
false
, font_path=r'./data/simhei.ttf'
, icon_name=
'fas fa-thumbs-up'
, size=
612,
output_name=
'豆瓣正向評分詞雲圖.png'
)image(filename=
'豆瓣正向評分詞雲圖.png'
)
13.將乙個字元轉為整數型別df[
'count'
]=df[
'count'
].astype(
'int64'
)
14.對dataframe型別資料進行排序qushi=df.groupby(
['word'])
.sum()
.reset_index(
).sort_values(by=
'count'
,ascending=
false
)
15.python中*args和**kwargs區別:*args:是以元組的方式存放引數
**kwargs:以字典的方式存放
16.將excel中的一行轉為字典data=pd.read_excel(
'./data.xlsx'
)data.iloc[0,
:].to_dict(
)
pandas 資料整合concat,merge
這個函式橫向合併時,將表的所有資料通過索引相同合併,而merge函式可以選擇鍵值合併 引數功能 aixs 設定合併方式,0為縱向 1為橫向 jion 設定是交集還是並集,inner 是交集 outer 是並集 import pandas as pd import numpy as np df1 pd...
pandas 的資料處理方法
import pandas as pd 2 讀入資料 pd.read csv filepath,param 3 檢視資料的前五行 pd.head pd.tail 檢視尾5行 4 檢視資料的一些情況 series.describe 對一列進行統計 5 刪除列 pd.drop columns,inpla...
pandas處理資料
pd.read csv path to file.txt header 0,names ab index 0 names columns這個可以不寫,制定索引列是第一列,這樣就沒有序號 np.tofile d python np.txt 類似於二維列表 充分利用map函式 df.a df.a.map...