使用「正則」實現不規則資料的中英文提取

2021-10-03 05:08:20 字數 1682 閱讀 4027

這篇文章,是幫乙個群友回答的問題。他的需求是:對於中英文混合的行,只需要中文。對於全英文的行,返回整個英文行。對於全中文的行,返回整個中文行。

import pandas as pd

import re

df = pd.read_excel(r"g:\6tipdm\test.xlsx"

)display(df)

deffunc

(x):

if re.findall(

"[\u4e00-\u9fd5]+"

,x)==

: z = re.findall(

"[^\u4e00-\u9fd5,]+"

,x) z =

"".join(z)

.strip(

)return z

else

: z = re.findall(

"[\u4e00-\u9fd5, ]+"

,x) z =

"".join(z)

.strip(

)return z

df["aa"

]= df[

"產品"].

(func)

df

import pandas as pd

import re

df = pd.read_excel(r"g:\6tipdm\test.xlsx"

)display(df)

deffunc

(x):

if re.findall(

"[\u4e00-\u9fd5]+"

,x)!=

: z = re.findall(

"[^\u4e00-\u9fd5,]+"

,x) z =

"".join(z)

.strip(

)return z

elif re.findall(

"[\u4e00-\u9fd5]+"

,x)==

: z = re.findall(

"[^\u4e00-\u9fd5,]+"

,x) z =

"".join(z)

.strip(

)return z

else

:return

""def

func2

(x):

if re.findall(

"[\u4e00-\u9fd5]+"

,x)!=

: z = re.findall(

"[\u4e00-\u9fd5, ]+"

,x) z =

"".join(z)

.strip(

)return z

else

:return

""df[

"aa"

]= df[

"產品"].

(func)

df["bb"

]= df[

"產品"].

(func2)

df

python實現txt文字資料分類 中英文分類

最近在做自然語言處理的資料預處理部分 實體詞,提取 抓取的資料集中包含中英文,那麼我們只需要英文,不需要中文,於是就寫了乙個簡單的指令碼實現txt文字資料分類。原資料如下 為了寫這篇部落格特意只提取了資料的一部分 如下 file open open r c users administrator d...

如何實現SQL2000工具的中英文介面互換

microsoft sql server 2000 擴充套件了 microsoft sql server 7.0 版的效能 可靠性 質量和易用性,受到廣大使用者的歡迎。對中國使用者來說,這是microsoft sql server的第乙個全漢化產品,尤其是其強大的聯機幫助,為我們帶來的許多方便。但是...

關於flex 4的新資料型別中英文對照

by flying 2010.4.15 22 53 see the following examples xmlns s library xmlns mx library minwidth 955 minheight 600 note that the list based spark contro...