使用「正則」實現不規則資料的中英文提取

這篇文章，是幫乙個群友回答的問題。他的需求是：對於中英文混合的行，只需要中文。對於全英文的行，返回整個英文行。對於全中文的行，返回整個中文行。

import pandas as pd
import re
df = pd.read_excel(r"g:\6tipdm\test.xlsx"
)display(df)
deffunc
(x):
if re.findall(
"[\u4e00-\u9fd5]+"
,x)==
:        z = re.findall(
"[^\u4e00-\u9fd5,]+"
,x)        z =
"".join(z)
.strip(
)return z
else
:        z = re.findall(
"[\u4e00-\u9fd5, ]+"
,x)        z =
"".join(z)
.strip(
)return z
df["aa"
]= df[
"產品"].
(func)
df

import pandas as pd
import re
df = pd.read_excel(r"g:\6tipdm\test.xlsx"
)display(df)
deffunc
(x):
if re.findall(
"[\u4e00-\u9fd5]+"
,x)!=
:        z = re.findall(
"[^\u4e00-\u9fd5,]+"
,x)        z =
"".join(z)
.strip(
)return z
elif re.findall(
"[\u4e00-\u9fd5]+"
,x)==
:        z = re.findall(
"[^\u4e00-\u9fd5,]+"
,x)        z =
"".join(z)
.strip(
)return z
else
:return
""def
func2
(x):
if re.findall(
"[\u4e00-\u9fd5]+"
,x)!=
:        z = re.findall(
"[\u4e00-\u9fd5, ]+"
,x)        z =
"".join(z)
.strip(
)return z
else
:return
""df[
"aa"
]= df[
"產品"].
(func)
df["bb"
]= df[
"產品"].
(func2)
df

python實現txt文字資料分類中英文分類

最近在做自然語言處理的資料預處理部分實體詞，提取抓取的資料集中包含中英文，那麼我們只需要英文，不需要中文，於是就寫了乙個簡單的指令碼實現txt文字資料分類。原資料如下為了寫這篇部落格特意只提取了資料的一部分如下 file open open r c users administrator d...

如何實現SQL2000工具的中英文介面互換

microsoft sql server 2000 擴充套件了 microsoft sql server 7.0 版的效能可靠性質量和易用性，受到廣大使用者的歡迎。對中國使用者來說，這是microsoft sql server的第乙個全漢化產品，尤其是其強大的聯機幫助，為我們帶來的許多方便。但是...

關於flex 4的新資料型別中英文對照

by flying 2010.4.15 22 53 see the following examples xmlns s library xmlns mx library minwidth 955 minheight 600 note that the list based spark contro...

使用「正則」實現不規則資料的中英文提取

python實現txt文字資料分類 中英文分類

如何實現SQL2000工具的中英文介面互換

關於flex 4的新資料型別中英文對照

相關推薦

python實現txt文字資料分類中英文分類