問題:我們需要在散沙一般的資料中提取出字元,分隔符不止乙個,而且還有不少空格,比如:
原字串如下:
'asd ff gg; asd , foo| og '
我們需要刪除上面的,;|分隔符和多餘空格,提取出:
['asd', 'ff', 'gg', 'asd', 'foo', 'og']
這種一般用於處理日誌或者網頁資料提取,一般而言,這種資料中需要的資料分布規律性不是太強,而且比較散。
處理結果如下:
import re
line = 'asd ff gg; asd , foo| og '
data = re.split(r'[;,|\s]\s*',line)
for i in data:
if i == '':
data.remove(i)
print(data)
go多分隔符切割字串
若急於解決問題,可直接使用 go get t github.com jialanli lacia utils 該庫類似常用功能一應俱全哦.該功能可使用預設字元來進行多個分割,也可自定義字元集合進行分割 lacia.splitbymanystrwith p1,p2 引數1為指定字串 引數2為自定義的要...
Hive的列分隔符和行分隔符
在建立hive表時,預設行分隔符 a 列分隔符 n 這兩項也是可以設定的。在實際開發中,一般預設使用預設的分隔符,當然有些場景下也會自定義分隔符。spark hive use test db 建立外部表 create external table test tb user id bigint com...
awk linux 分隔 awk多分隔符
awk的 f引數可以指定新的分隔符,有些時候可能需求指定多個分隔符,比如下面的內容 root n1 netstat an grep estab udp 0 0 192.168.1.120 35570 212.47.249.141 123 established udp 0 0 192.168.1.1...