貪婪模式
.+ .*:匹配任意字元
非貪婪模式
.+? .*?
^:以...開頭
$:以...結尾
轉義
str='hello'
ret=re.match('h',str)
print(ret.group()) # 結果為h
#group() 會輸出完成的匹配結果
#group(1) 會輸出完整匹配中--用第1個()括起來的字串
分組:使用()的方式
1:group()和group(0)是一樣的,都是返回完整的匹配內容
2:groups() :返回的是裡面的子組,索引從1開始
3:group(1) :返回的第乙個子組,同上
pattern='.*(\$\d+).*(\$\d+)'
ret=re.match(pattern,str)
print(ret.groups()) # ('$10', '$11')
print(ret.group(1)) # $10
print(ret.group(1,2)) # ('$10', '$11')
修飾符號:
re.i 使匹配對大小寫不敏感
re.s 使.匹配包括換行符在內的所有內容
pattern='.*(\$\d+).*(\$\d+)'
ret=re.match(pattern,str,re.s)
資料提取之 lxml
xpath資料提取時 先分組 再提取 2.1 lxml模組入門 1.匯入lxml 的 etree 庫 匯入沒有提示不代表不能用 from lxml import etree2.利用etree.html 將字串轉化為element物件,element物件具有xpath的方法,該方法返回結果為列表。中t...
資料提取之XPATH
2.資料提取 xpath語法和 lxml模組 xpath是一門在xml和html文件中查詢資訊的語言 原本設計適用於xml的,但xml和html兩者的語法極為相似,所以也可以使用html 谷歌瀏覽器下是xpath 火狐瀏覽器下是try xpath 360瀏覽器下也相容xpath,使用時需要開啟開發者...
Linux文字資料提取之head,tail例項詳解
提取開頭或結尾數行 顯示標準輸入前n 條記錄,或者命令列檔案列表的每乙個的前n 條記錄 head n n file s head n file s awk fnr n file s sed e nq file s sed nq file s 例項 gz fieldyang test awk fnr ...