編寫正規表示式

是不是感覺有點無從下手？別慌，慢慢來。通過對比網頁和網頁**我們確認資訊特徵。

房產名稱：

急降60萬  急賣全款客戶來 寶山二村好位置

複製該資訊，到html檔案中通過ctrl+f查詢該資訊，然後認真檢視「房產名稱」前後的字元特徵：

前面的字元特徵：

;"  >

後面的字元特徵：

現在對照房產名稱前後的字元特徵編寫正規表示式，同時給「房產名稱」進行分組命名(?p.*?)：

;"  >(?p.*?)

注意： .*?在爬取網頁時經常會用到，表示匹配任意內容任意數量直到遇到後面的字元特徵結束)

房型：

前面的字元特徵：

span>

後面的字元特徵：

如法炮製，提取「房型」資訊並進行分組命名(?p.*?)：

span>(?p.*?)

注意：在房產名稱和房型之間有大段網頁**，我們可以寫.*?對應該段**表示跳過。

面積：

前面的字元特徵：

後面的字元特徵：

如法炮製，提取「面積」資訊並進行分組命名(?p.*?)： (?p.*?)總價：現在就剩最後一項「總價」資訊，繼續查詢該資訊前後的字元特徵：前面的字元特徵：

後面的字元特徵：

如法炮製，提取「總價」資訊並進行分組命名(?p.*?)：


(?p.*?)<

現在提取網頁資料四項資訊的正規表示式均已寫好，注意每一項資訊之間間隔了很多的網頁**，我們可以用.*?對應該段**表示跳過。讓我們現在把4段資訊連起來，寫出完整的正規表示式：

rex = ';"  >(?p.*?) .*?span>(?p.*?).*?(?p.*?) (?p.*?)<'

Linux正規表示式編寫正規表示式

為了所有實用化的用途，你可以通過使用程式產生正確的結果。然而，並不意味著程式總是如你所願的那樣正確地工作。多數情況下，如果程式不能產生想要的輸出，可以斷定真正的問題排除輸入或語法錯誤在於如何描述想要的東西。換句話說，應該考慮糾正問題的地方是描述想要的結果的表示式。表示式不完整或者公式表示得不正確...

正規表示式正規表示式總結

非負整數 d 正整數 0 9 1 9 0 9 非正整數 d 0 負整數 0 9 1 9 0 9 整數 d 非負浮點數 d d 正浮點數 0 9 0 9 1 9 0 9 0 9 1 9 0 9 0 9 0 9 1 9 0 9 非正浮點數 d d 0 0 負浮點數正浮點數正則式英文本串 a za z...

正規表示式表示式

網域名稱 a za z0 9 a za z0 9 a za z0 9 a za z0 9 interneturl a za z s 或 http w w w 手機號碼 13 0 9 14 5 7 15 0 1 2 3 5 6 7 8 9 18 0 1 2 3 5 6 7 8 9 d 號碼 x x x...

編寫正規表示式

Linux正規表示式 編寫正規表示式

正規表示式 正規表示式 總結

正規表示式 表示式

相關推薦

Linux正規表示式編寫正規表示式

正規表示式正規表示式總結

正規表示式表示式