今天在寫乙個簡單爬蟲,最後的文字提取部分,卻一直提不出想要的部分。
文字格式是這樣的
="rich-content topic-richtext"
>
"left"
>文字文字文字<
/p>
<
/div>
離文字最近的
不固定,只能用上面的
來匹配,但是用我僅知道的re的一點皮毛re.findall('(.*?)',text)
發現,一直匹配不到
查了半天,才意識到我的問題是,匹配多行文字,順利找到方法:
re.compile()函式可接受乙個有用的標記–re.dotall。這使得正規表示式中的句點(.)可以匹配所有的字元,也包括換行符新增re.dotall,順利解決
comment = re.
compile
(r'(.*?)'
, flags=re.
dotall
)
比起解決問題,更重要的是知道你在面臨什麼問題 正規表示式 RE
最近一段時間在研究nginx的rewirte重寫機制,因此對re需要有一定的了解,看了想關的文章,因此自己來寫一篇類似總結性的的文章。基本來說,正規表示式是一種用來描述一定數量文字的模式。regex regular express。本文用 regex 來表示一段具體的正規表示式。一段文字就是最基本的...
re正規表示式
1.數字 0 9 2.n位的數字 d 3.至少n位的數字 d 4.m n位的數字 d 5.零和非零開頭的數字 0 1 9 0 9 6.非零開頭的最多帶兩位小數的數字 1 9 0 9 0 9 7.帶1 2位小數的正數或負數 d d 8.正數 負數 和小數 d d 9.有兩位小數的正實數 0 9 0 9...
Re正規表示式
import re 匯入re模組 重複出現的字串 對於重複出現的字串可以用大括號內部加上重複次數的方式表達 r d 分組 使用小括號分組 r d d 重複出現的字串 對於重複出現的字串可以用大括號內部加上重複次數的方式表達 r d 重複出現的字串 對於重複出現的字串可以用大括號內部加上重複次數的方式...