通過Python提取文字中指定開始 結尾中的內容

2021-10-05 09:39:10 字數 539 閱讀 3603

今天,在爬取資料後,提取時,遇到了無法直接通過標籤獲取資料。

比如說,我想要提取開本的規格「16開」。

解決方案:

後面,查詢資料的時候發現通過正規表示式子,可以鎖定提取的前後部分。具體操作如下:

import re

# 要提取的原材料

a =""""""

# 想提取的內容假設為"16開",分析它前為本:,後為;.在正則中表示可代表一切字元,+代表匹配前面字元 >=0 次,即規定前後裡面的內容

formats = re.findall(r"本:(.+)"

, a)

print

(formats)

# 輸出為['16開']

# 由於輸出是陣列,所以再次提出

format

= formats[0]

print

(format

)# 輸出為16開

python提取中文字元 Python提取中文字元

寫這個jupyter的原因是好幾次自己爬完新聞之後,發現中間有些是html標籤 或者其他多餘的英文本元,自己也不想保留,那麼這時候乙個暴力簡單的方法就是使用 unicode 範圍 u4e00 u9fff 來判別漢字 unicode 分配給漢字 中日韓越統一表意文字 的範圍為 4e00 9fff 目前...

讀取文字檔案中指定的幾列

今天在論壇上看到乙個問題,這個問題大概是這樣的,讀取文字檔案中指定的幾列,並儲存入資料庫中。insus.net花上些少時間,實現讀取文字的功能部分。建立乙個文字檔案,文字新增好幾行。每一行有好幾列,列與列之間使用逗號分隔。adf,adfadf,adsfgads,qwer,wrt,wrey,asdfs...

Python 刪除列表中指定的元素

remove方法用於按值刪除元素,返回值為none pop方法用於按下標刪除元素,返回值為刪除的元素。remove方法用於按值刪除元素,返回值為none pop方法用於按下標刪除元素,返回值為刪除的元素。l c d e f print l 推薦 res l.remove e print l,res ...