最近學習python爬蟲,"明明是按照步驟做,怎麼我會出現好多的問題?"
引言:在網頁之中,將爬取的內容輸出展示出來,但是往往會出現很多的格式的問題,
如 s = 「\n\n\n\n\n\n\n\n 正經的內容\n\n\n\ 又是內容 \n 不要的 \n」
如何將上面不要的字元刪除或者提取出需要的呢?
1、提取出需要 正經的內容\n\n\n\ 又是內容 \n 不要的:
s.text[8:-2]; 就是取出第8個字元,到倒數第二個字元。
2、刪除左邊的 \n
s.rstrip('\n');
3、刪除右邊的 字元
s.lstrip('\n')
4、刪除兩邊的字元
s.strip('\n').strip(
' '
); 刪除兩邊的換行以及空格
5、刪除特定的字元
s.replace(
'不要的'
, 'a');將「不要的」部分內容,用a代替
import
re
# 去除\r\n不要的字元
re.sub(
'[\r\n不要的字元]'
, '', s)
Python爬蟲學習,抓取網頁上的天氣資訊
今天學習了使用python編寫爬蟲程式,從中國天氣網爬取杭州的天氣。使用到了urllib庫和bs4。bs4提供了專門針對html的解析功能,比用re方便許多。coding utf 8 import sys reload sys sys.setdefaultencoding utf 8 from bs...
Python 網頁爬蟲初試
find find all find name attrs recursive string kwargs find all name attrs recursive string kwargs name 引數可以查詢所有名字為 name 的tag,字串物件會被自動忽略掉.keyword 引數 如果...
Python 爬蟲爬取網頁
工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...