這是做的第乙個任務,爬取 中的標題和鏈結。
紅框中為要爬取的部分:
以下為部分源**:
其實這對資料爬取沒什麼影響,上網查了一下,
sid就是為域或本地計算機中建立的每個帳戶分配的唯一
id字串。
因為我的電腦中建立.py檔案時會自動生成:
__author__ = 'dell'
這一行**,後來在解決其他問題時,因為它多餘去掉了,很幸運雖然那個問題雖沒解決,但這個問題再沒有出現過。
2、最開始是將鏈結和標題分開練習爬取的,爬取鏈結時發現不止有所需要的鏈結還有一些**,類似這樣:
發現是正則寫的不夠全面,觀察了一下,發現要爬取的鏈結開頭都是大寫英文本母,所以就將正則改為了:
reg=r'href="(.*?)\.html"'
#改為#
reg=r'href="([a-z].*?)\.html"'
其實這有些投機取巧,看了她們寫的比較全面的:
reg=r'
(.*?)'
3、將鏈結和標題一塊爬取的時候,開始寫了兩個正則的函式,就是想將兩個爬蟲合一塊,然而這樣要不出不來,要麼鏈結和標題是分開的,看了她們的**發現她們用了乙個語法:
re.finditer()
然後在輸出時是這樣寫的:
fd.write(item.group(1)+'\t'+item.group(3)+'\n')
總的來說還是自己掌握的只是不夠多。
下面是爬取的**:
#conding-utf8
import re
import urllib
url=''
def gethtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
def getdsj(html):
reg=r'
(.*?)'
lsre=re.compile(reg)
ls=re.finditer(lsre,html)
return ls
html=gethtml(url)
ls=getdsj(html)
fd=open(r'thebigdate2.txt','a+')
for item in ls:
fd.write(item.group(1)+'\t'+item.group(3)+'\n')
fd.close()
爬取的部分內容:
python實現單詞的簡單爬取
因為不需要登入之類的操作,可以說,這是對爬蟲初學者來說最簡單最基礎的乙個案例了,由於之後要用到這裡就簡單學習記錄一下。爬取目標 金山詞霸的四六級詞彙 我們可以很容易看到四個選項,六級就不列出來了。很容易拿到,且規律這麼明顯,所以說很容易。我們每次爬取單詞的時候僅需對這四個詞庫隨機選取即可。我們選擇四...
嚴格模式 解構賦值 簡單正則
一.嚴格模式 嚴格模式的意義 使用嚴格模式 鬆散模式與嚴格模式的常見區別function sum a,b sum 1,3 use strict function sum2 a,b sum2 1,2 注意點 使用webpack打包時,會吧js檔案預設新增 use strict use strict f...
簡單爬取小說
import urllib.request import re 爬取 是最基礎的爬蟲,學會思路就能去做一些高階爬蟲,思路一樣,只是用的庫或者js或者非同步等問題不同而已 url 爬取的 with urllib.request.urlopen url as doc html doc.read 讀取網頁...