相關**提交到github上
個人github上相關python的專案:
#-*-coding:utf-8-*-import requests
from lxml import etree
import jieba
header =
def getpagenum(url):
if url:
req = requests.get(url,headers=header)
html = etree.html(req.text)
pagenum = html.xpath(u"//div[@class='paginator']/a[last()]/text()")[0]
return pagenum
def getcontent(url):
if url:
req = requests.get(url, headers=header)
html = etree.html(req.text)
data = html.xpath(u"//div[@class='short-content']/text()")
return data
def geturl(pagenum):
dataurl=
for i in range(1,int(pagenum)):
if pagenum >= 1:
url ="" %(((i - 1) *20),)
return dataurl
if __name__ == '__main__':
url = ""
pagenum =getpagenum(url)
data = geturl(pagenum)
datas =
dic = dict()
for u in data:
for d in getcontent(u):
jdata = jieba.cut(d)
for i in jdata:
if len(i.strip()) > 1:
for i in datas:
if datas.count(i) > 1:
dic[i] = datas.count(i)
for key,values in dic.items():
print "%s===%d" %(key,values)
c:\anaconda2\python.exe d:/pycharmprojects/learnpy/lesson01/spriderdouban.pybuilding prefix dict from the default dictionary ...
loading model cost 0.379 seconds.
prefix dict has been built succesfully.
結合體===2
星期一===2
出來===21
第二===2
還要===3
應該===28
劉副隊===3
案件===33
發生===7
成分===3
誠然===2
驚喜===7
兩天===5
正常===10
全劇===4
看似===2
關係===5
坐等===2
彷彿===2
有理有據===2
python 抓取https豆瓣電影資訊
1 豆瓣 為https,python需要模擬瀏覽器行為,新增請求頭資訊,2 開啟開發者工具,對資訊進行提取 2.1定位到電影資訊頭,先把關注的資訊提取出來 table re.findall r 顯示全部影片 data,re.s print table firsttable table 0 2.2 提...
抓取豆瓣2023年電影 分類 python
嗯,這次簡單點 突然很想看電影,於是就抄起了python搞了一發豆瓣的電影年度清單,順便統計了評分排名和分類之類的。還算簡單吧 16年電影都在這個鏈結 大概 83 ad e9 97 a8 sort time page limit 365 page start 0 這裡其實是可以get傳輸直接訪問豆瓣...
Python 爬蟲 抓取豆瓣讀書TOP250
coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...