Python抓取豆瓣《白夜追兇》的評論並且分詞

相關**提交到github上

個人github上相關python的專案:

#-*-coding:utf-8-*-
import  requests
from lxml import etree
import jieba
header =
def getpagenum(url):
if url:
req = requests.get(url,headers=header)
html = etree.html(req.text)
pagenum = html.xpath(u"//div[@class='paginator']/a[last()]/text()")[0]
return pagenum
def getcontent(url):
if url:
req = requests.get(url, headers=header)
html = etree.html(req.text)
data = html.xpath(u"//div[@class='short-content']/text()")
return data
def geturl(pagenum):
dataurl= 
for i in range(1,int(pagenum)):
if pagenum >= 1:
url ="" %(((i - 1) *20),)
return dataurl
if __name__ == '__main__':
url = ""
pagenum =getpagenum(url)
data = geturl(pagenum)
datas = 
dic = dict()
for u in data:
for d in getcontent(u):
jdata = jieba.cut(d)
for i in jdata:
if len(i.strip()) > 1:
for i in datas:
if datas.count(i) > 1:
dic[i] = datas.count(i)
for key,values in dic.items():
print "%s===%d" %(key,values)

c:\anaconda2\python.exe d:/pycharmprojects/learnpy/lesson01/spriderdouban.py
building prefix dict from the default dictionary ...
loading model cost 0.379 seconds.
prefix dict has been built succesfully.
結合體===2
星期一===2
出來===21
第二===2
還要===3
應該===28
劉副隊===3
案件===33
發生===7
成分===3
誠然===2
驚喜===7
兩天===5
正常===10
全劇===4
看似===2
關係===5
坐等===2
彷彿===2
有理有據===2

python 抓取https豆瓣電影資訊

1 豆瓣為https,python需要模擬瀏覽器行為，新增請求頭資訊，2 開啟開發者工具，對資訊進行提取 2.1定位到電影資訊頭，先把關注的資訊提取出來 table re.findall r 顯示全部影片 data,re.s print table firsttable table 0 2.2 提...

抓取豆瓣2023年電影分類 python

嗯，這次簡單點突然很想看電影，於是就抄起了python搞了一發豆瓣的電影年度清單，順便統計了評分排名和分類之類的。還算簡單吧 16年電影都在這個鏈結大概 83 ad e9 97 a8 sort time page limit 365 page start 0 這裡其實是可以get傳輸直接訪問豆瓣...

Python 爬蟲抓取豆瓣讀書TOP250

coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...

Python抓取豆瓣《白夜追兇》的評論並且分詞

python 抓取https豆瓣電影資訊

抓取豆瓣2023年電影 分類 python

Python 爬蟲 抓取豆瓣讀書TOP250

相關推薦

抓取豆瓣2023年電影分類 python

Python 爬蟲抓取豆瓣讀書TOP250