import requests
from lxml import etree
from urllib import parse
import re
#定義乙個函式
defygdy
(baseurl):
headers =
response = requests.get(baseurl,headers=headers)
#根據網上的編碼轉換
response.encoding = 'gb2312'
dy_ele = etree.html(response.text)
# with open('dytt.html','wb') as f:
# f.write(response.content)
# print(dy_ele)
#定位資料
dy_ele_table = dy_ele.xpath('//div[@class="co_content8"]/ul/td/table')
# print(dy_ele_table)
for table in dy_ele_table:
# print(table)
try:
#獲取詳情路由以及檔名
dy_a_href = table.xpath('./tr[2]/td[2]/b/a/@href')[0]
dy_a_filename = table.xpath('./tr[2]/td[2]/b/a')[0].text
print(dy_a_filename)
# print(dy_a_href)
#路徑拼接
info_url = parse.urljoin(baseurl,dy_a_href)
response = requests.get(info_url,headers=headers)
#轉換成**的編碼
response.encoding = 'gb2312'
info_text = response.text
#用正則查詢自己需要的鏈結
p = r'res_cl = re.search(p,info_text)
print(res_cl.group(1))
info_dy = etree.html(response.text)
#用xpath找到另乙個鏈結
info_lj = info_dy.xpath('//td[@style="word-wrap: break-word"]/a/@href')[0]
print(info_lj)
#儲存鏈結
with open('陽光電影.txt','ab')as f:
except:
print('dy_a_filename'+'no!')
#函式的除錯
if __name__ == '__main__':
for i in range(1,178):
baseurl = ''%i
ygdy(baseurl)
乙個簡單的爬蟲專案(爬取小說)
1.工具介紹 1.1我們所需要用到第三方庫 requests 爬蟲所需要的最基本的第三方庫 re 正規表示式 1.2安裝的方式 pip install requests pip install re 1.3匯入第三方庫的方式 import requests import re 2.詳細 介紹首先請求...
設計乙個簡單的電影類ios
能夠表述出海報內容 類名 film 影片名字 內容上映時間 展示 main.m import import film.h int main int argc,const char argv return 0 film.h import enum selectwatchfilmtime typedef...
乙個簡單的非同步爬取資訊
寫在前頭 爬取有非同步載入頁的時資訊時,要理解其原理才是最重要的。帶ajax頁因為一次獲取不到,所以要想辦法摸擬出ajax非同步效果,得到返回資料,再分析,最終才能得到想要的結果。所需import 包 import requests from lxml import etree coding utf...