使用python編寫乙個**爬蟲程式,支援引數如下:
spider.py -u url -d deep -f logfile -l loglevel(1-5) --testself -thread number --dbfile filepath --key=」html5」
引數說明:
-u 指定爬蟲開始位址
-d 指定爬蟲深度
--thread 指定執行緒池大小,多執行緒爬取頁面,可選引數,預設10
--dbfile 存放結果資料到指定的資料庫(sqlite)檔案中
-l 日誌記錄檔案記錄詳細程度,數字越大記錄越詳細,可選引數,預設spider.log
--testself 程式自測,可選引數
功能描述:
2、程式每隔10秒在螢幕上列印進度資訊
3、支援執行緒池機制,併發爬取網頁
4、**需要詳盡的注釋,自己需要深刻理解該程式所涉及到的各類知識點
5、需要自己實現執行緒池
提示1:使用re urllib/urllib2 beautifulsoup/lxm2 threading optparse queue sqlite3 logger testdoc等模組
提示2:注意是「執行緒池」而不僅僅是多執行緒
提示3:爬取sina.com.cn兩級深度要能正常結束
建議程式可分階段,逐步完成編寫,例如:
版本1:spider1.py -u url -d deep
版本2:spider3.py -u url -d deep -f logfile -l loglevel(1-5) --testself
版本3:spider3.py -u url -d deep -f logfile -l loglevel(1-5) --testself -thread number
版本4:剩下所有功能
招聘** :
這個python題目將會作為我近期的目標。
博文複製位址
用以致學!
Python 關閉某一程序
windows 10作業系統 python idle 原理 呼叫windows系統自帶的命令task,該命令使用方式 第一步 呼叫cmd命令列,顯示當前系統中所有程序 win r cmd input tasklist 第二步 呼叫taskkill命令,關閉指定的程序 taskkill s syste...
python刪除某一行
整理了網路上的一些方法,一般有兩種方法 第一種 是先把檔案讀入記憶體,在記憶體中修改後再寫入原始檔。例子 將內容包含 123 的所有行刪去 with open c users lai desktop 1.txt r as r lines r.readlines with open c users l...
python爬取某一小說
經過幾天的學習簡單寫乙個爬取 的 試試結果,可惜爬取得有些慢,下面是 coding utf 8 import urllib2,urllib import re import sys from bs4 import beautifulsoup import random reload sys sys....