實驗需要爬取一族pm2.5資料,糾結了幾天爬蟲,總算取得階段性勝利,至少夠專案用了
原理再研究,會用先:
class dmozspider(scrapy.spiders.spider):
name = "dmoz0" //爬蟲名稱,在每次呼叫爬蟲時需要
allowed_domains = ["www.tianqihoubao.com"] //注意這裡非常重要,它定義整個搜尋的範圍,既往下的任何搜尋都在這個網域名稱的範圍內,注:不是鏈結!
start_urls = [
""] //這一部分設定起始url
def parse(self, response): //scrapy框架預設傳入parse
sel = selector(response)
sites = sel.xpath('//dl')
url = ""
items =
for site in sites:
provence = site.xpath('dt/b/text()').extract()
print(provence)
citys = site.xpath('dd/a')
for city in citys:
name = city.xpath('text()').extract()
cityurl = city.xpath('@href').extract()
cl = url + cityurl[0]
item = cityitem()
item['name'] = name
item['url'] =url + cityurl[0]
items.append(item)
yield scrapy.request(cl, callback=self.parse_item) //yield生成請求,將新的url加入到爬取佇列中,cl為url,callback為新的爬取呼叫的parse名稱,這個專案新定義的為parse_item。
print("000")
def parse_item(self, response):
sell = selector(response)
sites = sell.xpath('//h2')
print("999")
第一階段練習
1 輸入乙個整數,把該整數分別按照八進位制 十進位制 十六進製制形式輸出 include stdio.h main 2 輸入乙個小數 整數部分3位 小數部分5位 把該小數分別按照以下格式輸出 小數部分4位寬度,整個數字8位寬度 小數部分3位寬度,整個數字9位寬度,空白部分使用0填充 include ...
第一階段 2015 12 2016 03
距離上一次寫部落格,大半年就過去了,這半年,都做了些什麼呢,生活又都有些什麼變化呢。2015的下半年是收穫的半年吧。第二,學ios的過程中結識了新的朋友,耳機哥,是很棒的一件事。第三,得到了乙份很美滿的愛情。最終在一起,還好沒錯過。第四,開始正視自己的不足,不再逃避,開始認真製作簡歷,並開始找工作,...
u boot第一階段
u boot 第一階段 位置 cpu arm920t start.s 流程分析 1.儲存一些全域性變數,用於啟動程式將 從flash拷貝到ram或其他使用。有一些變數的值是通過鏈結指令碼得到的,如 text base 位於board 2440 config.mk 中 bss start end 位於...