python學習筆記
^(.*):\s(.*)$
"\1" : "\2",
爬蟲學習
切片spilt:
pattern = re.compile("[\s\d\\\;]+") #切片正則出空格分號斜槓
m = pattern.split(r"a bb\aaaa aa bb;bb a");
抓包工具:
telerik fiddler web debugger
抓取知乎網頁:
抓包先抓取xrsf防跨域訪問碼;
然後sess.get再抓取驗證碼,手動輸入驗證碼
最後sess.post訪問網頁登入成功獲取到cookie,然後想登入**就see.get**
json是一種資料格式,不是語言
json.loads 將json轉換成python格式,json.dumps將python格式轉換為json
json只有物件和陣列對應python的字典和列表
scrapy crawl itcast
scrapy item pipeline
在setting裡面設定pipeline的類名,然後定義pipeline方法process_item,在item裡面用yield進行生成器給pipeline
scrapy建立新工程
scrapy startproject tencent
進入item.py新增類屬性
進入spider目錄建立爬蟲檔案 scrapy genspider tencentposition "tencent.com"
製作 scrapy 爬蟲 一共需要4步:
新建專案 (scrapy startproject ***):新建乙個新的爬蟲專案
明確目標 (編寫items.py):明確你想要抓取的目標
製作爬蟲 (spiders/xxspider.py):製作爬蟲開始爬取網頁
儲存內容 (pipelines.py):設計管道儲存爬取內容
page_lx = linkextractor(allow=("start=\d+"))
rules = [
rule(page_lx, callback = "parsecontent", follow = true)
]
python教學筆記 python學習筆記(一)
1.eval 函式 eval是單詞evaluate的縮寫,就是 求.的值的意思。eval 函式的作用是把str轉換成list,dict,tuple.li 1 1,2,3 print eval li 1 di 1 print eval di 1 tu 1 2,4,6 print eval tu 1 執...
python學習筆記
coding utf 8 coding utf 8 應該像八股文一樣在每個指令碼的頭部宣告,這是個忠告 為了解決中文相容問題,同時你應該選擇支援 unicode 編碼的編輯器環境,保證在執行指令碼中的每個漢字都是使用 utf 8 編碼過的。cdays 5 exercise 3.py 求0 100之間...
Python 學習筆記
python 學習筆記 def run print running.def execute method method execute run result running.condition false test yes,is true if condition else no,is false ...