Py爬蟲自學路線

2022-05-09 04:12:07 字數 600 閱讀 3708

1.json資料格式

2.python3中的urllib包

官方文件:

中文翻譯版:

request物件:

urllib.parse包:

3.http請求頭中user-agent使用者**

4.重定向

7.utf-8轉換工具

utf-8/unicode/acsii學習

8.向檔案追加內容

9.yield使用方法

10.json.dump()

11.讀取檔案

12.request.session()維持會話保持cookie

13.python 內建資料庫sqlite3

14.sqlite視覺化工具

15.

hadoop自學路線

選擇乙個hadoop的版本,然後閱讀文件了解hadoop what s hadoop,why hadoop exists 安裝hadoop,三種方式都試下 在hadoop文件裡面有hadoop command的資料,i.hdfs command,ii.job command,盡量試試這兩方面的命令 ...

py爬蟲概覽

1 發起請求 使用http庫向目標站點發起請求,即傳送乙個request request包含 請求頭 請求體等 request模組缺陷 不能執行js 和css 2 獲取響應內容 如果伺服器能正常響應,則會得到乙個response 3 解析內容 解析html資料 正規表示式 re模組 第三方解析庫如b...

Python自學爬蟲

解除安裝前面 這是乙個半自動爬蟲,也就是手動的比較多 也是個人學習效果展示 如果對看到的人有幫助 那再好不過了 匯入正規表示式模組和csv模組 import re import csv 讀取檔案 with open source.txt r encoding gbk as f all str f.r...