標籤(空格分隔): 資料探勘 爬蟲
1、發起請求;
2、獲取相應內容;
3、解析網路內容;
4、儲存資料(結構化儲存);
user -> server : request
server -> user : response
1、請求方式:get,post,head,put,delete
2、get和post的區別:請求的引數包含的部分不同;get請求可以直接通過輸入訪問,post只能由提交表單進行實現。
3、請求url:
4、請求頭:瀏覽器的配置資訊;
5、請求體:post內容請求體;
1、響應狀態碼;
2、響應頭;
3、響應體;
只要能獲取到,都可以抓;
1、直接處理;
2、json解析;
3、正規表示式;
4、beautifulsoup提取;
5、pyquery和xpath提取;
微博的話很多用的都是js格式。原生的html**沒有那麼多微博的資訊的。
1、分析ajax請求,返回的json字串;
2、使用webdriver進行載入乙個檔案
3、splash庫進行;
4、用另外的庫進行模擬;
1、文字;
2、關係型資料庫;
3、非關係型資料庫;
4、二進位制檔案;
python爬蟲 (2)爬蟲基本流程
網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料 模擬瀏覽器開啟...
python爬蟲基本流程 Python爬蟲流程
python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...
Python爬蟲學習 三 爬蟲的基本操作流程
一般我們使用python爬蟲都是希望實現一套完整的功能,如下 1.爬蟲目標資料 資訊 2.將資料或資訊存入資料庫中 3.資料展示,即在web端進行顯示,並有自己的分析說明。這次我先介紹第乙個功能中所需要實現的基本操作 匯入爬蟲所需要的庫 如 urllib urllib2 beautifulsoup ...