訪問資源的協議型別url開頭的http,https,ftp,sftp,smb,
http(hyper text transfer protocol):從網路傳輸超文字資料到本地瀏覽器的傳輸協議,它能高效而準確的傳送超文字文件。
https(hyper text transfer protocol over secure socket layer),是以安全為目標的http通道,即安全版,在http下加入ssl層,簡稱https,安全基礎為ssl,傳輸的內容都是經過ssl加密的。主要作用看p79頁。
general:request headers:method ,url,headers,body,
method: get:wd表示要search的關鍵字,資料在url當中可以看到,最多提交1024位元組。
post:大多在表單提交的時發起,包含在請求體當中,沒限制
content-type和post提交資料方式的關係。
user-agen t 爬蟲偽裝瀏覽器
response header:status code p85
header:expires:指定響應的過期時間
set-cookie:設定cookie
爬蟲需要知道的基礎網頁結構:
body
html定義了網頁的內容和結構,css描述了網頁的布局,js定義了網頁的行為,
#id.class css選擇器
節點樹及節點間的關係
標籤定義的內容為節點,構成html dom樹
dom:document object model文件物件模型,定義了訪問html和xml(可擴充套件標記語言)文件的標準。
html dom標準
文件節點,元素節點,文字節點,屬性節點,注釋節點。
樹中所有節點均可以通過js訪問,元素可被修改,建立或刪除。具有層級關係,
資料爬取出來可以儲存的格式:
資料儲存txt,json,csv
物件與陣列
物件,文字字元,dump和loads函式
jQuery必知必熟基礎知識
jquery 1.特點 小巧功能強 跨瀏覽器 外掛程式2.使用 實際是js檔案 a 複製js到webroot b 頁面 3.核心物件及常用方法和屬性 a 名稱 jquery和 用 找出來的物件叫jquery物件 用document找出來的物件叫dom物件 b dom和jquery物件轉換 jquer...
mysql必知必會 基礎知識
資料庫是乙個以某種有組織的方式儲存的資料集合。理解資料庫的一種最簡單的辦法就是將其想象為乙個檔案櫃。此檔案櫃是乙個存放資料的物理位置,不管資料是什麼以及如何組織的。1.表等同於當你將資料放進檔案櫃時,不是將資料隨便扔進乙個抽屜就完了,你應該將相關的資料放進乙個特定的檔案中。2.表是一種結構化的檔案,...
會計人必知的實務基礎知識
在實務工作中可能每個財務人員只負責某乙個會計工作環節,儘管如此,每個財務人員還是非常有必要對財務工作的大致環節瞭如指掌。一 財務工作的大致環節如下 1 根據原始憑證或原始憑證彙總表填製記賬憑證。2 根據收付記賬憑證登記現金日記賬和銀行存款日記賬。3 根據記賬憑證登記明細分類賬。4 根據記賬憑證彙總 ...