5、多執行緒:主要目的減少cpu資源的浪費
通過網路爬蟲獲取網域名稱,得到網域名稱之後,查詢,對比,存到資料庫中,更新
拿新資訊,將一些訪問量大的資訊存入快取中
6、一般伺服器為30、40個執行緒
7、seo 搜尋排名優化技術
8、執行緒池:代替我們管理執行緒,相當於乙個執行緒框架,執行緒池中有乙個訊息佇列,自動分配執行緒,保證不會有執行緒空閒
9、機械io,磁碟io:存放持久化資料
10、模擬登入:將使用者名稱和密碼寫在程式中
12、shell指令碼:shell指令碼,就是利用shell的命令解釋的功能,對乙個純文字的檔案進行解析,然後執行這些功能,也可以說shell指令碼就是一系列命令的集合。
shell可以直接使用在win/unix/linux上面,並且可以呼叫大量系統內部的功能來解釋執行程式,如果熟練掌握shell指令碼,可以讓我們操作計算機變得更加輕鬆,也會節省很多時間。
搜尋引擎 網路爬蟲
原文出自 瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選...
搜尋引擎 網路爬蟲
瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選接。各個程...
搜尋引擎之網路爬蟲
1 網路爬蟲結構 網路爬蟲把網路分為5個部分 5不可知網頁集合 即爬蟲無法獲取的網頁,而且這部分網頁佔較大比例 2 爬蟲分類 1批量型 有明確抓取範圍和目標,達到目標停止抓取,目標可以使網頁輸也可以是時間量。2增量型 會保持不斷的抓取2 爬蟲分類 1批量型 有明確抓取範圍和目標,達到目標停止抓取,目...