1、常用網路爬蟲的策略有哪些
2、簡述通用網路爬蟲的工作過程
3、分布式網路爬蟲按通訊方式分為哪幾種方式
4、python的urllib庫包括哪些模組,各自可以完成什麼功能
(1) ulib.request模組。ullib.request用來傳送request和獲取request的結果。
(2)urlib.eror模組。可以捕獲由rlib.request產生的異常並返回錯誤原因。
(3) urlib.parse模組。urlib.parse模組定義了-乙個標準介面,把url字串拆分成元件,並能把元件合成url或者將相對url轉換為給定的基url的絕對url
(4) urllb.robotparser模組。-般來說,**都會定義mobots.t檔案,該檔案主要用來規定網路爬蟲爬取該**時存在的限制。
5、簡述beautifulsoup庫的作用
beautifulsoup是乙個可以從html 或xmi檔案中提取資料python庫。bcautifulsup 提供-些簡單
的python式的函式用來處理導航、搜尋、修改分析構等功能。它同時也是乙個工具箱,通過解析文件
為使用者提供需要抓取的資料。統一將輸出文件轉換為utf- 8編碼。
6、常用網頁更新策略
1、歷史參考策略是最直觀的一種更新策略,利用泊松過程來對網頁的變化進行建模,根據每個網頁過去的變動情況,利用模型**將來何時內容會再次發生變化,以此來指導爬蟲的抓取過程。
2、使用者體驗策略儲存網頁的多個歷史版本,並根據過去每次內容變化對搜尋質量的影響,得出乙個平均值,以此作為判斷爬蟲重新抓取該網頁時機的參考依據,對於影響越厲害的網頁,則越優先排程重新抓取。
3.聚類抽樣策略
可以根據屬性將網頁歸類,同一類別內的網頁具有相同的更新頻率。為了計算某個類別的更新週期,只需對類別內網頁進行取樣,以這些取樣網頁的更新週期作為該類別內所有網頁的更新週期。
1、針對不同的資料型別,資料相似性和相異性常用的計算方法有哪些。
見課本2、資料清洗的主要任務是什麼,常用的資料清洗技術有哪些
資料清洗是進行資料預處理的首要方法。通過填充缺失的資料值、光滑噪音資料、識別和刪除群點
糾正資料不一致等方法,從而達到糾正錯誤、標準化資料格式、清除異常和重複資料的目的。
3、資料規約的目的是什麼,常用的規約技術包括哪些
資料歸約技術可以用來得到資料集的歸約表示,使
得資料集變小,但同時仍然近於保持原資料的完整
性。也就是說,在歸約後的資料集上進行挖掘,依然
能夠得到與使用原資料集近乎相同(或幾乎相同)
的分析結果。
技術:小波變換,主成分分析,屬性子集選擇,回歸和對數線性模型,直方圖,聚類,抽樣,資料立方體聚集。
4、抽樣也可以看做是一種資料規約技術,常用於資料規約的抽樣方法包括哪些
抽樣也可以看作是一種資料歸約技術。抽樣技術允許用小的隨機樣本(子集)表示大型資料集。常用
於資料歸約的抽樣方法包括無放回簡單隨機抽樣、有放回簡單隨機抽樣、簇抽樣以及分層抽樣等方
法。10、11、12計算題見課本
第六章預處理
在程式設計中,為了方便,有的時候我們會使用巨集定義,首先,我們要明確一點,巨集定義與函式式不同的,巨集定義的功能就是替換,在編譯時替換掉 裡面的使用巨集的地方。如求兩個數中大的乙個 define max x,y x y x y 在使用巨集定義時間,我們要注意幾點 1.定義時中間不能有空格,如 def...
工程導論五六章讀書心得
第五章主要講述了工程創造的一般方法,主要包括創造產品的一般流程和技術推動的產品開發。一般流程包過發現需求並定義問題 組織開發 創造 團隊 確定約束條件和設計要求和尋求解決方案 方案設計 這四步主要過程,方案論證階段的第五步至第八步主要是分析每個潛在方案 選出最佳方案 書面描寫方案 和把方案提交給管理...
軟體project 之第五 六章總結
軟體project的前幾章各自是軟體計畫 需求分析 軟體設計。整體的都規劃好了以後,就該著手去實踐了。所謂的理論體系足夠強大了以後,實踐就顯得尤為輕鬆。我們設計軟體,實踐當然就是用我已經計畫好的語言去編寫我們須要做的軟體,那麼,這個過程就叫做 程式編寫 總結下來就是首先我們編敲 之前要有一些主要的東...