資料預處理五六章複習

1、常用網路爬蟲的策略有哪些

2、簡述通用網路爬蟲的工作過程

3、分布式網路爬蟲按通訊方式分為哪幾種方式

4、python的urllib庫包括哪些模組，各自可以完成什麼功能

(1) ulib.request模組。ullib.request用來傳送request和獲取request的結果。

(2)urlib.eror模組。可以捕獲由rlib.request產生的異常並返回錯誤原因。

(3) urlib.parse模組。urlib.parse模組定義了-乙個標準介面,把url字串拆分成元件，並能把元件合成url或者將相對url轉換為給定的基url的絕對url

(4) urllb.robotparser模組。-般來說,**都會定義mobots.t檔案，該檔案主要用來規定網路爬蟲爬取該**時存在的限制。

5、簡述beautifulsoup庫的作用

beautifulsoup是乙個可以從html 或xmi檔案中提取資料python庫。bcautifulsup 提供-些簡單

的python式的函式用來處理導航、搜尋、修改分析構等功能。它同時也是乙個工具箱,通過解析文件

為使用者提供需要抓取的資料。統一將輸出文件轉換為utf- 8編碼。

6、常用網頁更新策略

1、歷史參考策略是最直觀的一種更新策略，利用泊松過程來對網頁的變化進行建模，根據每個網頁過去的變動情況，利用模型**將來何時內容會再次發生變化，以此來指導爬蟲的抓取過程。

2、使用者體驗策略儲存網頁的多個歷史版本，並根據過去每次內容變化對搜尋質量的影響，得出乙個平均值，以此作為判斷爬蟲重新抓取該網頁時機的參考依據，對於影響越厲害的網頁，則越優先排程重新抓取。

3.聚類抽樣策略

可以根據屬性將網頁歸類，同一類別內的網頁具有相同的更新頻率。為了計算某個類別的更新週期，只需對類別內網頁進行取樣，以這些取樣網頁的更新週期作為該類別內所有網頁的更新週期。

1、針對不同的資料型別，資料相似性和相異性常用的計算方法有哪些。

見課本2、資料清洗的主要任務是什麼，常用的資料清洗技術有哪些

資料清洗是進行資料預處理的首要方法。通過填充缺失的資料值、光滑噪音資料、識別和刪除群點

糾正資料不一致等方法,從而達到糾正錯誤、標準化資料格式、清除異常和重複資料的目的。

3、資料規約的目的是什麼，常用的規約技術包括哪些

資料歸約技術可以用來得到資料集的歸約表示,使

得資料集變小，但同時仍然近於保持原資料的完整

性。也就是說，在歸約後的資料集上進行挖掘，依然

能夠得到與使用原資料集近乎相同(或幾乎相同)

的分析結果。

技術：小波變換，主成分分析，屬性子集選擇，回歸和對數線性模型，直方圖，聚類，抽樣，資料立方體聚集。

4、抽樣也可以看做是一種資料規約技術，常用於資料規約的抽樣方法包括哪些

抽樣也可以看作是一種資料歸約技術。抽樣技術允許用小的隨機樣本(子集)表示大型資料集。常用

於資料歸約的抽樣方法包括無放回簡單隨機抽樣、有放回簡單隨機抽樣、簇抽樣以及分層抽樣等方

法。10、11、12計算題見課本

第六章預處理

在程式設計中，為了方便，有的時候我們會使用巨集定義，首先，我們要明確一點，巨集定義與函式式不同的，巨集定義的功能就是替換，在編譯時替換掉裡面的使用巨集的地方。如求兩個數中大的乙個 define max x,y x y x y 在使用巨集定義時間，我們要注意幾點 1.定義時中間不能有空格，如 def...

工程導論五六章讀書心得

第五章主要講述了工程創造的一般方法，主要包括創造產品的一般流程和技術推動的產品開發。一般流程包過發現需求並定義問題組織開發創造團隊確定約束條件和設計要求和尋求解決方案方案設計這四步主要過程，方案論證階段的第五步至第八步主要是分析每個潛在方案選出最佳方案書面描寫方案和把方案提交給管理...

軟體project 之第五六章總結

軟體project的前幾章各自是軟體計畫需求分析軟體設計。整體的都規劃好了以後，就該著手去實踐了。所謂的理論體系足夠強大了以後，實踐就顯得尤為輕鬆。我們設計軟體，實踐當然就是用我已經計畫好的語言去編寫我們須要做的軟體，那麼，這個過程就叫做程式編寫總結下來就是首先我們編敲之前要有一些主要的東...

資料預處理五 六章複習

第六章預處理

工程導論五六章讀書心得

軟體project 之第五 六章總結

相關推薦

資料預處理五六章複習

軟體project 之第五六章總結