爬蟲日記 20 使用Pipeline模組寫入檔案

前面學習了item物件，知道怎麼樣把資料從一些散亂的網頁裡收集到，變成我們需要的結構化資料，這是乙個偉大的進步，從無序變成有序。其實大自然往往是把有序變成無序，比如一片菜園，如果無人打理它，經歷一段時間之後就會成雜草眾生，這是大自然的選擇。但是我們人類往往是反自然而存在的，選擇了種各種糧食，維護各種果樹，清除雜草，才能有我們的糧食存在。同樣道理，我們需要對收集到結構化的資料進一步處理，畢竟各種資料還是一片雜亂眾生的果樹園，需要去掉雜草，才能保留果樹。因此pipeline模組就是用來實現這個目的。

在乙個專案被spider抓取之後，它被傳送到專案管道，該管道通過幾個按順序執行的元件來處理它。每個item pipeline元件，有時也叫item pipeline，它是作為乙個python類實現，並且來定義一些簡單的方法。這些管道元件接收item物件輸入，然後對這些item物件進行一些操作處理。比如你不需要其中一些item物件，就可以把它丟棄掉它，把那些需要的保留下來繼續進入下一步處理。

item管道(item pipeline)：