1、爬蟲專案介紹:
網路爬蟲分類:
通用爬蟲,如baidu,google
聚焦爬蟲,從網際網路獲取結構化資料
go語言的爬蟲庫/框架:
henrylee2cn/pholcus
gocrawl
colly
hu17889/go_spider
將不使用現成的爬蟲庫/框架
使用elasticsearch作為資料儲存
使用go語言標準模板庫實現http資料展示部分
有乙個種子/起始頁面
類似於走迷宮
爬蟲實現步驟:
單任務版->併發版(多個goroutine)->分布式(在併發版加上網路介面)
1 3Go語言環境
為了便於 學習與分享,建議各位大佬可以前往 github 免費註冊乙個賬戶,在此有很多優秀的go專案,可以較快的提高自己的開發能力。成功註冊github賬戶後,可以象下面這樣建立用於儲存 源 的資料夾 github賬戶名 macos或linux mkdir gopath src github.com...
13Go語言基礎之介面
本文是李文周的部落格go語言學習之路的目錄提要版,方便複習檢視使用,原文參見文章連線 介面 inte ce 定義了乙個物件的行為規範,只定義規範不實現,由具體的物件來實現規範的細節。在go語言中介面 inte ce 是一種型別,一種抽象的型別。inte ce是一組method的集合,是duck ty...
搞定Go語言 第2天13 Go語言檔案操作
計算機中的檔案是儲存在外部介質 通常是磁碟 上的資料集合,檔案分為文字檔案和二進位制檔案。os.open 函式能夠開啟乙個檔案,返回乙個 file和乙個err。對得到的檔案例項呼叫close 方法能夠關閉檔案。package main import fmt os func main 關閉檔案 fil...