資料採集之資料來源:
(1)開放資料來源
(2)爬蟲爬取
(3)感測器
(4)日誌採集
開放資料來源:
單位資料來源
**美國人口調查局
提供人口資訊,地區分布和教育情況等美國公民相關的資料
歐盟歐盟開放資料平台,提供歐盟各機構的大量資料。
facebook官方提供的api,用於查詢使用者公開的海量資訊
amazon
亞馬遜網路服務開放資料集
谷歌金融,收錄了40年以來的**資料,實時更新
北京大學
北京大學開放研究資料平台
imagenet
目前世界上影象識別最大的資料庫,包括近1500萬張影象
資料集說明
**movielens
電影推薦系統資料集,包括多個大小的版本
netflix prize dataset
1億部電影評分,netflix懸賞100萬美金的知名資料集
letor
資訊檢索資料集
mslr
微軟發布的learning to rank資料集
yahoo ltr
雅虎發布的ltr比賽資料集
online notebook使用(免費提供gpu):
天池notebook
google colab
採集資料小總結
採集過程遇到的問題 1.十分鐘內訪問資料頁面,需要輸入驗證碼 2.每天ip限定訪問五十個以內,用完則明天再來 b 剛開始的解決辦法 b 去抓取網上提供的 ip 埠,然後 訪問 問題 ip好多不能用,需要 ip個數較多,然後還要根據採集 的規則設定,比如十分鐘內每個 訪問規則數量 1,之後再次訪問.b...
08 資料採集 如何自動化採集資料?
如何使用爬蟲做抓取 1 python爬蟲,大致經過三個過程 使用requests爬取內容 使用xpath解析內容 使用pandas儲存資料。2 抓取工具 火車採集客 八爪魚 集搜客 如何使用日誌採集工具 日誌採集通過分析使用者訪問情況,提公升系統效能,從而提高系統承載量。日誌採集分為兩種 1 通過w...
SpringBoot學習 資料來源(一)單資料來源
springboot2.1.9預設支援三種資料來源 connection pool com.zaxxer.hikari.hikaridatasource org.apache.tomcat.jdbc.pool.datasource org.apache.commons.dbcp2.basicdata...