最近去面試,遇到面試官提到了幾個關於「資料採集」方面的問題。
一般大資料處理流程的共識是:
大資料採集、大資料預處理、大資料儲存及管理、大資料分析及挖掘、大資料展現和應用(大資料檢索、大資料視覺化、大資料應用、大資料安全等)。
其中,資料採集是第一步。有這麼幾個情況:
(1)日誌型別的資料採集;
(2)介面型別的資料採集;
(3)爬蟲資料採集;
(4)感測器資料採集等等。。
當然有別的分類,這裡暫時憑個人理解做個分類。
資料結構,又分結構化,半結構化,非結構化。
總稱就是:多源異構動態大資料整合!這是資料採集會遇到的問題。這還真是乙個很大的命題,值得一批學者去研究。
當然,現在也有一些技術能處理一部分問題。有一些資料採集平台,比如flume。筆者沒有使用過這些工具,不能瞎說。只是,結合自己的一些經驗,做一些思考,並記下來,為以後遇到此類問題做個參考。
未完待續。。
參考索引:
大資料金融行業企業應用幾點思考
引自 itongji 一 資料探勘的價值體現 任何資料分析 或者挖掘的專案都不會直接產生經濟價值和意義,分析出的資料結果既不能給企業直接帶來乙個客戶,也不能幫助企業賣出一件產品。資料分析 的價值體現在於業務部門根據分析結果制定相關的經營策略並貫徹執行。二 大資料 之困 通道 大資料之困 如何打通底層...
剖析大資料平台的資料採集
我在一次社群活動中做過一次分享,演講題目為 大資料平台架構技術選型與場景運用 在演講中,我主要分析了大資料平台架構的生態環境,並主要以資料來源 資料採集 資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平台的理解。本文講解資料採集部分。資料採集的設計,幾...
最近的幾點思考
在乙個競爭激烈的領域中,一定要做好定位,找好差異化的東西,差異化突出的東西,就是一家公司的特色。如果你本身在小地方發展,你自己有自己的業務,嚮往大城市的發展,捨棄已有的東西著實可惜,去大地方打拼又得從零開始,為什麼不利用好當前的業務,把業務擴充套件過去呢?也就是說,在嚮往的地方和自己的現在擁有的擅長...