大資料與死資料
為什麼,在得知貴州還開辦了大資料交易中心,也許是全球第乙個
會覺得無比彆扭??
連續發布了blog《大資料與鄭國渠》、《大資料與黑天鵝》...
在blog中,筆者曾經提到:
積累的資料,乙個連pm2.5、耕地面積,都是****的**,再多的資料,缺乏流動與共享,也是死資料,有意義嗎?
4月30日,一周後,黑天鵝又一次出現:《中國科學家難以獲取高質量的國內資料科學》
國內**強推大資料,提公升為國家戰略的另外兩個「潛在」考慮,可能是:
::基於大資料、資訊科技的新型「計畫經濟」,個人對經濟不熟悉,但直覺上覺得不靠譜,至少目前沒看到有這方面的理論體系,而成熟的理論體系,是專案成功的基本要素。
有了成熟的理論體系,未必一定成功,沒有,絕對是失敗
::建立類似1984的社會管理體系,這個更加不靠譜,網路危機公關的經典手法就是,採用大量的關聯資訊,淹沒負面新聞。
一組(10臺)電腦,每天可以發布上億條資訊(包括填寫驗證碼),可以模擬千萬級的使用者資料。
(順便說一句,個人是國內首家4a級網路公關公司的聯合創始人之一,服務過150+國際500強,包括微軟、賓士、西門子)
大資料的通道是網際網路,資料、資訊是一次性消費產品,可以零成本傳播、複製,網際網路的核心只有兩個字:free(免費)+open(開放)
積累的資料,乙個連pm2.5、耕地面積,都是****的**,再多的資料,缺乏流動與共享,也是死資料,有意義嗎?
中國科學家難以獲取高質量的國內資料科學
上海海事大學的zheng
wan在《自然》上發表文章稱,中國科學家越來越難以獲得高質量的國內資料,認為這一情況可能阻礙科研和創新。他說,大部分公共資料被**部門控制,其中一些加強了對資料的壟斷,使得中國研究人員難以獲取這些資料。人文科學的研究人員受影響最大,但資料訪問的限制正擴大到環境科學和公共健康等領域,原因是資料具有政治敏感性。即使資料公開了,其質量也令人擔憂,最明顯的乙個例子是全國的gdp資料和各省公布的gdp資料之間存在顯著差距,國家統計局稱資料差異是資料收集方法的不同導致的。在文章最後,zheng
wan談論了網際網路審查,稱google學術搜尋被遮蔽對他的工作影響非常大。
傳統資料與大資料
問世間,大資料為何物,直教人眾說紛紜 一本 big data 的書,掀起了大資料的浪潮,不管是it人士,還是 精英,都在議論大資料,春運大資料 出遊大資料 美食大資料 閱讀大資料 那麼,大資料到底是什麼呢?難道量大 數大就是大資料嗎?如果是這樣,大資料就是炒舊飯了,殊不知電信領域無論從數量規模,還是...
大資料與資料脫敏
單列並不能定位個人,但是多列資訊可用來潛在的識別某個人,這些列被稱為半識別列,如郵編號,生日及性別等。美國的乙份研究 稱,僅使用郵編號,生日和性別資訊即可識別87 的美國人 3 包含使用者敏感資訊的列,如交易數額,疾病以及收入等。其他不包含使用者敏感資訊的列。屬性洩露,當資料使用人員根據其訪問的資料...
大資料簡介與大資料分析
大資料 是乙個體量特別大,資料類別特別大的資料集,並且這樣的資料集無法用傳統資料庫工具對其內容進行抓取 管理和處理。大資料 首先是指資料體量 volumes 大,指代大型資料集,一般在10tb?規模左右,但在實際應用中,很多企業使用者把多個資料集放在一起,已經形成了pb級的資料量 其次是指資料類別 ...