大資料與時間

2021-08-03 06:21:39 字數 1241 閱讀 7953

大資料的概念起源其實就和時間聯絡得非常緊密,一方面是單位時間內的資料種類和資料量,另一方面是歷史時間內的資料積累,這兩方面的交叉復合增長才使得資料可能被稱為大。

從古至今,人類個體在單位時間內創造的資料本來是一樣多的,但內在差別卻很大。

第一種差別可以稱做資料質量的差別。以前人們在單位時間內做的事情種類很少,可以很簡單的做歸類聚合。而現代人的任務切換太頻繁了,因此需要更多的資料來進行描述。姑且不論做事質量的好壞,我們可以說以前的資料單一,質量差,現在在的資料豐富,***。

第二種差別涉及到可用性的概念,包括可獲取性,可處理性,處理結果有無意義等。我們說以前的資料可用性差。最大的原因是收集方式匱乏,沒有有效的手段獲取資料。而另乙個重要的原因就是大量個體產生的資料趨同,英雄才造時勢,英雄又很少,因此針對歷史的大量研究都趨向於統計群體的資料,而不是個體。

但現代社會有很大的不同,物質的豐富加上精神的多彩使得人類個體對於如何生活有了更多的選擇。人民群眾造時勢,時勢造英雄,人人又都是英雄。把我們人類自己看成資料的生產者,生活中更多的選擇實質上生產出了更多種類的資料。以前是千人一面,現在則可能一人千面,人類社會的發展本質上是乙個熵增的過程。

人與動物的乙個重要區別就是人會製造和使用工具。現代人擁有足夠多的工具,相比我們的祖先,我們可以在更少的時間中做更多的事。這個說法聽上去太具有**力了,從極限上來說,人類可以在有限時間內做無限的事務,雖然我們的感覺反而是現代人越來越沒有時間了:(。那麼反過來對於資料來說,它們就擁有了我們越來越多的時間,也至於無限。從這個角度來說,不是我們擁有了資料,而是資料擁有了我們。

繼續深入,則應該能想到大資料發展的乙個方向可以是"個人的大資料",即這種應用的目的是為單個人建立他自己的資料庫和分析系統。因為單個人的資料量都已經大到可稱為大資料的地步了。

然而,當乙個應用占用人們過多的時間時,情況又發生變化。乙個顯而易見的的例子是,各種自詡精準推送的應用,往往推薦的東西並不是使用者想要的,或者說正是應用"培養"了使用者,而使用者本來並非如此。那麼這種屁股決定腦袋的資料及其分析顯然是不準確的。

大資料是我們的工具,用來輔助決策,節省決策的時間。一方面是通過大資料系統元件的發展公升級以及越來越快的硬體,此所謂工具的工具。一方面是大資料的應用,搜尋,電商,金融,醫療,以至生活的方方面面。

資料雖然多了,但是處理快了,節省了人們的思考時間。能否思考是活人與死人的唯一區別。在2023年,人類總共創造了4.4zb(44億tb)的資料,而這個數字大約每兩年就會翻倍,但每年只有不到10%的資料會被分析處理。人們又是否為了節省決策的時間而在蒐集和處理資料上花費了更多的時間?所謂的「資源詛咒」會不會在大資料領域出現呢?

大資料簡介與大資料分析

大資料 是乙個體量特別大,資料類別特別大的資料集,並且這樣的資料集無法用傳統資料庫工具對其內容進行抓取 管理和處理。大資料 首先是指資料體量 volumes 大,指代大型資料集,一般在10tb?規模左右,但在實際應用中,很多企業使用者把多個資料集放在一起,已經形成了pb級的資料量 其次是指資料類別 ...

傳統資料與大資料

問世間,大資料為何物,直教人眾說紛紜 一本 big data 的書,掀起了大資料的浪潮,不管是it人士,還是 精英,都在議論大資料,春運大資料 出遊大資料 美食大資料 閱讀大資料 那麼,大資料到底是什麼呢?難道量大 數大就是大資料嗎?如果是這樣,大資料就是炒舊飯了,殊不知電信領域無論從數量規模,還是...

大資料與資料脫敏

單列並不能定位個人,但是多列資訊可用來潛在的識別某個人,這些列被稱為半識別列,如郵編號,生日及性別等。美國的乙份研究 稱,僅使用郵編號,生日和性別資訊即可識別87 的美國人 3 包含使用者敏感資訊的列,如交易數額,疾病以及收入等。其他不包含使用者敏感資訊的列。屬性洩露,當資料使用人員根據其訪問的資料...