再見大資料

2022-09-10 15:24:22 字數 1305 閱讀 3425

曾經有人說大資料就是未來。 錯了嗎 現在呢?

在我無辜的日子裡,當我剛開始攻讀資料科學碩士學位時,任何大資料話題都會讓我在椅子上激動不已。 我想要一塊3v。 我想分析無窮無盡的廢話,對其進行建模,視覺化,轉換,粉碎。 多年後,"大資料"一詞讓我大吃一驚,等待著流行語和含糊其詞的期待。 大資料失去吸引力了嗎?還是我變得憤世嫉俗?

流行語與現實

我最近開始對流行語過敏。 他們被高估了,不再具有任何意義。 這句話什麼都沒告訴你:讓我們利用大資料

在這個新的數字世界中帶來創新。 聽起來很酷。 然而,現實可能停留在excel電子**中,令人沮喪和計算緩慢。

大資料讓每個人都感到興奮,因為它代表著一種巨大的財富("聽起來很熟悉","它會變得巨大")的概念,您可以在其中搜尋,查詢和使用對您有價值的任何東西。 我最初的反應是認為"在所有這些資料中,肯定有一些我們想知道的東西"。 那可能是對的,但是要付出什麼代價呢?

沒有正確的基礎架構,大資料將一無所有

處理大量資料需要計算能力,正確的儲存和正確的工具才能將資料從乙個位置移動到另一位置。 瓶頸比您想象的要容易得多。 隨著雲平台的計算能力變得更加便宜和易於使用,雲儲存的指數級增長,雲計算的定期使用甚至本地伺服器的維護都構成了巨大的支出。 進入了本世紀關於資料的最大教訓:

雖然某些資料對於特定的礦工來說像**一樣有價值,但對於另乙個礦工來說卻是不可思議的儲存空間浪費。

公司儲存了資料,並選擇了資料是否以後有用,而費用卻已經花掉了。 如果在收集資料之前確定資料是否有用該怎麼辦?

大資料並不總是意味著有趣的資料

垃圾**,垃圾**是資料科學界最重要的一句話。 大資料被認為是垃圾,這意味著它們是不可靠的,未清理的資料,需要大量工作才能使用。 有時,在龐大的資料集中找不到的少量資訊不值得花大量精力,時間和金錢來查詢。

根據forrester的報告,企業內至少60%的資料仍未使用。

如果將這些未使用的資料的儲存成本投資在用於實際需要的資料的正確基礎結構中,該怎麼辦?

資料越多越好嗎?

人們已經意識到,沒有,不是每個功能都有用(甚至可能有害!),資料質量通常比 我們希望資料能夠以可靠,一致的方式衡量我們關心的事情,通過了解資料的質量,還可以使我們進入可解釋,負責和安全的ai階段。

這是(大型)實施和(大型)更好的基礎架構的時代。

我們已經意識到我們已經獲得了資料。 現在,我們需要基礎架構來安全地使用,共享,分析它,並在無用的垃圾和有價值的資訊之間做出區分。 我們還決定,資料和ai的質量和可靠性保證了世界和全世界都可以使用。 儘管有很多人很難理解這一點,但資料(就像生活中的許多其他事物一樣)不需要龐大,而需要可靠。

大資料已死。 可靠的資料萬歲!

聽起來不那麼**,不是嗎?

再見,李開復

剛才查了一下我的gmail郵件記錄,收到的第一封郵件的日期是在06年的7月,大量郵件出現在07年的6月。也就是說,我大概在06年的時候申請了帳戶,但是並沒有怎麼用它,因為當時的股溝可能還沒有什麼特別吸引人的地方,而一年之後,終於被吸引到股溝,並且越陷越深。現在回過頭來想想,這些變化,正是因為李開復的...

再見,保齡球

出差到了哈爾濱,天氣逐漸變冷,緊張工作之餘,領導帶我們去放鬆一下,打保齡球。來到火車站附近的崑崙大酒店,4層開了乙個保齡球俱樂部。等了近乙個時辰,開了兩個道,開始扔球。一行六人,領導以前有練過,以前能打200分以上 這是我第3次打保齡球 另乙個同事m則是第2次打 其他同事則是第1次。我和同事l z一...

JZOJ4924 向再見說再見

首先把a b排序。設f i,j 表示做到a隊第 i 個人,有 j個人贏的方案數。如果第i 個人贏了,那麼fi 1,j 1 can j 1 f i,j can 為第 i 個人能贏的人數 如果第i 個人輸了,那麼需要往後考慮輸給誰,這就很麻煩。那麼我們先不管,也就是fi 1,j fi,j 然後 fi,j...