大資料, 資料量大就牛逼麼

2021-09-02 04:01:32 字數 605 閱讀 4308

剛看了這篇部落格

看完後, 覺得很有體會, 關於結論部分, 也補充一下自己的感受

綜上所述,下面是我覺得資料探勘或機器學習最重要的東西:

1)資料的質量。分為資料的標準和資料的準確。資料中的雜音要盡量地排除掉。為了資料的質量,大量人肉的工作少不了。

jimmee注:  是的, 不管資料量多大, 資料的質量如何, 噪音如何, 最後能否得出標準化的資料, 對後期的分析至關重要,  如果沒有準確的資料,  那麼得出的結論可能是相反的. 後期再花費多大的力氣, 演算法優化都是扯淡.

2)資料的業務場景。我們不可能做所有場景下的來,所以,業務場景和產品形態很重要,我個人感覺業務場景越窄越好。

jimmee注:  不同的業務場景, 可能使用到的演算法是完全不同的, 照搬乙個通用的演算法去處理所有的業務, 基本來說是個愚蠢的行為, 做資料, 對業務的了解是很有必要的.

3)資料的分析結果,要讓人能看得懂,知道接下來要幹什麼,而不是為了資料而資料。

jimmee注:  資料探勘不是簡單的統計, 分析出的資料能用來做什麼, 需要能夠落地到實處, 而不是想的美好, 對業務卻沒有任何幫助.

MySQL資料量大小查詢

找到information schema 資料庫 存放了其他的資料庫的資訊 a 伺服器中登入並進入information schema use information schema b 使用第三方工具找到庫,查詢即可 1 查詢所有資料的大小 示例以mb為單位 select concat round ...

量大就叫大資料?

而立之年,第一次在csdn發文章,開通這個部落格的目的在於想借助這個平台分享一些我在大資料與ai學習之路上的 腳印 現在整個社會都在關注大資料與ai,彷彿哪個軟體專案沒有大資料與ai概念在其中的話都是很low的。客戶也每天把大資料掛在嘴邊,什麼功能都想往大資料平台搬,也不管業務場景適不適合用大資料 ...

併發量大 資料量大的網際網路業務資料庫設計軍規

一 基礎規範 1 必須使用innodb儲存引擎 解讀 支援事務 行級鎖 併發效能更好 cpu及記憶體快取頁優化使得資源利用率更高 2 新庫使用utf8mb4字符集 解讀 萬國碼,無需轉碼,無亂碼風險,節省空間 3 資料表 資料字段必須加入中文注釋 解讀 n年後誰tm知道這個r1,r2,r3欄位是幹嘛...