在大資料創業?這九項準測或許能幫到你

2021-08-19 12:14:52 字數 1760 閱讀 5467

【編者按】本文作者rachel clinton在data mining、predictive analytics、data science space等領域擁有近20年的經驗,在整個職業生涯中見到了太多成功和失敗的資料探勘專案。 本文中,她總結了下面九個準測,希望能夠幫助讀者提高大資料專案成功機會。

仔細選擇專案

要增加專案成功的可能性,你應該選擇那些對於商業行為比較重要比較有影響力的專案,比如提如何高顧客忠誠度、如何進行交叉銷售或者如何識別詐騙行為。有時那些聽起來看起來很高大上的專案很容易吸引我們的注意力,但當你做了很多任務作分析了一通發現對增加企業收入完全沒有任何幫助的時候,你的專案就離失敗不遠了。

盡可能地多收集些資料

當為使用者行為建立模型時,應當既收集重點客戶的資料同時也收集那些潛在重點客戶的資料。在模型中忽視或者過度重視某些客戶群可能會讓你忽略一些模型中可能的重要變數。

不要只用內部資料

如果在資料探勘專案中只考慮內部資料而忽視了社交**行為等外部資料的話,你可能會丟失一些模型中必需的重要變數。即便所研究的物件完全正確,如果訓練資料不對的話模型肯定也有問題。

合適的取樣方法

有時你所使用的分析平台可能強大到允許你使用能夠收集到的所有資料來訓練模型。不過通常情況下訓練模型用的都是乙個很小的樣本。取樣的方法簡單不怕,重要的是要使樣本能夠代表全體資料;相對的,複雜的取樣方法也有自己完善的理論。無論簡單或複雜,我們在選擇取樣方法時要有的放矢,搞清策略。

使用測試資料集

使用測試資料集來測試模型可以幫助我們了解模型的表現並避免模型的過度訓練。同時它也能夠確保我們的模型在現實中有意義。如果資料不準確或者不統一的話,乙個交叉銷售推薦模型就可能會推薦已經不存在了的商品。

探索不同模型

建立模型的第一步通常是在眾多的變數中尋找最可能的幾個,然後建立不同的模型來進行測試。從不同的模型中我們可以根據效果進行篩選並最終找到乙個最合適的模型。這樣做我們可以避免讓分析人員個人的傾向影響結果的精確性。

定時更新模型

如果你覺得你可以構建乙個模型能夠適應過去和現在的所有資料並完美**未來資料的話,我只能說你太年輕了。你精心構築的模型可能沒一會功夫就過時了。我們必須根據收集到的資料以及要求的精度每個月、每週、每天甚至每個小時對模型進行修正。

將結果通俗化

在交流資料探勘的結果時很重要的一點就是一定要讓非統計專業人員也能看得懂。你建立的模型有可能非常複雜,而了解每乙個細節對於結果的應用來說又完全沒有必要。充滿統計學術語的交流只能讓人覺得你在裝,所以我們應當盡可能地讓結果清晰易懂好用,可以考慮多放些和**。

在現實環境中測試

如果不能在實際中應用你的模型並確確實實地對商業活動有所幫助的話,可以說你之前花的所有時間都打了水漂了。從專案開始之前就要清楚現實中的應用在**,交叉銷售模型就要交給市場部去用,其他模型也都得有乙個好的歸宿。如果沒人用的話光靠自吹自擂是沒法證明自己的。

2023年3月18日-19日,由csdn重磅打造的資料庫核心技術與實戰應用峰會、網際網路應用架構實戰峰會將在上海舉行。這兩場峰會將邀請業內頂尖的架構師和技術專家,共同**高可用/高併發系統架構設計、新技術應用、移動應用架構、微服務、智慧型硬體架構、雲資料庫實戰、新一代資料庫平台、產品選型、效能調優、大資料應用實戰等領域的熱點話題與技術。(報名參會)

利用大資料創業

大資料元年 今年 上一直宣稱,我們公司的銷售也是一直把這句話掛在嘴邊。我個人覺得,是相關處理工具發展到一定階段的產物,同時也是市場的需要。今年的大資料專案比較多,客戶總是要往雲上靠,要是沒有靠上,就會覺得自己out了。總之,資料的金礦隨著時間的推移,從特殊到一般發展,從高階到低端發展,從大企業到小企...

寒假大資料學習筆記九

2 建立scrapy專案 這是很麻煩的一步,因為pycharm沒法建立scrapy專案,所以無論是windows還是linux都需要使用命令建立,可以使用命令scrapy檢視所有的scrapy可使用命令。scrapy genspider 專案名 網域名稱 切換到想建立專案的的位置,輸入以上命令即可。...

創業公司如何使用大資料獲取成功?

維克托為大家講解了大資料時代人們生活 工作與思維各方面所遇到的重大變革以及對創業者的啟發。維克托說,對於我們觀察現實以及對於新的世界的理解,大資料是乙個新的視野和角度。大資料可以讓你有額外的洞察力,可以做出更好的決策,你們每個人都需要在兩個方案之中進行選擇,如果有大資料的話,你可以更好的了解方案做出...