前幾天備戰考試,接下來的日子將會繼續攻克大資料比賽
雖然停止了一段時間沒有提交資料,但是這幾天的收穫還是有的,對python 隨機森林了解的更了解了
隨機森林是由多課決策樹組成(當然這個雖然我們初學者都知道,但是我確定沒有現在認識的深刻),多棵決策樹經過資料訓練後,經過投票方式對測試資料進行判斷
那麼也就是說隨機森林的魯棒性非常好,我們現有的特徵還不是特別多,之所以前一段時間出現「過擬合」現象,其實原因有可能是我們當時急功近利,把大多數正確率高的特徵放在一起測試資料,導致的「過擬合」,其實非也,只是我們自己的條件太過苛刻。 突然想到乙個詞叫做「二八定律」,可以完美解釋現在的領悟,20%的時間可以解決80%的問題,20%的人占有80%的資源,但是——其中還含有那抹不去的80%的時間或者問題。 那現在可以理解為,20%的特徵可以解釋80%的問題,那就是好特徵,但是卻不能忽視剩下的80%的特徵
接下來的日子我們應該繼續尋找特徵,直到達到真正的過擬合,才不枉這次比賽
關於MATLAB處理大資料座標檔案2017527
第一次提交資料 今天用了8個特徵,加上的這乙個特徵是 從3000條測試資料中測試失敗的資料總結出來的 樹的數目為50 再次使用3000條測試資料測試結果 結果不錯 99 但是執行官網資料結果分數 降低0.5 為58.55分 總結 總特徵數目為8,樹的數目遠遠超過特徵數,以後樹的數目不能多於特徵的1....
關於大資料之批處理SpringBatch
大資料時代,資料是現代企業最寶貴的核心資產,是企業運用科學管理 決策分析的基礎 企業如何通過各種技術手段,並把資料轉換為資訊 知識和商機已經成為提高其核心競爭力的主要手段。而資料批處理測試達成上訴目標的乙個主要技術手段,通過資料批處理,可以完成資料的載入 抽取 轉換 清洗等功能,進而支撐企業的各種資...
關於大資料
最近在學習軟考的時候,發現了 大資料 以前只是聽說過大資料,這次在學習軟考的時候我那顆好奇的心把我帶入到了大資料.其實,大資料跟我們的生活息息相關,跟我們的衣食住行,醫療,教育,體育等等.都離不開大資料。大資料 big data 是 無法將現有的軟體工具進行提取,儲存,搜尋,共享,分析和處理海量的,...