在癌症檢測的專案中,醫生和研究人員在使用神經網路訓練資料時驚奇發現:訓練長時間(幾周或幾天)的訓練對結果的提高是有限的,更多時候會有更糟糕的評估結果。
2. 依賴於一種技術rely on one technique
"to a little boy with a hammer, all the world's a nail." (如果乙個人擁有一把錘子,那麼全世界都是釘子)
for best work, need a whole toolkit.(為了更好的工作,需要一整個工具箱)
3. 問錯誤的問題(即試圖達到乙個錯誤的目標)ask the wrong question
a)專案目標
在**欺詐檢測的專案中,不要試圖去分類一般呼叫的欺詐和非欺詐,而是要標註每乙個賬戶的正常行為,
然後標記離群,就會取得成功
b)模型目標
例如在員工股份分紅中,大多數研究者熱衷於平方差,因為這樣簡單方便。但是我們應該讓計算機做對系統最有幫助的,而不是最容易的。
4. 僅聽從於資料listen (only) to the data
5. 接受(容忍)漏洞accept leaks from the future
6. 認為煩人的例項不重要 discount pesky cases
7.推斷 extrapolate
試圖從最初的幾次試驗就獲得太多的資訊
在發現巨大錯誤還很難去除不正確的想法
維度禍根:低維度中的直覺在高維度中用處不大
8. 回答每乙個詢問(這裡為輸入更合適)answer every inquiry
不知道是乙個有用的模型輸出狀態 "don't know" is a useful model output state
能夠估計到每個輸出的不確定性 could estimate the uncertainty for each output
9. 隨意取樣 sample casually
10.太迷信所謂最佳模型 believe the best model
a)我們並不總是需要可解釋性,模型可以是有用的但不具有"正確性"和可解釋性
b)通常,許多相似的變數可以用,而且所謂最好模型的特定結構可能變化複雜。但是結構簡單不等於功能簡單,一些競爭模型往往看起來不同 (簡單),但能夠同樣工作。
使用者故事使用中的十大錯誤
1.在使用者故事中,將開發中的相關人員作為系統使用者角色 比如 as a po apo ppo developer tester manager integration engineer,i want 必須注意,as a 中的role是執行時實際使用該系統的使用者角色,不是開發時干係人的角色 包括客...
資料探勘十大演算法
資料探勘十大演算法分為c4.5,k means,svm,apriori,em,pagerank,adaboost,knn,bayes,cart十種演算法。c4.5 關聯演算法 id3。關係 c4.5是id3的改進。決策樹演算法的一種。k means 聚類演算法。svm 支援向量機。apriori 關...
資料探勘的十大演算法
按照不同的目的將演算法分成四類 分類演算法 c4.5 樸素貝葉斯,svm,knn adaboost cart 聚類演算法 k means em 關聯分析 apriori 連線分析 pagerank c4.5 演算法是十大演算法之首,它是決策樹的演算法,它在決策樹夠早過程中就進行了剪枝處理,並且可以處...