如果說對機器學習或統計學習裡最常見的示例資料集進行排序,那麼鳶尾花資料集一定排的上號,而且不同於事後諸葛的泰坦尼克生還者資料,這個資料集理論上是可以拿來做**的。設想某個清晨,你漫步花園並駐足於一朵鳶尾花前,然後你掏出尺子,測量了花萼長度、花萼寬度、花瓣長度跟花瓣寬度後靜默片刻,淡淡的說到:「果然又是個維吉尼亞鳶尾。」留下一堆路人甲風中凌亂。
但其實你是做不到的,紐西蘭統計學家thomas lumley最近發表了一篇文章認為,這個資料集其實是fisher或anderson拿來想讓讀者做線性判別或無監督聚類的,而在真實的野外環境中,花從來都不是乙個良好的種屬判斷條件而是探索乙個假設的論據。
現在我們來看看當年究竟是為什麼發布這個資料集。anderson於2023年在《annals of the missouri botanical garden》上 發表了一篇題為《the species problem in iris》的**,不得不說我很少讀到80年陳釀的**,特別是這種用52頁長篇大論討論乙個種屬分類的,還沒有摘要。
文章第二章開頭就給出了野外判斷鳶尾花種屬的判據:
從裡面我們可以看到,三種鳶尾花的基本判據其實是種子,至於花瓣也可以用。但作者也明確提出,由於非常容易枯萎,對花的測量資料用在分類上並不可靠,甚至良好的儲存手段都沒有。
然而,作者通過5年的觀察研究認為iris versicolor 跟 iris virginica 各自種類內部其實變化很大,但本質上還是不一樣,作者就用兩個英格蘭小村莊作為對比,乙個在砂石地上,另乙個在石灰岩上,其建築風格也許差不多,但建材不一樣,所以無論如何都不一樣。但隨後作者提出,導致這一現象的原因很有可能是因為其中有一種是二倍體,所以形態上雖然像,但就不是乙個種,「a ****** hypothesis immediately sugguested itself」。為了說明這一點,iris setosa登場了,因為這一類分布比較靠北,個頭比較小,所以很有可能iris versicolor是iris setosa跟iris virginica的雜合體。為了驗證這個假設,作者依賴染色體個數的測量與花瓣花萼等資料,推測iris versicolor與iris virginica的親緣關係要近於其與iris setosa的距離,兩者距離大概1:2。也就是說,在原始文獻中,花的測量資料並不是用來分類而是用來計算三個物種間親緣關係的。
其實fisher在公布這個資料集時也說的很明確,這些測量資料就是來說明iris versicolor是iris virginica與iris setosa的中間型別,拿來實際分類不靠譜。雖然fisher自己就是拿這些資料搞了乙個線性判別分析。而線性判別分析的實質是認為花的測量資料是來自於不同的分布,通過計算分布引數來進行區別。說的更像人話一點就是我對四個測量值進行一種線性變換,目的是讓這種線性變化可以很好的區別三個分類。既然是線性變換最終還是會得到乙個**值,衡量三個分類這個**值之間的距離就可以進行其關係的推測。結果自然是確認了1:2這個比例,而且後續的研究也在16srna上確認了這個發現。
其實從這個資料集的故事是我們可以清晰感覺到的不是乙個統計學過程而是科研過程。從觀察到提出假說,然後通過資料分析給出證據,最後通過後續的研究不斷證明結論,從已知走向未知。而當今的很多研究,你很難找到假設檢驗的影子,更多偏重的是流程化科研,用更尖端的技術得到更準確的測量,然後甩給統計學家處理,缺少了最初的」insight」。或者說,相對專業的領域分工讓科學家自己也變得工具化,缺少研究方法,特別是資料處理方法與實際問題的原理層互動從而將資料分析黑箱化與實用化,這不妨礙實際問題的解決,但會少很多發現的樂趣。
當然,尋找insight可能是未來人工智慧可以做的,但願這一天晚點到來。
鳶尾花KNN演算法的重構
一 作業題目 鳶尾花的knn演算法重構 knn演算法又稱為k近鄰演算法,k的含義是指考慮訓練集中與新資料點最近的任意k個鄰居 比如說,距離新資料點最近的3個或5個鄰居 而不是只考慮距離新資料點最近的那乙個。然後,我們可以利用這些鄰居中數量最多的類分別作出 二 演算法設計 1 knn演算法的原理 如果...
防乾眼的小方法
淚液的減少是現代人的特徵。淚液在緊張狀態下難以流出,而且夜間減少。淚液也隨著年齡的增加而減少。辦公自動化裝置 夜貓子工的生活方式,社會壓力增大和基於空調機的普及而產生的乾燥等使淚液減少的因素越來越多。蒸發量增加的原因在於 眨眼次數因凝視個人計算機和遊戲機的畫面而減少 位於淚液表面的油層由於某種原因而...
你是我的眼啊
您好!這首 你是我的眼 是盲人歌手蕭煌奇 原唱的,你是我的眼 是他自己創作的歌曲,他原是民歌餐廳的主唱,出道後一直不紅,後來yoga唱紅了這首歌,蕭煌奇就漸漸受人關注了,上屆金曲歌王就是他。這是很久的一首歌了。給您奉上這首歌的歌詞吧 你是我的眼 作詞 蕭煌奇 作曲 蕭煌奇 如果我能看得見 就能輕易的...