1、前言
葡萄酒是一種成分複雜的酒精飲料,不同產地、年份和品種的葡萄酒成分不同,這也是導致質量差異過大的重要因素。至今,質量評價主要還是依靠專家的感官。味道是最難理解的一種感官,因此用味蕾評價葡萄酒也就成為一件艱鉅的任務。為了評估葡萄酒的質量,我們提出的方法就是根據酒的物理化學性質與質量的關係,找出高品質的葡萄酒具體與什麼性質密切相關,這些性質又是如何影響葡萄酒的質量。
2、資料準備
資料集鏈結
資料集包括1599個紅葡萄酒樣本以及4898個白葡萄酒樣本,每個樣本含有12個變數:固定酸度、揮發酸度、檸檬酸、殘糖、氯化物、游離二氧化硫、總二氧化硫、密度、ph值、硫酸鹽、酒精,葡萄酒的質量(基於感覺)。
3、資料預處理
為了提高資料的質量,可以對離群點和極端值進行丟棄修正,我們指定3個標準差以外的資料為離群點,5個標準差以外的為極端值。經過處理後,紅葡萄酒資料可以剔除100多個樣本,白葡萄酒可以剔除400多個樣本。
4、變數相關性
以前11個變數作為輸入變數,質量作為輸出變數,下面**酒的***壞主要與哪些輸入變數有關,下面我們通過計算質量與固定酸度、揮發酸度、檸檬酸、殘糖、氯化物、游離二氧化硫、總二氧化硫、密度、ph值、硫酸鹽、酒精的簡單相關係數來反映變數間的相關性。
紅葡萄酒資料的計算結果:
白葡萄酒資料的計算結果:
分析結果可知,紅葡萄酒質量的好壞主要與酒精度、揮發酸以及硫酸鹽有關。
白葡萄酒質量的好壞主要與酒精度、密度以及氯化物有關。
5、分析影響因素
主要利用「資料審核」,例如得到下圖:
酒精度與質量
紅葡萄酒資料的分析結果:
第一,樣本中大部分紅葡萄酒的質量都落在5-6間。
第二,在一定程度上,酒精度越高酒越好,中上水平的酒(即質量處於5-6)間的紅葡萄酒的酒精度大致在9.1-10.5。
第三,高品質的紅酒揮發酸普遍偏低,幾乎揮發酸較高的紅葡萄酒都是質量很差的酒。
第四,紅葡萄酒質量和硫酸鹽的分布接近正態分佈,較好的紅葡萄酒集中分布在硫酸鹽中等水平上(0.59-0.85),且在一定的硫酸鹽水平上紅葡萄酒質量的分布比例較為一致。
白葡萄酒資料的分析結果:
第一,樣本中大部分白酒的質量都落在5-6間。
第二,高品質的白葡萄酒的酒精度普遍偏高,大致處於10.7-13之間,低品質的酒幾乎集中在酒精度較小的部分,反之,酒精度高的幾乎全是質量極好的。
第三, 白葡萄酒質量在密度上的分布比較分散,大部分高品質的分布在密度0.991以上,而且高密度的白葡萄酒的質量一般都比較好。
第四,對於不同水平的氯化物,質量的分布近似正態分佈,其中絕大部分集中在中間,且在氯化物的中等水平上高品質的酒佔比最高,向兩邊該佔比逐漸減小。
6、資料比較
為了比較紅白葡萄酒的各種物理化學性質的大小以及質量與性質有什麼關係,我們特意將兩類資料做出以下對比,結果呈現如下:
綜合可得
紅葡萄酒比白葡萄酒的固定酸度略高,特別是高品質的酒,差異更為明顯;
紅葡萄酒的殘糖含量較低,而白葡萄酒的殘糖量較高,特別質量中等的酒殘糖更高;
紅葡萄酒和白葡萄酒的酒精度大體一致,而且酒精度越高,酒的質量越好,品質越高;
紅葡萄酒的氯化物含量明顯高於白葡萄酒;
紅葡萄酒的總二氧化硫、游離二氧化硫都低於白葡萄酒,同時紅葡萄酒的總二氧化硫含量隨著質量的提高而上公升,而白葡萄酒的總二氧化硫含量隨著質量的提高而下降.
7、變數重要性
通過模型**變數的重要性,我們可以發現(:
影響紅葡萄酒的質量的變數關鍵依次為:酒精度->硫酸鹽->揮發酸->總二氧化硫->ph值->殘糖->游離二氧化硫->密度->氯化物->檸檬酸->固定酸度;
影響白葡萄酒的質量的變數關鍵依次為酒精度->揮發酸->游離二氧化硫->固定酸度->總二氧化硫->殘糖->密度->ph值->檸檬酸->氯化物->硫酸鹽。
8、小結
評價葡萄酒質量主要依賴專家的經驗和感官,主觀性過大,而我們提出的方法是基於客觀資料驅動的,一方面可以直接作為評估質量的標準,另一方面,在專家評價與決策系統**偏離太大時,可以採取多人品嚐評價模式。
一旦挖掘出某些變數性質和質量的密切關係,可以在葡萄酒生產階段對該變數加以控制,以便提高葡萄酒的口味和質量,有效擴大葡萄酒的市場。
資料分析 收集資料的技巧
在進行資料法分析之前,一定要明確要對什麼進行資料分析,為什麼要資料分析,怎樣分析,這是一切分析工作的源頭。可以使用的方法 邏輯樹 邏輯樹的主要思想 將問題分層羅列,對問題進行分層,逐步向下擴充套件。邏輯樹的原則 例 問題 提公升利潤增速 可以拆解為三個方面的問題 收入 成本 收入可以拆解為 主營業務...
Oracle問題分析採集資料的方法
1.背景 運維人員或多或少都會遇到分析問題 分析故障的時候,往往在碰到一些棘手的問題事,我們都會往更深層次的專家進行求助。不管是二線專家還是oracle全球服務工程師 後文稱gcs工程師 往往都會讓你提交這樣那樣的資料。基本每次都會碰到這樣的情況,問一點資料給一點,主要的成本消耗都在提取資料中。2....
分析ms資料庫的使用者表數和記錄數
近來乙個專案要求做幾個資料庫的比較,其中有幾項指標和資料庫的表有關 使用者表個數 最大表記錄數 記錄總條數 如果靠手工乙個表乙個表的去檢視統計,不僅枯燥費時,而且靈活性和擴充套件都不是很好,可能主要還是想偷懶的原因吧,今天花了點時間寫了個簡單的儲存過程,只是為了快點完成任務,還沒得及考慮方便性和處理...