三、資料查詢
四、資料處理
2、資料整合
3、資料規約
4、資料變換
是兄弟就選c題拉
主要掌握方法的優缺點,使用場景,
列出的都是基本方法,在真正建模的時候需要根據實際情況新增一些內容,可以查詢一些文獻
微分方程:
灰色**:
馬爾科夫:
時間序列:
插值與擬合:
(簡略)神經網路:
線性規劃:
非線性規劃:
禁忌搜尋:
模擬退火:
遺傳演算法:
(簡略)人工神經網路:
理想解法:
模糊綜合評判法:
資料報絡分析法:
灰色關聯分析法:
主成分分析法:
(簡略)秩和比綜合分析法:
kaggledatasets
國家資料庫
和鯨資料庫
阿里天池
github-publicdatasets
刪除變數:缺失率較高、覆蓋率低–刪除
定值填充:一般9999(無窮大)
統計量填充:根據資料分布的情況填充(均勻分布用均值;傾斜分布用中位數)
插值填充:隨即插值、多重插補法、熱平台插補、拉格朗日插值法、牛頓插值法
(簡略)模型填充:回歸、貝葉斯、隨機森林、決策樹
檢查是否有離群點:簡單統計分析(箱線圖、各分位點判斷)、基於絕對值離差中位數、基於距離、基於密度、基於聚類
具體處理:刪除、對數變換消除異常、平均數/中位數代替、模型對離群點資料的魯棒性較高,可以不做處理(樹模型)
matlab中的異常值處理:link
平滑資料:分箱-用箱統計量代替箱中的數
建立變數和預變數的回歸模型,根據回歸係數和**變數,反解自變數的近似值
實體識別:(資料庫)確定資料庫中的customer_id和資料b中的club_id指的是同乙個實體
冗餘問題(排序–合併):通過鄰近記錄是否相似來檢測記錄的重複,用相關性檢測:數值型變數計算相關係數矩陣;標稱型變數計算卡方檢驗
衝突處理:不同資料集,在合併統一時保持規範化、去重
最大-最小規範化
z-score標準化
log變化
條件:模型需要將連續的資料進行分段、分成離散的區間;離散化後的特徵更易理解;離散後可以克服資料中隱藏的缺陷
方法:等頻法;等寬法;聚類法
0,1啞變數
同一歸為一類
閒談數學建模 美賽篇
獎項設定 比賽時間 參賽意義 參照以往的情況來講,中國的參賽人員會達到90 以上。所以這可以說是中國的 內戰 美國大學生數學建模競賽目前分為兩種型別,mcm mathematical contest in modeling 和icm interdisciplinary contest in mode...
2020美賽建模感想
it is the first time 這是我第一次參加美賽數學建模,但絕對不會是最後一次,雖然題是難,難到無從下手,難到感覺就像沒有學過建模一樣。從鯡魚到沙雕,也著實驗證了專家口中的美賽的浪漫。但是,我說過,我不閃躲,我非要這麼做!因為疫情,第一次和隊友線上建模,我們一起努力,永遠珍惜,相互鼓勵...
建模6 2023年美賽D題
隨著社會的相互聯絡日益緊密,它們面臨的一系列挑戰也變得越來越複雜。我們依靠具有不同專業知識和不同視角的跨學科團隊來解決許多最具挑戰性的問題。在過去的 50 多年裡,我們對團隊成功的概念理解有了顯著的進步,這使得更好的科學 創造性或物理團隊能夠解決這些複雜的問題。研究人員提出了組建團隊的最佳策略 隊友...