資料探勘的過程
資料開採的目的
分類聚類
相關性分析(自相關,互相關)
偏差分析
結果解釋和評價
除無關模式
新選擇演算法
資訊的傳遞
從信源出發,通過通道,傳遞給信宿
資訊的編碼,即從信源發出的訊號,經過編碼形成機器可以識別的訊號,經過通道進行傳播。
簡單的如同,打**,聲音頻號的傳播,先經過編碼,然後先通過通道(此處是電磁波)進行電訊號的傳播,通過電磁4訊號干擾,可以影響訊號的質量,這也就是為什麼通過電磁波的遮蔽可以阻斷電子裝置的通訊 。
採用二進位制編碼
先把事件分為等概率的兩個事件,然後再將每一層的事件進行層層細分(按照發生的概率進行細分)。
字元位數
h(i)=log2(1/pi),以二進位制為例,此處的底就是進製數
此處的h(i)也是資訊量的表示i(xi)
而資訊熵是h(i)和相應的事件的概率的乘積,資訊熵用h表示,即黑板上的第三個式子
h=σp_i*log_a(1/pi) (i從1到n),這個表示的是平均資訊熵
資訊熵的性質
1.非負性
2.可加性
3.確定性
4.可擴充套件性
5.極值性
互資訊,輸入變數和輸出變數(數值可能不同,比如輸入時核苷酸的個數,輸出的時氨基酸的個數)
聯合概率,
條件資訊熵即為在某一條件下的資訊量的期望值,
平均條件資訊熵,就是在聯合分布的空間裡,整個事件發生的平均資訊熵。
HDU 1228 A B 浙江大學研究生冠軍
problem description 讀入兩個小於100的正整數a和b,計算a b.須要注意的是 a和b的每一位數字由相應的英文單詞給出.input 測試輸入包括若干測試用例,每乙個測試用例佔一行,格式為 a b 相鄰兩字串有乙個空格間隔.當a和b同一時候為0時輸入結束,對應的結果不要輸出.out...
2023年浙江大學計算機及軟體工程研究生機試真題
題目描述 給你n個點,m條無向邊,每條邊都有長度d和花費p,給你起點s終點t,要求輸出起點到終點的最短距離及其花費,如果最短距離有多條路線,則輸出花費最少的。輸入 輸入n,m,點的編號是1 n,然後是m行,每行4個數 a,b,d,p,表示a和b之間有一條邊,且其長度為d,花費為p。最後一行是兩個數 ...
2023年浙江大學計算機及軟體工程研究生機試真題
題目描述 excel可以對一組紀錄按任意指定列排序。現請你編寫程式實現類似功能。對每個測試用例,首先輸出1行 case i 其中 i 是測試用例的編號 從1開始 隨後在 n 行中輸出按要求排序後的結果,即 當 c 1 時,按學號遞增排序 當 c 2時,按姓名的非遞減字典序排序 當 c 3 時,按成績...