計算機數學

2021-07-23 06:04:24 字數 1432 閱讀 5747

資料區對數的意義

平時在一些資料處理中,經常會把原始資料取對數後進一步處理。

之所以這樣做是基於對數函式在其定義域內是單調增函式,取對數後不會改變資料的相對關係,取對數作用主要有:

縮小資料的絕對數值,方便計算。

例如,每個資料項的值都很大,許多這樣的值進行計算可能對超過常用資料型別的取值範圍,這時取對數,就把數值縮小了,例如tf-idf計算時,由於在大規模語料庫中,很多詞的頻率是非常大的數字。

取對數後,可以將乘法計算轉換稱加法計算。

乘法連乘可能造成浮點下溢,轉成對數加法後,不會造成溢位

某些情況下,在資料的整個值域中的在不同區間的差異帶來的影響不同。例如,中文分詞的mmseg演算法,計算語素自由度時候就取了對數,這是因為,如果某兩個字的頻率分別都是500,頻率和為1000,另外兩個字的頻率分別為200和800,如果單純比較頻率和都是相等的,但是取對數後,log500=2.69897, log200=2.30103, log800=2.90308 這時候前者為2log500=5.39794, 後者為log200+log800=5.20411,這時前者的和更大,取前者。因為前面兩個詞頻率都是500,可見都比較常見。後面有個詞頻是200,說明不太常見,所以選擇前者。

從log函式的影象可以看到,自變數x的值越小,函式值y的變化越快,還是前面的例子,同樣是相差了300,但log500-log200>log800-log500,因為前面一對的比後面一對更小。

也就是說,對數值小的部分差異的敏感程度比數值大的部分的差異敏感程度更高。這也是符合生活常識的,例如對於**,買個家電,如果**相差幾百元能夠很大程度影響你決策,但是你買汽車時相差幾百元你會忽略不計了。

取對數之後不會改變資料的性質和相關關係,但壓縮了變數的尺度,例如800/200=4, 但log800/log200=1.2616,資料更加平穩,也消弱了模型的共線性、異方差性等。

且所得到的資料易消除異方差問題。

在經濟學中,常取自然對數再做回歸,這時回歸方程為 lny=a lnx+b ,兩邊同時對x求導,1/y*(dy/dx)=a*1/x, b=(dy/dx)*(x/y)=(dy*x)/(dx*y)=(dy/y)/(dx/x) 這正好是彈性的定義。

當然,如果資料集中有負數當然就不能取對數了。實踐中,取對數的一般是水平量,而不是比例資料,例如變化率等。

方差 方差是衡量實際值與期望值之間偏離的程度。

標準差(或均方差)與方差有相同的量綱。標準差是用來衡量一組資料的離散程度的統計量[2] 。

余弦 向量之間的相似性

採用余弦值衡量兩個向量之間的相似性,兩個向量的夾角越小,相關性越大。

sigmoid函式

階躍函式具有不光滑、不連續等不太好的性質,通常使用sigmoid函式來代替階躍函式,它把可能在較大範圍內變化的輸入值擠壓到(0,1)輸出值範圍內,因為有時也稱sigmoid函式為擠壓函式。

拉格朗日乘子

在等式約束下,求函式的極值問題,使用拉格朗日乘子

計算機與數學

個人認為,計算機與數學是想通的。兩者都是對於乙個現實問題抽象化,抽象的過程中要充分考慮所有影響因素,從而得到乙個模型。對該模型使用用方程式 資料結構進行描述,設計計算方法 演算法 其中多數為最優化問題 人工 程式來證明計算結果。然而由於計算機本身的侷限性 集合 線性 樹形 圖形結構的限制 和複雜性 ...

計算機與數學

電腦科學和數學的關係有點奇怪。二三十年以前,電腦科學基本上還是數學的乙個分支。而現在,電腦科學擁有廣泛的研究領域和眾多的研究人員,在很多方面反過來推動數學發展,從某種意義上可以說是孩子長得比媽媽還高了。但不管怎麼樣,這個孩子身上始終流著母親的血液。這血液是the mathematical under...

計算機與數學的關係

說明 這是 別人的一篇文章,可能沒有什麼實際的指導性意義,但我個人認為,計算機學習的不僅僅是應用,還有思想 一種數學思維 管理學思維,數學是學好 學精計算機技術的前提,無數圖靈獎獲得者都是數學界的專家足以證明這一點。為此,我特定收集了一些與計算機有關的數學資料,希望對大家有所幫助。電腦科學和數學的關...