筆試題 騰訊基礎研究方向

2021-07-11 02:50:25 字數 2456 閱讀 9409

編輯公式不方便,需要公式可自己上網查,這裡只給形象的概念幫助記憶。

1. 數學問題:3sigma原理,t分布,特徵根,特徵值,最大似然估計,馬爾科夫鏈。

(1)3sigma原理

在正態分佈中σ代表標準差,μ代表均值x=μ即為影象的對稱軸,三σ原則即為:

數值分布在(μ—σ,μ+σ)中的概率為0.6526

數值分布在(μ—2σ,μ+2σ)中的概率為0.9544

數值分布在(μ—3σ,μ+3σ)中的概率為0.9974 

工程中,當質量特性呈正態分佈時(實際上,當樣本足夠大時,二項分布、泊松分布等均趨近於正態分佈),3sigma水平代表了99.73%的合格率(2700ppm);

(2)t-分布

在概率論和統計學中,學生t-分布(student's t-distribution),可簡稱為t分布。應用在估計呈正態分佈的母群體之平均數。它是對兩個樣本均值差異進行顯著性測試的學生t檢定的基礎。

學生t檢定改進了z檢定(z-test),因為z檢定以母體標準差已知為前提。雖然在樣本數量大(超過30個)時,可以應用z檢定來求得近似值,但z檢定用在小樣本會產生很大的誤差,因此必須改用學生t檢定以求準確。

t-檢驗近似於z檢驗,通俗地說,是樣本量小於45時用於減小誤差的改進z檢驗。改進原理就是拋棄母體標準差,而直接用樣本點構造分布。

(3)特徵根、特徵值、特徵向量、特徵空間

設 a 是n階方陣,如果存在數m和非零n維列向量 x,使得 ax=λx 成立,則稱 m 是a的乙個特徵值(characteristic value)或本徵值(eigenvalue)。

非零n維列向量x稱為矩陣a的屬於(對應於)特徵值m的特徵向量或本徵向量,簡稱a的特徵向量。

特徵根對應特徵方程,是( a-λe)x=0的解。

特徵值對應矩陣及特徵向量,是矩陣的屬性。

λ是a的乙個特徵值,則一定是特徵方程的根, 因此又稱特徵根。

特徵空間:就是由所有有著相同特徵值的特徵向量組成的空間,還包括零向量,但要注意零向量本身不是特徵向量。

那麼特徵值、特徵向量究竟有什麼用?鏈結(邵慶賢

)應用非常廣泛:

影象處理中的pca方法,選取特徵值最高的k個特徵向量來表示乙個矩陣,從而達到降維分析+特徵顯示的方法。

還有影象壓縮的k-l變換,以及很多人臉識別、資料流模式挖掘分析等方面。

在力學中,慣量的特徵向量定義了剛體的主軸。慣量是決定剛體圍繞質心轉動的關鍵資料。 

在譜系圖論中,乙個圖的特徵值定義為圖的鄰接矩陣a的特徵值,或者(更多的是)圖的拉普拉斯運算元矩陣, google的pagerank演算法就是乙個例子。 

曾經有這麼一句話:「有振動的地方就有特徵值和特徵向量」

只要你真正理解了線性空間的矩陣的意義,你就明白了,幾乎無處不在。

網上還有一種更好理解的說法:

如果你把a*x=λ*x中的a看做一種變換或作用,那麼那些在這種作用下,只改變長短不改變方向的那些向量x就是特徵向量;而特徵值就是λ,是伸縮係數,起能量增幅或者削減作用。

具體的說,求特徵向量的關係,就是把矩陣a所代表的空間,進行正交分解,使得a的向量集合可以表示為每個向量a在各個特徵向量上面的投影長度。

特徵向量和特徵值的幾何意義

(4)極大似然估計

這一方法是基於這樣的思想:我們所估計的模型引數,要使得產生這些給定樣本的可能性最大。即:

找到最佳的模型引數,使得模型實現對樣本的最大程度擬合,也就使樣本集出現的可能性最大,從而用樣本估計總體。。

舉個例子:乙個隨機試驗如有若干個可能的結果a,b,c,…。若在僅僅作一次試驗中,結果a出現,則一般認為試驗條件對a出現有利,也即a出現的概率很大。一般地,事件a發生的概率與引數theta相關,a發生的概率記為p(a,theta),則theta的估計應該使上述概率達到最大,這樣的theta顧名思義稱為極大似然估計。

求極大似然函式估計值的一般步驟:(1) 寫出似然函式;(2) 對似然函式取對數,並整理;(3) 求導數 ;(4) 解似然方程 。

應用舉例:在機器學習的異常檢測中,根據模型(通過學習得來的)計算乙個資料點出現的概率,如果這個概率小於某個我們事先設定的值,就把它判為異常。我們基於的是乙個小事件的思想:如果一件可能性極小的事情竟然發生了,那麼就極有可能是異常。舉個例子,我這輩子跟歐巴馬成為哥們的可能性幾乎為零,如果哪一天我跟歐巴馬在燒烤攤喝3塊錢一瓶的啤酒,那麼絕對叫異常。

極大似然估計

(5)馬爾科夫鏈

基本思路:指數學中具有馬爾可夫性質的離散事件隨機過程。該過程中,在給定當前知識或資訊的情況下,過去狀態對於**將來的狀態是無作用的。

馬爾科夫性質的方程(條件概率方程)

應用:隱馬爾科夫模型,用於中文分詞。

2. 待更新...

筆試題目 騰訊2023年9月基礎研究筆試題

第一題 進行特徵選擇時,即分析哪些協變數對目標變數有較大影響時,有哪些常用的方法?你本人更看好其中哪些?為什麼?第二題 網路上流傳乙個故事,關於資料的神奇性 某商場向一位未婚少女郵寄一些用於保胎的商品目標和折扣券,其父親發火,後證實該少女確實懷孕,解釋一下如何做到的?個人從一下幾個方面答的,可能存在...

2023年騰訊基礎研究筆試感受

考題分為選擇題 26 60分鐘 和簡答題 3 60分鐘 選擇題很基礎,儘管我基本上不會,但如果按照考研的那個水平,那是完全不用擔心的,不知道以前的高數都還給誰了,內容很基礎的,其中涉及到 選擇題 1 概率計算問題 期望 方差 協方差 計算概率問題等 2 矩陣 矩陣計算 特徵值計算 秩,線代第二章看看...

CSIG基礎研究崗騰訊面試經驗

覺得有必要把所學進行整理,但是第一篇還不知道寫什麼。那就寫最近剛找到的實習吧。我的研究方向主要是基於fpga的,所以未來可能寫verilog的學習心得為主,主要給自己看。過了兩周不到被發起面試,也不知道基礎研究是做什麼的,但是面試過程中知道是量子實驗室中的,然後可能需要我做一些fpgade開發驗證,...