資料分析筆試(2)

2022-08-02 16:45:11 字數 3793 閱讀 3715

1、kmo值在( )範圍內,因子分析才是有效的。

解答:kmo檢驗統計量是用於比較變數間簡單相關係數和偏相關係數的指標,主要用於多元統計的因子分析。當所有變數的簡單相關係數的平方和遠遠大於偏相關係數的平方和時,kmo值越接近於1,原有變數越適合做因子分析。0.7-0.8適合,0.8-0.9很適合,0.9-1非常適合。0.6-0.7不太適合,0.5-0.6勉強適合,小於0.5不適合。bartlettp值小於或者等於0.01適合。

2、資料分析的方法包含( )、( )、( )等。

解答:描述性統計,回歸分析。方差分析,假設檢驗。

選擇題。較為簡單

簡答題。

1、某**7月份共訪問使用者數4100人,已知訪問**有兩種登陸方式a 和b 。使用a登陸的7月份總使用者數為2835,使用b方式登陸的7月份總使用者數為1400,既使用過a又使用過b登陸的7月份總使用者數為985.

問:可以看出,總訪問數—使用a登陸方式的總使用者數=1265,那麼a與b的重複使用者數=b登陸使用者數—1265=135,而實際得到的既使用a登陸方式又使用b登入方式的7月份總使用者數為985,顯然這是矛盾的,問題出在**?給出計算方法。

3、抽樣估計的優良標準。

解答:無偏性,一致性,有效性。

4、寫出相關和回歸分析的內容。

解答:相關分析是對兩個變數之間線性關係的描述和度量。

回歸分析側重於考察變數之間的數量伴隨關係。

5、一道關於產品成本降低率和銷售利潤的直線回歸分析的題目,記不清了。

1.平均數,中位數,眾樹,方差,標準差的含義,並舉例子解釋。

2.你心目中的資料分析師是什麼樣的?

3.兩個水桶,乙個小點的桶可以裝4公升水,大的桶裝11公升水,問怎麼操作可以兩個桶盛5公升水?

4.資料分布有哪些?選擇熟悉的資料分布並寫出其適用的場景。

5.寫出三種熟悉的排序演算法,選擇乙個寫出其偽**。

6.hadoop生態系統元件有哪些?寫出你熟悉的三個。

7.什麼是倖存者偏差?

8.寫出10種linux命令,寫出其引數。

9.用一種程式語言,實現1+2+3+4+5+.....+100

10.實現求1,2,3,...100之間的質數。

11.給幾個表,mysql語言編寫。(時間來不及,就沒有寫,挺複雜的)

12.給了三個圖表,全是英文的,對其做分析。

最小化誤差是為了讓我們的模型擬合我們的訓練資料,而規則化引數是防止我們的模型過分擬合我們的訓練資料,提高泛化能力。

#1.樸素貝葉斯 1)基礎思想:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此分類項屬於哪個類別。

2)優點: 可以和決策樹、神經網路分類演算法相媲美,能運用於大型資料庫中。 方法簡單,分類準確率高,速度快,所需估計的引數少,對於缺失資料不敏感。

3)缺點: 假設乙個屬性對定類的影響獨立於其他的屬性值,這往往並不成立。(喜歡吃番茄、雞蛋,卻不喜歡吃番茄炒蛋)。 需要知道先驗概率。

#2.決策樹 1)基礎思想:決策樹是一種簡單但廣泛使用的分類器,它通過訓練資料構建決策樹,對未知的資料進行分類。

決策樹的每個內部節點表示在乙個屬性上的測試,每個分枝代表該測試的乙個輸出,而每個葉結點存放著乙個類標號。在決策樹演算法中,id3基於**資訊增益**作為屬性選擇的度量,c4.5基於**資訊增益比**作為屬性選擇的度量,cart基於**基尼指數**作為屬性選擇的度量。

2)優點 : 不需要任何領域知識或引數假設。 適合高維資料。 簡單易於理解。 短時間內處理大量資料,得到可行且效果較好的結果。

3)缺點: 對於各類別樣本數量不一致資料,資訊增益偏向於那些具有更多數值的特徵。 易於過擬合。 忽略屬性之間的相關性。

#3.支援向量機 1)基礎思想:支援向量機把分類問題轉化為尋找分類平面的問題,並通過最大化分類邊界點距離分類平面的距離來實現分類。

2)優點 : 可以解決小樣本下機器學習的問題。 提高泛化效能。 可以解決**文字分類、文字識別、影象分類**等方面仍受歡迎。 避免神經網路結構選擇和區域性極小的問題。

3)缺點: 缺失資料敏感。 記憶體消耗大,難以解釋。

#4.k近鄰 1)基礎思想:通過計算每個訓練樣例到待分類樣品的距離,取和待分類樣品距離最近的k個訓練樣例,k個樣品中哪個類別的訓練樣例占多數,則待分類樣品就屬於哪個類別。

2)優點 : 適用於樣本容量比較大的分類問題

3)缺點: 計算量太大 對於樣本量較小的分類問題,會產生誤分。

#5.邏輯回歸(lr) 1)基礎思想:回歸模型中,y是乙個定型變數,比如y=0或1,logistic方法主要應用於研究某些事件發生的概率。

2)優點 : 速度快,**適合二分類問題。** 簡單易於理解,直接看到各個特徵的權重。 能容易地更新模型吸收新的資料。

3)缺點: 對資料和場景的適應能力有侷限,不如決策樹演算法適應性那麼強

1)準確率(precision rate):tp/(tp+fp)

2)召回率(recall rate):tp/(tp+fn)

4)auc值:auc(area under curve)被定義為roc曲線下的面積,顯然這個面積的數值不會大於1。又由於roc曲線一般都處於y=x這條直線的上方,所以auc的取值範圍在0.5和1之間。使用auc值作為評價標準是因為很多時候roc曲線並不能清晰的說明哪個分類器的效果更好,而auc作為數值可以直觀的評價分類器的好壞,值越大越好。

過擬合表現在訓練資料上的誤差非常小,而在測試資料上誤差反而增大。其原因一般是模型過於複雜,過分得去擬合資料的雜訊和outliers。

常見的解決辦法是正則化是:增大資料集,正則化

正則化方法是指在進行目標函式或代價函式優化時,在目標函式或代價函式後面加上乙個正則項,一般有l1正則與l2正則等。規則化項的引入,在訓練(最小化cost)的過程中,當某一維的特徵所對應的權重過大時,而此時模型的**和真實資料之間距離很小,通過規則化項就可以使整體的cost取較大的值,從而在訓練的過程中避免了去選擇那些某一維(或幾維)特徵的權重過大的情況,即過分依賴某一維(或幾維)的特徵。

l1正則與l2正則區別:

l1:計算絕對值之和,用以產生稀疏性(使引數矩陣中大部分元素變為0),因為它是l0正規化的乙個最優凸近似,容易優化求解;

l2:計算平方和再開根號,l2範數更多是防止過擬合,並且讓優化求解變得穩定很快速;

所以優先使用l2 norm是比較好的選擇。

3)快速排序 快速排序是對氣泡排序的一種改進。 快速排序是不穩定的。最理想情況演算法時間複雜度o(nlog2n),最壞o(n ^2)。

基本思想: (1)首先任意選擇乙個元素作為初始元素key(一般取第乙個元素) (2)從兩端開始分別找:從右往左,尋找比key值小的元素交換位置;再從左往右,尋找比key值大的元素交換位置; (3)如此依次迴圈步驟1.2 4)

堆排序 堆排序是一種樹形選擇排序。

堆排序是不穩定的。演算法時間複雜度o(nlog n)。 基本思想:分為最大化堆和最小化堆。

資料分析2

在原始arxiv資料集中 作者authors欄位是乙個字串格式,其中每個作者使用逗號進行分隔分,所以我們我們首先需要完成以下步驟 在python中字串是最常用的資料型別,可以使用引號 或 來建立字串。python中所有的字元都使用字串儲存,可以使用方括號來擷取字串。如下例項 an highlight...

筆試 京東資料分析暑期實習

京東暑期實習是我參加的最後乙個公司的筆試,也是唯一過了的筆試。因為一直忙的沒時間準備,就直接拿筆試當學習機會。京東資料分析的筆試是20道選擇 2道程式設計題。都不是很難 以上程式設計感覺還是用c c 順手,被迫無奈我又去翻了翻已經忘了的知識。1 選擇題主要是概率論和機器學習之類的,記不太清了。2 程...

新浪資料分析筆試題目

1 kmo值在 範圍內,因子分析才是有效的。解答 kmo檢驗統計量是用於比較變數間簡單相關係數和偏相關係數的指標,主要用於多元統計的因子分析。當所有變數的簡單相關係數的平方和遠遠大於偏相關係數的平方和時,kmo值越接近於1,原有變數越適合做因子分析。0.7 0.8適合,0.8 0.9很適合,0.9 ...