指令碼語言
計算機網路
資料庫大資料技術
資料探勘技術
機器學習演算法和模型
資料分析常見指標
其他筆面經
在準備面經前有些基礎知識是必不可少的,面經只是平時積累的冰山一角,本文盡量寫出我筆面試過程中遇到的重點難點(每個人的知識儲備不同,見仁見智)。千里之行,積於跬步!
例項:
前中後序互求技巧:
邏輯判斷:
改變檔案許可權:
複數表示:real + image j
最主要特點:
每一條tcp連線只能有兩個端點(endpoint),點對點,不可多播和廣播tcp提供可靠交付的服務。無差錯、不丟失、不重複,並且按序到達。(tcp提供的是可靠交付,所以tcp首部開銷會大;udp協議只是盡最大努力交付,udp的首部開銷小)
tcp提供全雙工通訊。雙向通訊。
面向位元組流。雖然應用程式和tcp的互動是一次乙個資料塊(大小不等),但tcp把應用程式交下來 的資料僅僅看成是一連串的無結構的位元組流 。tcp並不知道所傳送的位元組流的含義。
索引的特點:
特點:所有的非主屬性對每乙個碼都是完全函式依賴 (暗含主關鍵字裡面可能有多個碼可以將實體區分)
所有的主屬性對每乙個不包含它的碼也是完全函式依賴(即所選碼與未選擇的碼之間也是完全函式依賴的)
沒有任何屬性完全函式依賴於非碼的任何一組屬性(即非主屬性之間不能函式依賴)
hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。
在google三篇大資料**發表之後,cloudera公司在這幾篇**的基礎上,開發出了現在的hadoop。但hadoop開發出來也並非一帆風順的,hadoop1.0版本有諸多侷限。在後續的不斷實踐之中,hadoop2.0橫空出世,而後hadoop2.0逐漸成為大資料中的主流。
map 和 reduce 其實是函式式程式設計中的兩個語義。map 和迴圈 for 類似,只不過它有返回值。比如對乙個 list 進行 map 操作,它就會遍歷 list 中的所有元素,然後根據每個元素處理後的結果返回乙個新的值。
而 reduce 在函式式程式設計的作用則是進行資料歸約。reduce 方法需要傳入兩個引數,然後會遞迴地對每乙個引數執行運算。
hadoop mapreduce 和函式式中的 map reduce 還是比較類似的,只是它是一種程式設計模型。我們來看看 wordcount 的例子就明白了。
所謂 mapreduce 的意思是任何的事情只要都嚴格遵循 map shuffle reduce 三個階段就好。其中shuffle是系統自己提供的而map和reduce則使用者需要寫**。
參考:分治演算法到mapreduce
在hadoop1.0中,namenode有且只有乙個,雖然可以通過secondarynamenode與namenode進行資料同步備份,但是總會存在一定的延時,如果namenode掛掉,但是如果有部份資料還沒有同步到secondarynamenode上,還是可能會存在著資料丟失的問題。mapreduce同樣是乙個主從結構,由乙個jobtracker(主)和多個tasktracker(從)組成。
hadoop2.0為克服hadoop1.0中的不足進行了下面改進:
針對hadoop1.0單namenode制約hdfs的擴充套件性問題,提出hdfs federation,它讓多個namenode分管不同的目錄進而實現訪問隔離和橫向擴充套件,同時徹底解決了namenode單點故障問題;
yarn作為hadoop2.0中的資源管理系統,它是乙個通用的資源管理模組,可為各類應用程式進行資源管理和排程,不僅限於mapreduce一種框架,也可以為其他框架使用,如tez、spark、storm、hive等
資料探勘的基本任務:
資料探勘方法:
分類方法:
是否需要歸一化處理:
ps: 留存率r,新增使用者n和日活a的轉化
第m天的日活am = nm + nm-1 * r1 + nm-2*r2 + …… + n1 * rm-1 + a1 * rm-1
資料真實性(趨勢變動是突然還是緩慢,是否是正常環境因素導致)
拆分維度,確定範圍
分維度做假設:產品、技術和運營
又稱演化模型。與建造大廈相同,軟體也是一步一步建造起來的。在增量模型中,軟體被作為一系列的增量構件來設計、實現、整合和測試、每乙個構件是由多種相互作用的模組所形成的提供特定功能的**片段構成,增量模型在各個階段並不交付乙個可執行的完整產品,而是交付滿足客戶需求的乙個子集的可執行產品。整個產品被分解成若干構件,開發人員逐個構件地交付產品,這樣做的好處是軟體開發可以較好地適應變化,客戶可以不斷地看到所開發的軟體,從而降低開發風險。具有回溯性,可返回修改
軟體開發過程每迭代一次,軟體開發又前進乙個層次
位元組資料分析筆試就是一些經典行測題目,主要是資料圖表題,難度比一般行測還要低,基本不需要準備。
資料分析面經 阿里
阿里資料分析一面涼涼經 1.介紹一下學過的課程和實習經歷 2.實習經歷裡面的策略分析是怎麼做的 從資料提取,資料清洗,分析目標選擇每一步是怎樣做的 因為都是在hive上做的,用聯結關聯到各個表,面試官問如果資料量特別特別大,應該怎麼做?3.講講hive 資料倉儲的原理 4.資料傾斜怎麼解決 5.維度...
筆經 騰訊2018暑期實習生 資料分析崗筆試經歷
發現今年雖然很多公司有了資料分析崗位面向本科生開放,但幾乎資料分析師的實習筆試幾乎都沒有考程式設計,注意是幾乎都沒有考!這也給了我們一些啟發,也說明現在的資料分析崗位職能方向更細化。1.同事小鵝在訓練深度學習模型是發現訓練集誤差不斷減小,測試集誤差不斷增大,以下解決方法錯誤的是 過擬合怎麼處理 資料...
資料分析崗 從一面到終面
今天第一次面試,也是第一次拿到實習offer,面的是某家母嬰領域的獨角獸公司的資料分析崗,事先投遞沒做什麼準備,抱著試一試的態度用形式政策上做的簡歷,順利拿到實習offer。通過某聘投遞簡歷,通過簡歷篩選,開始和hr交流面試初複試情況。專案主管面,開始有點小緊張 因為啥也沒準備 開始線上面試時,連攝...