世界上的資料分析師分為兩類,使用excel的分析師,和其他分析師。每乙個資料新人的入門工具都離不開excel。因為excel涵蓋的功能足夠多。很多傳統行業的資料分析師只要求掌握excel即可,會spss/sas是加分項。即使在挖掘滿街走,python不如狗的網際網路資料分析界,excel也是不可替代的。
excel有很多強大的函式,函式可以被我們想象成乙個盒子,專門負責將輸入轉換成輸出,不同的函式對應不同的輸出。
=vlookup( lookup_value ,table_array,col_index_num,[range_lookup] )
上文的vlookup就是乙個經典函式。函式中包含引數,括號裡的部分都是引數。我們可以把引數想象成盒子上的開關。vlookup就有四個開關,不同開關組合決定了函式的輸入和輸出。
=vlookup( 引數1,引數2,引數3,引數4)
複雜的原理不需要了解。這篇文章是常用函式彙總。甚至你不需要特別記憶怎麼使用函式,應用excel函式最重要的能力是學會搜尋。因為絕大部分函式網上已經有相應的解釋,**結合,非常詳盡。
在理解函式的基礎上,我會適當引入高層次的內容,sql和python(內建函式)。將其和excel結合學習,如果大家吃透了excel的函式,那麼後續學習會輕鬆不少。
清洗處理類
主要是文字、格式以及髒資料的清洗和轉換。很多資料並不是直接拿來就能用的,需要經過資料分析人員的清理。資料越多,這個步驟花費的時間越長。
trim
清除掉字串兩邊的空格。mysql有同名函式,python有近似函式strip。
concatenate
=concatenate(單元格1,單元格2……)合併單元格中的內容,還有另一種合併方式是& 。"我"&"很"&"帥" = 我很帥。當需要合併的內容過多時,concatenate的效率快也優雅。mysql有近似函式concat。
replace
=replace(指定字串,哪個位置開始替換,替換幾個字元,替換成什麼)替換掉單元格的字串,清洗使用較多。mysql中有同名函式,python中有同名函式。
substitute
和replace接近,區別是替換為全域性替換,沒有起始位置的概念
left/right/mid
=mid(指定字串,開始位置,擷取長度)擷取字串中的字元。left/right(指定字串,擷取長度)。left為從左,right為從右,mid如上文示意。mysql中有同名函式。
len/lenb
返回字串的長度,在len中,中文計算為乙個,在lenb中,中文計算為兩個。mysql中有同名函式,python中有同名函式。
find
=find(要查詢字元,指定字串,第幾個字元)查詢某字串出現的位置,可以指定為第幾次出現,與left/right/mid結合能完成簡單的文字提取。mysql中有近似函式 find_in_set,python中有同名函式。
search
和find類似,區別是search大小寫不敏感,但支援*萬用字元
text
將數值轉化為指定的文字格式,可以和時間序列函式一起看
關聯匹配類
在進行多表關聯或者行列比對時用到的函式,越複雜的錶用得越多。多說一句,良好的表習慣可以減少這類函式的使用。
lookup
=lookup(查詢的值,值所在的位置,返回相應位置的值)最被忽略的函式,功能性和vlookup一樣,但是引申有陣列匹配和二分法。
vlookup
=vlookup(查詢的值,**找,找哪個位置的值,是否精準匹配)excel第一大難關,因為涉及的邏輯對新手較複雜,通俗的理解是查詢到某個值然後黏貼過來。
index
=index(查詢的區域,區域內第幾行,區域內第幾列)和match組合,媲美vlookup,但是功能更強大。
match
=match(查詢指定的值,查詢所在區域,查詢方式的引數)和lookup類似,但是可以按照指定方式查詢,比如大於、小於或等於。返回值所在的位置。
row返回單元格所在的行
column
返回單元格所在的列
offset
=offset(指定點,偏移多少行,偏移多少列,返回多少行,返回多少列)建立座標系,以座標係為原點,返回距離原點的值或者區域。正數代表向下或向右,負數則相反。
邏輯運算類
資料分析中不得不用到邏輯運算,邏輯運算返回的均是布林型別,true和false。很多複雜的資料分析會牽扯到較多的邏輯運算
if經典的如果但是,在後期的python中,也會經常用到,當然會有許多更優雅的寫法。也有ifs用法,取代if(and())的寫法。mysql中有同名函式,python中有同名函式。
and全部引數為true,則返回true,經常用於多條件判斷。mysql中有同名函式,python中有同名函式。
or只要引數有乙個true,則返回ture,經常用於多條件判斷。mysql中有同名函式,python中有同名函式。
is系列
常用判斷檢驗,返回的都是布林數值true和false。常用iserr,iserror,isna,istext,可以和if巢狀使用。
計算統計類
常用的基礎計算、分析、統計函式,以描述性統計為準。具體含義在後續的統計章節再展開。
sum/sumif/sumifs
統計滿足條件的單元格總和,sql有中同名函式。mysql中有同名函式,python中有同名函式。
sumproduct
七周成為資料分析師學習筆記(第七周)
一 python連線資料庫 1 安裝pymysql pip install pymysql 注意安裝路徑,注意環境切換 pip3 install pymysql 安裝在python3下 2 連線資料庫 import pymysql conn pymysql.connect host localhos...
七周成為資料分析師02 業務分析指標
成為一名合格的資料分析師,業務知識很重要。光有分析技巧但沒有業務知識支撐,分析出的結果也只會是空中樓閣,難以落地推行。只有理解業務,才能建立業務資料模型。指標 如果你不能衡量它,你就無法增長它。將業務場景用指標來衡量,更有利於對業務知識的把握。指標建立的要點 指企業 產品 消費者在整個業務關係階段的...
七周成為資料分析師(秦路) 第二週 業務
業務的重要性 唯有理解業務,才能建立業務資料模型。模型未動,指標先行。如果你不能衡量它,你就無法增長它。結構化,公式化,業務化後,可以進一步指標化。銷售 運營 市場 rightarrow 指標 rightarrow 推動業務 機器學習 管理 指標建立的準則 針對核心業務建立核心指標 比率好的指標應該...