為什麼要成為大資料工程師

2021-10-09 21:27:32 字數 3840 閱讀 3726

通常,資料科學團隊由資料分析師,資料科學家和資料工程師組成。這篇文章我們更深入地了解成為資料工程師的一些優勢。

資料工程師是將公司或機構內所有資料生態系統的各個部分聯絡起來的人。他們通過執行以下操作來實現此目的:

a.從應用程式和系統訪問,收集,審核和清除資料,使其變為可用狀態

b.建立和維護高效的資料庫

c.建立資料管道

d.監視和管理所有資料系統(可伸縮性,安全性等)

e.以可擴充套件的方式實現資料科學家的輸出

做上面列出的所有事情主要需要一項特殊技能:程式設計。資料工程師是專門從事資料和資料技術的軟體工程師。

這使得它們與資料科學家大為不同,後者當然具有程式設計技能,但通常不是工程師。資料科學家將其工作(例如推薦系統)移交給資料工程師進行實際實施的情況並不少見。

在由資料分析師和資料科學家進行分析時,通常是資料工程師在構建資料管道和其他系統,以確保每個人都可以輕鬆訪問所需的資料(並且沒有人可以訪問資料庫)。資料誰不應該)。

軟體工程和程式設計的強大基礎使資料工程師能夠構建資料團隊及其公司成功所需的工具。我喜歡從樂高積木的角度來思考它。工程師設計了新的樂高積木,資料科學家以創新的方式組裝了積木,以建立新的資料科學。

這使我們想到了您可能想成為資料工程師的第乙個原因:

1.為什麼要學習資料工程?

資料工程師處於資料策略的最前沿,因此無需其他人。他們是第一批解決進入公司系統的結構化和非結構化資料湧入的人。它們是任何資料策略的基礎。畢竟,如果沒有樂高積木,就無法建造樂高城堡。

在上述資料需求層次結構中,資料工程師完全負責最後兩行,並與資料分析師和資料科學家共同承擔第三行的責任。

為了更好地了解關鍵資料工程的重要性,可以想象一下上圖所示的金字塔用作漏斗並上下顛倒。資料湧入該程式的頂部,最早接觸資料的人是資料工程師。它們在過濾,清理和引導資料方面越高效,則隨著資料進一步沿著漏斗流向其他團隊成員,其他一切都將變得更有效率。

反之,如果資料工程師不是有效的,它們可以作為以損害所有人的下游工作的漏斗塊。例如,如果構建不良的資料管道最終給資料科學團隊提供了不完整的資料,則他們對該資料進行的任何分析可能都是無用的。

這樣,資料工程師可以充當資料策略結果的乘數。他們是資料分析師和資料科學家所肩負的巨人。

具有良好資料策略的公司組建團隊的方式證明了這一點:

乙個共同的出發點是每位資料科學家需要2-3名資料工程師。對於某些具有更複雜的資料工程要求的組織,每個資料科學家可能需要4-5名資料工程師。

2.在技術上具有挑戰性

資料分析人員和科學家最常使用的python函式之一是 read_csv。此函式將儲存在文字檔案中的**資料讀取到python中,以便可以對其進行瀏覽和操作。

如果您以前使用python處理過資料,則可能非常習慣鍵入以下內容:

簡單方便,對吧?該 read_csv 功能是軟體工程本質的乙個很好的例子:建立抽象,廣泛,有效和可擴充套件的解決方案。

這是什麼意思,它與學習資料工程有什麼關係?讓我們更深入地看看。

a.抽象。在計算機中讀取檔案 時,在後台進行的過程非常複雜。但是,我們對函式的使用非常簡單,後台發生的事情與用法無關。您無需了解 read_csv 「內幕」的工作即可有效地使用它。

b.寬。此功能還允許我們顯式選擇文字檔案的**資料中使用的分隔符(例如,逗號,分號,製表符等)。這使它易於與各種csv樣式一起使用,這對於資料科學家來說是一種**。還有許多其他選擇,使資料從業人員可以專注於自己的目標,而不必擔心程式設計細節。

c.高效。 read_csv 快速有效地工作,並且**讀取也很有效。

d.可擴充套件 此功能包含的另乙個選項允許我們按塊讀取檔案,因此,如果檔案太大而無法讀入計算機的ram,則可以逐塊讀取檔案,從而允許使用者處理盡可能大的檔案。

正是資料工程師在工作,他們才能神奇地構建諸如read_csv 抽象,廣泛,高效和可擴充套件的功能之類的工具,以便團隊的其他成員可以專注於資料本身及其分析,而不必為程式設計難題而苦惱。

同時,資料工程所需的數學知識可能比資料科學所需的數學少,因此,如果您更喜歡程式設計而不是數學,那麼資料工程可能是乙個理想的選擇!

3.獎勵

使資料科學家的生活更輕鬆並不是激勵資料工程師的唯一事情。不可否認的是,資料工程師正在對整個世界產生重大且不斷增長的影響。

每天,我們都會建立2.5億個位元組的資料,而當今資料的龐大性使資料工程師比以往任何時候都更加重要。到2023年,物聯網裝置將超過640億,高於2023年的約100億和2023年的90億。」 隨著這種增長,來自更多**的資料也越來越多,因此,對有效處理和引導資料的工程師的需求也越來越大。

這意味著資料工程師可以通過多種方式追求自己的興趣並加深他們的技能。為了讓您了解這個世界有多麼廣闊,這裡列出了流行的資料工具和技術: amazon redshift, amazon s3, apache cassandra, apache hbase, apache kafka, apache spark, apache zookeeper, azure, elephantdb, hadoop分布式檔案系統, ibm db2, mapreduce, memcached, microsoft sql server, mongo資料庫, oracle資料庫, postgresql, redis, sqlite, storm, sap iq, teradata 和 vertica。

當然,資料工程師不必知道所有這些,但是此清單僅說明了資料工程領域要做的事情。一旦擁有了獲得工作的技能,就可以自由選擇自己正在從事的工作以及正在使用的工具。

由於資料工程師具有資料和軟體工程技能,因此他們也能夠構建各種產品。想要為早期創業做貢獻,還是成為企業家並有一天找到自己的公司?資料工程技能為您提供了構建出色產品並分析這些產品的效能所需的工具。您將能夠實現和衡量幾乎所有您能想到的事情的成功。

想遠端工作嗎?根據2023年的《未來勞動力報告》,「在未來三年中, 五分之二的全職員工將在遠端工作」。因此,如果適合在辦公室外工作,則資料工程可以幫助您實現該目標。因為對資料工程師的需求很高,並且由於大多數工作可以遠端完成,所以絕對有可能找到遠端資料工程工作,或者自己作為短期資料工程專案的自由承包商來工作。

最後,資料工程師還有很多回饋社群的機會。根據 約65%的專業開發人員每年或一次以上為開源專案做出貢獻。而且由於您將具有資料和工程技能,因此您將能夠為資料科學社群開發出非常酷的新工具,從而真正地發揮作用。

4.很好

您絕不應該僅根據薪水從事工作 ,但不可否認的是薪水很重要!

指定機器學習技能的工作人員平均要支付114,000美元。廣告資料科學家職位的平均薪酬為105,000美元,資料工程師職位的平均薪酬為117,000美元。

這並不奇怪。在stackoverflow的開發人員調查中,諸如python,sql和shell之類的資料工程技能通常是收入最高的技能之一。在撰寫本文時,linkedin上的搜尋詞「 資料科學家」大約有70,000個結果 ,而搜尋詞「 資料工程師」大約有112,500個結果 。在glassdoor上,差異更加明顯:資料科學家大約為22,500,而資料工程師大約為77,100(根據上個月發布的職位進行過濾)。

不僅對資料工程師的需求很大,而且需求還在不斷增加!截至2023年6月,對資料工程師的需求同比增長了 88% 。

5.即使您不想成為資料工程師也很重要

即使您不想從事資料工程師的職業,但是如果您想從事資料科學工作,那麼擁有一些資料工程知識也會非常有用。好處是多方面的:

a.作為資料從業者,很可能會定期要求您完成與其他工作角色(包括資料工程)有一些重疊的任務。

b.學習一種不同的看待事物的方式可能會有助於您的理解,並且使您有機會複習一下您一段時間未使用的技能。

c.具有工程技能將使您更加自給自足。這可以極大地幫助您的事業,因為您無需再受阻,等待某人為您做某事。

摘自:

大資料工程師簡歷 成為大資料工程師所需的技能

我們大多數人對資料工程師是誰有想法,但我們對大資料工程師的角色和責任感到困惑。一旦我們開始用適當的技能集對映這些角色和職責,並找到最有效和最有效的學習路徑,這種歧義就會增加。這個 大資料工程師技能 部落格將幫助您了解資料工程師的不同職責。因此,我將用適當的技能來規劃這些職責 將引導您通過適當的學習路...

大資料工程師簡歷 成為大資料工程師所需的技能

我們大多數人對資料工程師是誰有想法,但我們對大資料工程師的角色和責任感到困惑。一旦我們開始用適當的技能集對映這些角色和職責,並找到最有效和最有效的學習路徑,這種歧義就會增加。這個 大資料工程師技能 部落格將幫助您了解資料工程師的不同職責。因此,我將用適當的技能來規劃這些職責 將引導您通過適當的學習路...

如何成為一名大資料工程師?

導 讀 大資料是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大資料處理相關的職業,通過對資料的挖掘分析來影響企業的商業決策。這群人在國外被叫做資料科學家 data scientist 這個頭銜最早由d.j.pati和jeff hammerbacher於2008年提出,他們後來分別成為了領英 ...