我今天的主題是給學生、給年輕人講的,因為我覺得這些是最根本的。即使你管理階層再好,你找不到人也什麼也沒有,而對於每個人來說最重要的就是把自己的價值提高,而不是地位,這是兩回事。資料科學家的年薪是多少,這都不是我們的目標,也不是成功的標誌,這是一種價值的標誌。怎麼樣才能有價值?我們要有能力,誰都想要你,不是因為你是他的親戚或者學生,他想要你這才是價值,我們要的是價值,而不是所謂的成功。
什麼是資料科學?
資料科學有很多很多定義,最基本的定義就是computer science,還有數學、統計、目標、知識,這是最基本的,再說多了就過分了。一般對於年輕人來說,現在不可能到那麼細的程度,我們應該變成乙個通才,哪個公司都願意要我們。清華大學之所以現在變成這個樣子,就是因為在2023年院系調整的時候,每乙個專業就是乙個生產線,弄的很細很細,沒有乙個更寬廣的視野。大資料,所謂大就是這個樣子。數學關鍵是邏輯而不是具體的方法,不是你怎麼求多項式的根,而是它的基本邏輯,它的數學語言,這一點要懂。數學邏輯是各種學科當中最嚴格的邏輯,無論你學邏輯的,學物理的,學什麼的,文科學邏輯的肯定是不如學物理的,學物理的邏輯肯定不如學數學的,所以你要跟學數學的辯論的話就很困難。文理分科造成沒有邏輯的文章,沒有邏輯的法官。
資料科學家是做什麼的?
對那些高科技公司來說,資料科學家可以挖掘新的資訊,幫助公司開源節流。每個公司都是要這樣的,所以它需要的是人才,這是關鍵。我們說資料科學,當然科學也有藝術,這兩個都有關係。科學意味著沒有權威,不要迷信那些權威,中國人喜歡崇拜權威。任何科學研究的目的是基於資料,顛覆舊的理論,這樣才能往前進,所以你必須要有科學精神。
諾貝爾物理獎沒有乙個是承認過去怎麼樣的,而是推翻過去的事情,這是科學,是顛覆性的。
什麼樣的人能成為資料科學家?
如果你擅長數學,有很清晰的邏輯思維能力,有技能組合,就可能當上資料科學家。投票顯示,資料分析和資料探勘是最大的求職法寶。資料科學火爆的原因是,儘管高科技公司都有自己的資料科學團隊,但是那些非科技公司和很大的公司也需要做這些東西,他們需要能做這些東西的人。現在關鍵是人,關鍵是你們怎麼樣讓自己成為被需要的人。
另外,你是不是做資料科學家的材料?相比專長於任何特定程式語言,泛型變成技巧更重要。最重要的素質就是能快速學習東西。在這個時代技術發展的突飛猛進,語言很快會過時,新的語言會迅速普及,所以學習東西快的人比單獨領域的專家更有前途,你有這個潛力你能幹什麼事。我要看你這個人的潛力,而不是你知道什麼。知識再多你也超不過乙個硬碟吧?但是硬碟沒有創造力。如果你每天花大量的時間程式設計,分析控制面板上的資料,獲得相關知識和資訊,如果你對這樣的工作感興趣你就適合幹這行。現在我沒事就處理程式設計資料,我看了這個以後覺得自己有點像。如果僅僅是想拿高工資,那可能覺得這樣的日子就很苦了。實際上不光是這個工作,幹任何工作,即使是坐牢你也要把它當成樂趣。我有乙個朋友,他就被上級陷害之類的坐牢了,現在坐牢很容易。他後來就跟我說,他覺得這件事情很享受,就是你怎麼看這個問題了。你要是發愁過一天也是一天,高高興興的過一天也是一天,所以你要考慮怎麼活才合適。
真正適合幹這一行的人,會在業餘時間裡程式設計序、分析資料,他的目的就是自娛自樂,而不是為了要拿著什麼學位,拿到什麼樣的頭銜,最終他自己把自己的價值就提高了。如果你愛的不是資料本身,而是它給你帶來的高薪,那你很難跟上來的人來競爭了。要學會幹一行愛一行,每個人都應該學會熱愛資料,即使是為了自己的事業前途也應該這樣想,為了自己的心理也應該這樣想。
還需要什麼呢?我剛說了,學習能力比知識更重要,歡迎挑戰、樂於攀登。如果沒有挑戰了,沒有古怪的資料,我覺得很無聊,有點挑戰的我就很高興,我相信很多人都這樣,這樣活著才有意義,像豬一樣的活著沒有意義。你像富二代開著寶馬到處飆車,他是找不到活著的意義啊,穿名牌什麼的,是讓別人覺得你有點價值,實際上別人一看你更沒有價值了。馬克思的座右銘「懷疑一切」,在懷疑中成長,我們國家從來不倡導這個,為什麼咱們不宣傳這個?不要給自己貼標籤,就是我學什麼方向的,別的不搞,歲數大了,學不會了,很多人都有這樣的藉口,這實際上是藉口,我現在每天都在網上學東西,所以我現在教的東西總是新的,我的書一版再版,我現在大概寫了有30本書了,為什麼再版,因為我發現原來的有錯或者不全面,我一定要把事情說的更透徹一點,說的更好一點。
如何成為資料科學家?
計算機最根本的就是領域知識,你必須了解領域知識,你才能夠知道該怎麼做
如果你僅僅是乙個乾巴巴的統計學家,你不了解統計,你可以做很多荒謬的事,不了解實際問題。有乙個例子,在醫學雜誌發表的乙個很有名的文章,說如果父母在嬰兒房間內睡覺總是開著燈,嬰兒就會有高度近視。後來再發現,凡是父母高度近視的,往往有給小孩開燈的習慣。到底什麼造成小孩高度近視,現在你們知道的,但是當時的人不知道,所以要有很深刻的領域知識,只有明白目標領域知識的人才能明白它的意義,知道往哪個方向努力,去判斷分析結果的可能性。如果沒有領域知識主導的人分析肯定有誤導,無論什麼地位。在中國院士到哪兒都去發表理論,就像金正恩到哪兒都發表指示一樣。所以用資料來說話,其他的一切都是廢話。我每年看到很多很多的文章,包括一些大賽,這個賽那個賽,好多都是莫名其妙的假定,就連31個省市自治區的資料都假設是正態分佈,這31個省市自治區的就不是樣本,更不用說是正態分佈。
作為科學就這麼多內容,對年輕人來說就是要明白這些基本的東西,太花哨的東西就沒意義了,那就是擴充套件了也不是沒意義,不要鑽進去出不來了。
你離得越遠看得越清楚,站得越高了解的全域性越好
不要太具體了,不要迷信這些炒作的新名詞、新概念,用自己的大腦,用常識判斷,想想合不合理。過去某個人的經驗是他的經驗,不是你的經驗,他在特定環境、特定時間有作用,但不是現在。如果你要跟風就意味著永遠是跟隨,也絕對不會有出息。 炒作沒人管,只要有觀眾給你鼓掌,觀眾回去一腦袋漿糊,但是每個人自己不能糊塗。第一原料就是資料,什麼是資料?**都可以變成資料。
要有批判性思維
要有基於資料的批判性思維,而不是基於主觀經驗、權威或者是區域性的知識,也不是迎合取寵式的思維。在中國取寵思維很厲害,你說gdp增加多少就是多少,這不是說的,要有人做。工具就是剛才說的能力加計算機系統加泛型。
個人還要有快速的自學能力和對資料分析的愛好
我從來沒學過計算機,也沒學過計算機程式設計。英文都沒學過,全都是自學的,所以我對自學很相信。現在我教的東西都是最近這幾年的東西,我現在實際上比乙個全職教師教的課還多,但是我教的東西好多都是前一天網上才出現的,我覺得有價值,第二天就放到課堂上了。只有不斷的自學,不斷的學習才能當老師。如果你不斷的跟學生演示80年前的推導過程,顯示你的記憶力好,那不是好老師。
關於 「快樂」
什麼人最快樂?被人需要,這是很重要的,就是你得有價值。因為你的專長、能力、善良、尊重、愛心、品質、性格、智力、分享。今天早上他們也講了,就是在公司裡跟人家能相處,至少你得是可愛的。還要關心他人,能讓別人快樂的人是快樂的。如果買點東西在宿舍裡藏在被窩裡吃,那高興嗎?如果跟別人分享的話會更高興。尊敬別人的人是快樂的,一定要尊敬別人。如果大家都尊敬別人的話,社會上任何犯罪都沒有了,因為犯罪都是偷、搶、殺,侮辱別人這都是不尊敬別人的。誠實坦蕩的人是快樂的,這就是不能撒謊,永遠不能撒謊。還要心胸開闊,不去計較一些小事情。最關鍵的就是愛人如己,你愛人不是因為他能愛你回來,也不是因為他可愛,而是對任何事情都尊重,這是最根本的一點。如果這點你要做到了,如果人人都能做到,那世界就太理想了。不管怎麼樣,我希望大家能夠快樂。
在大資料時代,如何運用資料驅動HR人才管理
在大資料時代,hr們從未如此迫切地需要並重視資料。資料除了能夠證明hr的績效表現,更重要的價值是支援決策。那麼如何用資料有效地驅動人才管理?一味地為做大資料而做大資料毫無意義,企業應結合人力資源業務進行資料探勘與分析,打造人才魔方,用資料進行以人才為核心的人才全生命週期管理。利用大資料找準人 人才遷...
大資料時代
大資料 巨量資料 big data 指的是需要新處理模式才能具有更強的決策力,洞察力和流程優化能力的海量 高增長率和多樣化的資訊資產。4v特點 volume 大量 velocity 高速 variety 多樣 value 價值 資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。...
大資料時代
不斷的從 發現這個很具廣告特色的語句,他們總是鼓吹大資料時代的來臨,好像如果你沒抓住他,你就要立馬落後別人好幾條馬路。各種公司企業對他們的產品也宣稱產品是大資料時代不可或缺的科技 乙個錢學森相當於10個王牌師。國內到處充斥著浮躁,不管是大學還是業界,大家都想賺點錢一夜暴富然後過上高富帥的生活。大資料...