(2013-01-11 11:31:49)
標籤:
「為了迎接即將到來的大資料時代,各大網際網路公司都在爭分奪秒。阿里巴巴在公布大資料分享平台之後的半年中,也全面啟動了攻勢。但即使是這個行業的先行者,離大資料時代也還有不小的距離。」
剛剛過去的2023年,秦予有個很大的遺憾,就是沒能招聘到自己想要的資料科學家,浪費了公司給的招人名額。他是支付寶使用者價值創新中心的負責人。這個中心是支付寶大資料業務的核心部門。
阿里巴巴2023年的進人指標只有200個,具體到支付寶公司,基本是只出不進,只有秦予所在的部門得到了難得的兩個進人名額。但她只招到了乙個合適的。
阿里集團2023年7月10日就已宣布,設立首席資料官崗位(cdo),負責推進「資料分享平台」戰略。同日,阿里發布「聚石塔」平台,為天貓、**平台上的電商及電商服務商等提供資料雲服務。
阿里巴巴集團表示,如何挖掘、分析和運用這些資料,並和全社會分享,是這個戰略的核心所在。阿里巴巴是年交易額過萬億元的中國最大的電子商務平台,目前有兩萬人左右,其中近千人從事資料業務工作。
可以看到,從資料中掘金,已經成為各大網際網路公司的共識。但在這個即將到來的大資料時代,這些公司具體將如何推進呢?
「離大資料時代還有不小距離」
秦予要找的並不是一般的資料分析師。
「國內不缺資料探勘人才,但很難找到資料科學家。」秦予對南方周末記者說,秦予的團隊有7個人,他們在支付寶內部被稱為「資料科學家」。
一般的資料分析師是根據支付寶的各種資料進行分析,給公司決策層和各個業務部門提供諮詢支援。這也是目前很多公司都設有的商業智慧型部的主要職能。但資料科學家們做的事情是開發出具體可以銷售的商用化的大資料產品。
所謂大資料,一般是1000t以上的資料,如果按照一般機器配置,相當於400台到500臺電腦。對這些資料資訊的商業化開發就是大資料產業鏈。
《大資料時代》一書中提到,未來,資料將會像土地、石油和資本一樣,成為經濟執行中的根本性資源。資料科學家被認為是下乙個十年最熱門的職業。
而大資料跟個人最為密切的關係是對隱私的可能侵入。比如,亞馬遜監視著我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,微博似乎對我們和我們朋友的關係無所不知,qq圈子能給你推薦你不願意再見面的某個女生的**和動態資訊。
秦予是從美國歸國的計算機模擬博士後,在摩根大通和匯豐銀行工作過多年,2023年加入支付寶公司,負責支付寶和**集市的大資料業務。支付寶公司擁有中國僅次於銀行業的個人資料資訊。
「阿里巴巴有海量的資料,對於做大資料的人來說,阿里巴巴是中國最好的平台,很吸引人。因為我的金融背景所以選擇支付寶。」秦予對南方周末記者說。
回國進入大資料行業之後,秦予參加了很多大資料的論壇和研討會,她最大的體會是,看到的新東西很少。
「別說大資料,連小資料都很少。現在很多公司說的大資料,大都是資料的蒐集和整理。這是底層的工作。」秦予說,「中國離大資料時代還有不小距離。」
即使是作為國內大資料業務的先行者阿里巴巴,其大資料業務發展也依然是分散在各個子公司,並在2023年下半年才開始推出少量的商用產品。
「從人出發,先去找人」
支付寶曾經在八年前公司成立第二天就建立了資料部門,但真正有大資料業務,是在2023年的事情。正是那時候,支付寶從招商銀行信用卡中心招來一批專業的金融人才。秦予也是那時候加入支付寶的。
「金融行業的大資料業務已經很成熟了。」秦予說。
支付寶的資料科學家每天做的工作就是,把客戶分成50個族群進行研究。比如,細分出都市輕熟男群體,這個群體的特徵是每次買的不貴,均價七八十元,收入中等,但很喜歡在網上買東西。
還有乙個族群被稱作「千金美少女」,其特徵是收入並不高,但家裡有錢,買得多,買得貴。
按照分群研究的思路,秦予的團隊把**、天貓、支付寶和聚划算的使用者做系統研究,通過觀察他們喜歡看什麼**,上什麼網,來「生動地」知道使用者是個怎樣的人,進而推薦商品供使用者購買。
能識別使用者之後,在寫商品推薦文字的時候,不再是過去那樣千篇一律地使用「親」作為開頭。
「今天很多**犯的錯誤就是,根據個人購買記錄,推薦乙個類似的產品。其實使用者很可能買過了。使用者要的是你給他推薦乙個跟他相似的人買的東西。」秦予對南方周末記者說,以前的資料研究思路是從產品出發,大資料時代是從人出發,先去找人。
支付寶發展大資料業務,目前主要是為內部服務。比如,過去支付寶很重視新客戶的獲取,但後來發現開賬戶的人多,關賬戶的人也不少,通過資料分析,支付寶建立了乙個流失預警模型,**每乙個人未來三個月是否會離開支付寶,並對潛在的流失使用者做一些喚醒。
「支付寶是準金融行業,資料比較敏感,涉及使用者隱私,還沒有到開放的階段。」秦予對南方周末記者說,支付寶非常忌諱提供商用化產品給商戶,很多合作方惦記著的是支付寶的資料,但這是支付寶的高壓線。
「支付寶發展大資料的目的,跟**和天貓有點偏差。我們更多地是為內部服務,**和天貓更多地強調商業化。」秦予對南方周末記者說,阿里巴巴集團的大資料業務商用主要是**平台的幾個公司在推進。
「資料分享平台」戰略
2023年3月,**宣布將面向全球首度開放資料,並制定了兩條大原則:資料分層次開放;涉及消費者個人或者企業隱私的資料絕對保護。
**的資料開放一是對公眾的免費資訊,比如推出類似於巨集觀經濟資料的「**指數」。商家可以根據以往的銷售資訊和「**指數」進行生產、庫存決策。對於大眾來說,**的資料發布就像是統計局和**監測機構的功能,**指數相當於行業和巨集觀經濟的各項指標。
作為針對企業的資料開放的商用產品,**推出了資料魔方產品,通過**資料魔方平台,商家可以直接通過資料魔方產品獲取行業巨集觀情況、自己品牌的市場狀況、消費者行為情況等,但是不能獲得競爭對手的資料。
2023年4月,資料魔方正式上線。在「店小二」的推廣下,林氏木業成為第一批使用者。林氏木業是一家完全依靠網際網路平台銷售家具的電商公司。
以銷售**為主的素野天貓***的運營經理陳林告訴南方周末記者,素野選擇資料魔方專業版本,支付3600元/年的費用,除魔方外,還可以使用量子恆道(**官方推出的一款免費資料分析工具)。
「資料魔方帶來的更多是虛的概念,對流量、銷售額這種具體指標意義不大。」陳林說。
2023年6月,**一分為三,變成天貓、**集市和一淘網。這之後,**系的大資料發展的主要任務放到了商家已經形成了付費習慣的天貓平台。目前天貓的主打大資料商用產品是聚石塔。
2023年7月,阿里巴巴集團的「聚石塔」正式發布,「資料分享平台」戰略全面展開。聚石塔是阿里巴巴首次聯合全集團大資料力量打造的一款大資料商用產品。其中,天貓及**網主要負責尋找合作夥伴,發展商家,阿里雲負責提供雲主機,萬網負責客戶服務。
同時,阿里巴巴b2b公司ceo陸兆禧出任集團首席資料官崗位,向ceo馬雲直接匯報。馬雲在聚石塔發布的時候宣布了阿里集團未來新戰略:平台、金融、資料。
聚石塔提供資料儲存、資料計算兩類服務。根據官網上的指導**,若需要記憶體為1200m、50g容量的資料儲存服務,***為6090元/年;如果購買英特爾雙核處理器、記憶體4g、硬碟500g、頻寬5m的彈性託管服務,**約在7700元/年。
廣州衣酷服飾****的運營總監敬小虎對南方周末記者表示,他們公司是2023年9月開始使用聚石塔服務的,正好趕上「雙十一」大**,兩天之內發完了所有的貨,總共3萬多票。他負責該公司在天貓上的店鋪皓盾天貓***的運營。
不過,敬小虎表示,如果店鋪一天的銷量能做到500票以上,購買聚石塔服務比較划算,否則軟體買下來除了應對「雙十一」這樣的大**,基本就閒置著。
平台後的產業鏈
阿里巴巴公布的資訊顯示,自2023年7月10日聚石塔發布以來,已有十多萬的商家入駐。聚石塔的訂單覆蓋率,10月中旬的數字是20%。
2023年「雙十一」購物狂歡節,是對天貓大資料發展的一次檢驗。據天貓官方資料顯示,狂歡節大促當天,聚石塔內系統處理的訂單超過天貓總量的20%,比平時增長20倍。
又一城公司是首批進入聚石塔伺服器專案的軟體it企業。又一城公司的銷售人員賴活龍對南方周末記者表示,有erp系統的商家可以直接找天貓,沒有erp系統的商家,只能找像又一城這樣跟天貓有合作的軟體商,讓軟體商幫忙接入聚石塔服務。
又一城和阿里巴巴的合作模式是,又一城基於聚石塔開發的軟體,對接**和天貓等阿里系公司的後台系統,包括訂單資訊、商品資訊、會員資訊、財務資訊、物流資訊和庫存資訊。
賴活龍對南方周末記者透露,最近半年,他的重點一直是推銷聚石塔產品,一開始很多商家聽到是推銷軟體產品的**就會按掉**,現在的情況好多了,不少商家主動打**來了解情況。
「這跟天貓的宣傳很有關係,另外就是雙十一檢驗了產品的價值。」賴活龍說。
越來越多的商家被迫參與到大資料產品的購買中來。
因為**活動越來越多,參加的話,it系統往往跟不上,造成錯單配送等問題,中差評接踵而至,動態評分直線下降,銷量跟著下降,所以只能是購買聚石塔服務。不參加的話,沒有流量,沒有銷售額。
「如果商家不跟著**走,就會受到冷落,你進來了,碰到雙十一這樣的活動,天貓會看你是否加入了聚石塔,如果沒有加入,你報名的資質能否通過是個大問題。」賴活龍說。
**:南方周末
阿里巴巴大資料之路
資料治理 對這些資料進行有序 有結構地分類組織和儲存,目前企業資料現狀 集團資料儲存達到eb 1eb 1024pb 2 60位元組 級別,部分單張表每天的資料記錄數高達幾千億條 資料工程師工作 資料工程師每天要面對百萬級規模的離線資料處理工作。資料模型 資料研發 資料質量和運維保障工作。大資料系統體...
《大資料之路 阿里巴巴大資料實踐》筆記
阿里巴巴大資料系統體系主要分為,資料採集 資料計算 資料服務和資料應用四大層次。瀏覽器的頁面日誌採集 h5裝置標識 日誌傳輸資料同步基礎 不過濾刪除流水,下游邏輯刪除 過濾最後一條刪除流水,比如存在手工批量刪除或者備份刪除,則資料還是有效的不應當置為無效 過濾刪除流水和之前的流水 阿里資料倉儲的同步...
大資料之路 阿里巴巴大資料實踐 資料同步要點
使用者建立資料同步任務,並提交該同步任務。根據系統提前獲知及設定的資料,估算該同步任務需要同步的資料量 平均同步速度 首輪執行期望的執行緒數 需要同步的匯流排程數。根據需要同步的匯流排程數將待同步的資料拆分成相 等數量的資料塊,乙個執行緒處理乙個資料塊,並將該任務對應的所有執行緒提交至同步控制器。同...