如今,地理大資料產業在中國方興未艾。通過地理大資料為企業提供決策服務的geohey,是其中的代表。如何尋找並發掘地理大資料的價值。我們請來geohey的資料總監高楠,分享了他對地理大資料這座金礦的「掘金秘籍」。
如何獲取「無處不在」的地理大資料?
我們先來說說如何獲取和清洗地理大資料。
作為乙個網際網路使用者,你是否會留意到不少手機應用在啟動時會向你發出獲得個人位置定位的請求?比如,你在馬路上開啟喜馬拉雅的fm廣播聽個相聲,邊走邊聽的時候你的位置資料便被不斷採集起來,這些被採集的位置資料,便是地理資料,也是值得挖掘的物件。另外,現實中的地理單位,比如一條馬路,一棟房屋,它們也是乙個個地理資料,可以被採集。
當我們把這些蒐集起來的資料賦予維度並交叉應用時,便產生了它的應用價值。
既然位置資料**於網際網路,那麼我們就去網際網路上爬。
我們將這個過程設定為四個步驟:首先是開發爬蟲,我們會開發挖掘資料的爬蟲程式,這是我們的核心工具;在爬蟲程式設定之後,我們便設定策略,確定要抓取哪一方面的資料,這也是我們的關鍵環節;在策略設定好之後,我們便設定生產排程,說通俗點就是排好工期;最後獲得到我們想要的資料。
正如淘金需要過濾泥沙一樣,我們獲取到的資料其實有很多「廢渣」,會影響整體價值。清洗資料和獲取資料也是同樣重要。按照上述這套流程下來,我們的系統不僅可以獲得資料,還可以清洗資料。
要做到資料去重和清洗,首先要保證資料的獲取量足夠大。此外,還對資料**進行評估,保證資料**的「乾淨」。
我們是乙個僅16人的團隊,所以處理資料更多是依靠機器而非人力完成。我們要賦予機器學習能力,即借助計算機強大的計算能力去發現更多的資料資訊。
依靠機器,使我們保持了較高的工作效率。所需的資料最快半小時,最多1天就能將全部爬完。而這些資料清洗的工作也僅依靠3、4個人便能完成。
除了提高效率,機器學習還具備三個功能:
資料補全:從網上爬下來的資料很多質量不高,而資料補全功能就是在當資料不完整時,可以根據已有的資料去推測估算缺失的資料;
新資料:在缺少某種資料時,可以從已有的資料提取生產出新資料。就像通過影像資料可以提取建築資料;
資料生長:從現有的資料中,可以提取出某些資料內在的規律,根據規律生產新資料。憑藉完整的流程設定和機器學習,目前我們獲得資料量是非常可觀的,僅以位置資料為例,目前geohey的位置資料總量將近8億,位置資料年平均增量達到了58%。同時,我們還對資料實行週期更新,更新頻率從小時到每季度不等。
當資料被掌握了之後,我們可以用它做哪些事情呢?這就是乙個發掘地理大資料價值的過程,我想通過三個案例來介紹。
1. 用大資料來展現,哪家運營商的4g訊號好?
如何用地理大資料判斷**的4g訊號哪家強?作為非專業人士,面對這個問題很難回答。不過,我們通過挖掘地理資料,能夠給出答案。
首先,萬事開頭找資料。
那麼這些資料從**挖掘呢?我們都知道,作為通訊運營商,訊號離不開通訊基站的支援,每個通訊基站上都有乙個感測器,傳輸的訊號資料便可以被我們獲取,來判斷移動、電信和聯通三家運營商的4g訊號差異。
對此,我們採集了7500萬通訊基站的資料。(dt君注:在現場,高楠還演示了上圖右邊的這些資料採集後的三維視覺化效果。)
在不同區域不同運營商的4g訊號強度是不同的。比如,電信的資料應用最普遍且訊號強度最高,而在北方尤其是東北地區,聯通則更加強勢,訊號也要明顯電信和移動兩家運營商。
除了判別不同地區4g訊號的差異,我們還能看到不同運營商的訊號覆蓋密集程度。以西南地區的貴州省為例,在當地除了移動一家獨大之外,訊號的密集程度也明顯要低於中東部地區。從側面來看,這也說明貴州省的基站分布不均,對於各大運營商而言,依舊存在競爭的可能。
所以,當你吐槽4g訊號不給力的時候,不妨拿出這張圖,看看你在哪個位置,在用哪家運營商的網路服務。
2. 為商業服務,大資料可以幫助星巴克開下一家店
地理大資料的商業應用,則可以直觀體現在店鋪選址上。我們就拿星巴克如何開下一家店這個命題來舉例。
首先,要判斷星巴克此前的選址偏好以及消費人群結構,這樣就能了解你會在哪兒遇見星巴克,又能在星巴克遇上哪些人。
舉個栗子,交通便利的路段容易獲得星巴克青睞,而消費人群中又有20%的商旅乘客。
還記得之前提到的機器學習嗎?在星巴克選址上,我們能不能通過機器學習的方式去獲得選址的解決方案呢?
通過機器,以北京的星巴克門店為例,根據不同交通工具的通勤時間情況,我們找到了星巴克門店的輻射範圍,也能比較出各家門店輻射範圍的重疊(注:以下展現的是演示資料)。
然後我們通過機器學習,發現了星巴克的「朋友圈」(dt君注:也就是星巴克之前開的店,老是跟哪些其他品牌店鋪在一起)。
這個「朋友圈」的一些秘密,通過這張結構圖可以體現出來(注:以下是演示資料,不是真實分析結果):
上圖中,以星巴克為中心的朋友圈,連線越粗,關係越親密,比如肯德基與麥當勞,兩者緊密相連,各自的產品也頗為接近。而麥當勞和肯德基,和星巴克之間的關係則是比較弱的。相比較之下,同樣被人熟知的咖世家(costa),無論從客群構成到店鋪規模,再到產品定位都與星巴克極為相似,兩家極有可能出現在鄰近的地方。
那麼按照大資料的學習方式,如果我看到一家costa咖啡店附近沒有星巴克,是不是這裡就可以開一家呢?
不過,geohey開發出的地理大資料產品,目前並不直接面向市場終端消費者,作為為企業決策提供地理大資料服務的機構,我們的產品是面向b端。這就意味著,從這座金礦中淘到的金,普通消費者要感受到地理大資料的價值,至少需要一道其他的「加工手續」。
3. 避免看病難,大資料提供一些解決方案
看病難一直是個困擾多數人的問題。如何破解這個問題?
我們採集了全國三甲醫院的資料,包括就醫資料、醫生資料情況等。根據這些採集的資料進行分析,我們能夠得出這些結論:
首先是三甲醫院的地域分布不均,全國80%的三甲醫院被20%的城市瓜分。和三甲醫院分布不均的還有教授醫師的數量,20%的城市佔據了全國85%的教授醫師資源。其實,大家普遍吐槽的看病難其實就是集中前往大城市的三甲醫院尋找教授醫師看病造成的。
另外,結合就醫資料,我們還可以得出一些普遍性的結論,其實在乙個城市裡頭,忙碌的科室僅佔全部科室的29%。在同城的醫生裡頭,僅有22%的醫生會非常忙碌。
要避免看病難,如無大病,不一定要前往三甲醫院找教授醫師就診。
如何發掘孩子的興趣點
emma vanbergen 我曾與中國的家長多次談到,課外活動的重要性不僅僅在於讓他們的子女申請進入國外頂尖的寄宿學校和大學,同時還在於他們的全面健康發展。但問題是,父母如何知道他們的子女對哪些課外活動感興趣呢?又如何讓孩子對這些課外活動保持熱情,發展興趣呢?解決這個難題,首先要尋找點燃孩子興趣的...
如何高效尋找素數
如果 個數如果只能被 1 和它本 整除,那麼這個數就是素數。返回區間 2,n 中,素數的個數 int countprimes int n 時間複雜度o n 2 int countprimes int n 判斷整數n是否是素數 boolean isprime int n return true 找其他...
如何高效尋找素數
素數的定義看起來很簡單,如果乙個數如果只能被 1 和它本身整除,那麼這個數就是素數。返回區間 2,n 中有幾個素數 int countprimes int n 比如 countprimes 10 返回 4 因為 2,3,5,7 是素數 int countprimes int n 判斷整數 n 是否是...