最近幾年二手車業務發展非常迅猛,大搜車一直做b端的業務,我們在b端裡面4s店的市場占有率已經達到90%以上。今年年初我們覺得時機成熟了,我們就做了彈個車,它是比較典型的汽車金融。無論是車商業務,還是金融業務,都對我們資料採集、資料整理、資料使用提出了非常多的挑戰。而hbase效能比較穩定,也可以水平拓展,很好地支撐了我們的業務。
圖為我們其中乙個資料大屏,它是上海地區彈個車業務乙個小時以內的行駛軌跡,看起來還是比較震撼的。該大屏還有乙個配置的頁面,使用者可以選擇時間、城市,業務同學可以自己配備報表,方便他們對外做一些商務事務。
我們看一下報表是如何實現的。這個報表的資料來源來自車載gps裝置,gps裝置會定時上報一些資料,包括精度、緯度、點火狀態的資料,這些資料會先經過gps上報,會做狀態的管理、里程,之後生成想要的報表,資料到達終點。這個資料會通過資料閘道器,資料閘道器是對外提供產品都要經過的地方,並且會進行系統跟蹤等。車載裝置上傳各種的基礎資料會存到gps。針對這個場景,我們根據時間、城市來查資料,所以我們要對報表單獨建立乙個索引。因為我們在查資料的時候,這個場景只需要精度和緯度,這樣在查資料的時候直接在索引中就可以完成所有資料查詢,不用再回主表,大大減少了產品的耗時。
我們在報表的應用層也做了一些優化,大屏裡面是該地區所有車輛軌跡,這個資料量是非常巨大的,如果直接瀏覽就會卡死,所以我們首先做了分片。剛開始只查詢乙個小時的少量資料,這個資料拿到以後開始渲染,資料請求下一時間段的資料,前端渲染是不停的,後端資料也一直往上堆積,所以我們在開啟頁面的時候可以立即開始整個頁面的展示。另外,因為資料傳輸非常頻繁,使用websocket減少建立 http 請求耗時。
剛才的大屏是離線大屏,而現實中實時業務大屏非常常見,這是彈個車實時成交資料大屏。大屏資料來自我們的業務埋點日誌,大屏當中也會用到基礎的緯度資料,我們直接拉到了mysql,我們內部的計算框架會根據mq進行資料的處理,組裝成我們需要的資料,放到終點phoenix當中。
對汽車金融來說風控是生命線,如果風控搞不好分分鐘就會破產。我們有乙個軌跡監控大屏,通過時間和車輛可以察看車輛在一段時間內的型式軌跡,它的速度、地理位置,還有後台可以設定一些風險區域,比如澳門賭場等正常使用者應該不會去的地方,這些地方出沒的會有一些貸款風險。還有風控模型,gps裡面會把各種資料統計為模型特徵,再交給模型,最後由風控引擎針對這些線上資料判定有沒有特徵,發出報警。
最早裝置是來自廠商上報的,後來因為對接的廠商比較多,發現了一些故障。我們上報到閘道器,包括裝置註冊、狀態維護、里程糾偏,設計運營環境非常複雜,有可能這輛車沒有電了,裡面儲存的資料沒有了,也有可能跑到非常偏遠的地方,沒有辦法上報資料,還有一些上報的里程非常奇怪,本來是兩萬多,突然變成一萬,表現在資料上可能會是非常詭異的點,。針對這部分,我們做了一些清洗,比如說偏移,我們會根據前後一些點的關係做一些資料的過濾。還有里程糾偏,我們對時間做了一些分片,每分鐘都會有乙個點,我們會統計這分鐘結束時間減去起始,計算出真正的里程,可以對這塊資料作出處理,對一天的影響就非常小。我們在這裡花了大量的精力,一大半時間都在清洗資料。
接下來資料通過mq到hbase,實時軌跡、電子圍欄、停留點分析、聚焦分析,這些資料會和材料驗證一塊提供給我們的貸後運維同學來判斷風險。我們發現很多騙貸的並不是個人,而是一些機構,有些村子都是騙貸的團夥,有些是負責偽造材料,有些是負責申請貸款,我們針對這些場景,把每個車的具體情況分析出來,因為正常是面向c端使用者,不應該大量車聚焦在乙個地方。最後這些資料進入到預警後台。
使用geohash先對地球進行二維平面化,把地球分成好多個區域,對每乙個區域再分成32個區域,不斷地細分,讓乙個區域不斷地精確。base32編碼字串,每個字元由5bit 組成。將每輛車的停留點算出來,再把停留點算出geohash值,按照這些區域聚合好選擇聚合的點,算出每乙個點到底有多少輛車,最後形成乙個特徵,生成模型。
資料儲存部分,原始軌跡支援按裝置、時間維度查詢詳細軌跡,查聚集點按區域、時間維度查詢聚集資料。
有些車輛列表大家看到的並不是動態的,會根據流量數量、地理位置來決定乙個智慧型點的排序,這就需要很多特徵、流式計算的場景。全國實時車交資料和報表,產品經理都比較人性化,所有資料都想立刻在報表裡面更新,所以這些也是我們主要的場景。
這些業務特點:
這是資料流,最多的資料還是來自rds,把資料庫的各種資料變更轉化成mq訊息,再加上以前還有很多埋點訊息都會統一到mq。所有資料會在我們計算框架裡面聚合起來,按照我們的業務場景把它放在phoenix裡面,先放到明細資料。我們針對每個場景單獨聚合好,可以直接查詢。還有一些場景計算量很大,會有一些統計資料,以此來支撐我們的線上業務。a、b、c業務通過資料閘道器來訪問資料。
資料合流是我們現在遇到的比較大的問題,有乙個定單表,裡面有金額、品牌等等,需要把所有資料合併到一起提供服務,對流式處理來說這個問題非常棘手,因為資料是流式到達的,而且到達是無序的。我們也做了一些處理,對每乙個處理流裡面立乙個表為主表,每次資料到達的時候會有乙個監測模組,看是否符合合流條件,會從庫裡面檢查資料是否真的到達了,按照業務規則組合資料。這裡也要做優化,並不是直接查,是要經過資料快取。
效能測試方面我們找最低配的集群,master(2c4g)+core(4c8g)×2,資料量:—100million,這對我們場景來說已經綽綽有餘,再加上phoenix效能的拓展非常方便。這些效能測試其實跟效能條件關係非常大,這只是我們內部的測試,更標準的資料還要參考官方的資料。
關於大搜車 無線開發中心 團隊
大搜車無線開發中心持續招聘中,前端,nodejs,android 均有 hc,簡歷直接發到 sunxinyu souche.com 大搜車是一家提供汽車行業數字解決方案的公司,業務範圍覆蓋二手車 新車 租賃 金融 新零售 拍賣等方向,員工現有 4500 多人,擁有多個事業部和子公司。無線開發中心團隊...
大搜車家選二手車狂歡大促,這個雙十一給你想要的折扣
雙十一 大戰已經到來,各大電商平台已經開始緊鑼密鼓的準備,不僅聲量大,而且玩法多。近兩年,雙十一買車已經逐漸成為一種趨勢,二手車新零售平台大搜車家選也在今年首次亮相雙十一狂歡節,開啟 11.11 心意節 帶來線上拆1.1 億紅包 好車直降 到店有好禮等福利活動。今年 4 月,專注於二手車交易的大搜車...
怎樣買到品質二手車?答案就在大搜車家選雙十一心意節
被眾人期待的雙十一狂歡節正如火如荼的進行中,火爆的預售活動開啟後,相信已經有很多人將自己的購物車塞滿,只等雙十一到來支付尾款,清空購物車。在你的購物車裡,不知道有沒有像汽車這樣的大件呢?如今的雙十一,已經成為汽車行業大促的良好時機,而對於不少消費者來說,擁有一輛質量 又相對更便宜的優質二手車就是很好...