大資料學習筆記 城市計算 2

2021-07-11 23:15:23 字數 2404 閱讀 3203

本節介紹大資料能夠怎樣幫助改進城市規劃。這個例子是利用大量計程車的gps軌跡來收集城市交通網路中有問題的設計。

在這個專案中,我們的目標是使用車輛的gps軌跡、路網資料等交通資料來收集城市道路網路中有問題的設計。一些路網設計在很多年前也許是合適的,但是隨著交通流量的增長,這些路網設計可能會過時或者不那麼合適了。所以,我們是否能基於資料自動識別這類設計,然後把這些有問題的設計告訴城市規劃者,以便他們能夠在未來的設計中對其進行改進。這就是這個專案的核心。

所以,目標是對整個城市的交通狀況進行建模,並且基於資料收集城市路網中有問題的設計。這裡我們使用北京連續三年的gps軌跡資料。其中每年的資料都包含30000輛計程車的軌跡。

首先使用主要道路,如環路、高速公路和主幹道,對城市進行劃分。然後,城市被分成不相交的相鄰區域或者以主要道路為界的區域。

這裡,每個區域都攜帶了一些語義資訊,如相鄰區域或者一些社群。人們生活在區域中並往返於區域之間。因此,區域是交通問題的源頭或者根源,而路面上的交通擁堵只是表層的現象。因此,我們著重研究在交通流量方面沒有很好地相連的區域對。

在資料驅動的方法中,我們把一天的時間分成一組時間間隔。

在左邊這幅圖中,黑色的曲線表示一天中不同時間整個城市中車輛的平均行駛速度,紅色的線表示一整天中整個城市中的車輛的平均行駛速度。黑色的曲線被分成了四個時間間隔。用這種方式,我們可以基於所觀察到的交通資料把一天分成四個時間段。同樣的,我們可以把週末的一天分成三個時間段。

我們把每個時間段中車輛的gps軌跡投射到剛才劃分的區域中去。我們就可以做出一張區域圖。

其中,每個節點表示乙個區域,兩個節點之間的條邊表示往返於這兩個區域之間以及駛過這兩個區域的車輛的集合。

對於每條邊,我們可以抽取三個特徵。

我們可以將區域圖中的一條邊表示為三維空間中的乙個點。其中,第乙個維度表示交通流量,第二個維度表示平均行駛速度,第三個維度表示比例比例。我們想要識別一些點,與這些點相連的邊表示的交通流量很大。這是很大的s,很低的速度,以及大的比例,我是指大彎路。人們繞了乙個很大的彎,而且交通流量非常大,行駛速度非常慢。這類區域被認為是沒有很好地被連線的區域。

對「大流量」進行界定

怎麼樣來定義「大」呢?交通流量應該是多大呢?我們沒有任何閾值,要為每個特徵都定義這樣乙個閾值也非易事。這裡我們利用在資料庫領域廣泛使用的skyline操作符技術。

乙個簡單的方法是,首先選擇交通流量高於平均值的邊。然後,我們只關注二維空間。我們想要識別行駛速度很低和比例很大的邊,這意味著是很大的彎。這裡在這個skyline上的點,也就是這條藍色的線,我們稱之為skyline。因為我們在資料集中無法找到其他點,能夠同時滿足比skyline上其他任何點都有更小的e(v)和更大的θ。這意味著,其他被skyline點所支配的圓點。我們找不到比這些邊的行駛速度更低且彎比例更大的邊。

做出每天的skyline圖

我們不能僅僅基於乙個例項來做判斷,所以我們需要檢查多天的情況。

我們檢測skyline點,也就是每天的每個時間段的skyline邊,然後我們就可以把一些圖連線成更大的圖。例如,把r1、r2和r2、r8連線成更大的r1、r2和r8,因為它們在時間上是相鄰的而且在空間上與r2有重疊。但是,對於第乙個時間段中的r1和第三個時間段中的r3,我們不能把它們連線在一起,因為它們在時間上是不相鄰的。使用這種方法,我們就可以做出每天的skyline圖。然後,我們把多天的skyline圖的模式結合起來,以避免錯誤的警告。

錯誤的警告是指,如果只關注一天的資料,那麼有可能是因為交通事故引起的;但是如果乙個問題在多天中頻繁出現,那麼就必然是由設計的問題引起的。

右下角的圖是乙個例子。我們發現r1、r2、r8和r4每三天出現一次。所以,這有可能是乙個問題。這類子圖為我們提供了更多關於單條邊的資訊。我們可以知道問題是怎麼發生的以及問題之間是怎麼相互影響的。

我們從2023年、2023年和2023年的資料中檢測到,顏色越深的區域發生問題的次數就越多,因為問題是使用一些區域對或者區域圖表示的。

一 我們發現北京的望京區域存在乙個問題。但是,這個問題在2023年消失了。

問題是這樣的。因為很多人想要穿過兩個區域進入北京的四環路。所以出現了問題。但是,後來這裡有一條路擴建了。給人們提供了進入四環路的另乙個選擇。後來,我們發現這個問題消失了。

在這個例子中,我們看到,這條路的擴建對於解決望京地區的交通擁堵發揮了作用。換句話說,從一年中產生的資料,我們可以發現城市中的問題;通過對比從連續兩年的資料得到的結果,我們可以檢驗我們所做的城市規劃是否發揮了作用。我們可以對城市規劃進行評價,例如,當新建了一條路或者乙個地鐵站時,評估這一基礎設施是否真的能夠幫助我們的城市變得更好。 二

我們還發現了一些不但沒有解決,反而變得更加嚴重了的問題。

這個地方是乙個近年來越來越受歡迎的購物中心,但是這個區域周邊的道路設施並沒有改善。可以看到,顏色變得越來越深了,問題變得越來越嚴重了。我們可以對城市規劃者提出有關這類問題的建議,以便他們能夠在未來解決這些問題。

附: 基於計程車資料的城市交通計算**:

大資料學習筆記 城市計算 1

線資料 這幅圖展示了北京的路網。其中,紅色的線表示連線北京和其他城市的高速公路,藍色的線表示北京的環路,黑色的線表示北京的主幹道。有了連續幾年的資料,你們可以看到乙個城市的路網是如何擴張的。第二部分大資料報括五個其他資料來源 氣象資料,如颳風 溫度 濕度等 交通流 人的移動性資料 興趣點的資料,如這...

大資料讀書筆記 2 流式計算

早期和當前的 流式計算 系統分別稱為 連續查詢處理類 和 可擴充套件資料流平台類 計算系統。流式計算系統的特點 1 低延遲 2 極佳的系統容錯性 3 極強的系統擴充套件能力 4 靈活強大的應用邏輯表達能力 目前典型的流式計算系統 s4,storm,millwheel,samza,d stream,h...

大資料高併發學習筆記(2)

對於大資料問題,最終都會反饋到資料瓶頸上。那麼今天就是搞得資料庫啦!木桶理論 桶裝水能力是由最短的那塊板決定的。在乙個系統中,或者說是乙個企業裡,資料時最重要的。所以我們是一定要保證資料的正確性,唯一性。資料 二八原則 80 的請求聚焦在 20 的資料上。80 的請求都是查詢 20 是增刪改。讀寫分...