大資料學習筆記 城市計算 1

2022-08-23 14:27:14 字數 2970 閱讀 1388

線資料 

這幅圖展示了北京的路網。其中,紅色的線表示連線北京和其他城市的高速公路,藍色的線表示北京的環路,黑色的線表示北京的主幹道。有了連續幾年的資料,你們可以看到乙個城市的路網是如何擴張的。

第二部分大資料報括五個其他資料來源:氣象資料,如颳風、溫度、濕度等;交通流;人的移動性資料;興趣點的資料,如這裡的餐館數量、工廠數量,乙個特定區域的建築物密度;以及路網資料,如乙個給定區域有多少個路口,多少個交通訊號燈,高速公路里程是多少。

資料缺失和稀疏性 

我們只有抽樣資料,基於抽樣資料生成整個資料的真實分布是乙個挑戰。

有偏分布 

我們有部分使用者的一些簽到資料,但是我們要獲得整個城市範圍內的人的移動性模式。很顯然,這些抽樣資料並不是城市範圍內真實的人的移動性模式。這就是所謂的有偏分布。

有限的** 

我們只有有限的資源、預算或者人力來鼓勵人們貢獻他們的資料。 

例如,我們有計程車的軌跡資料,但是我們想要估計路面上所有行駛車輛的交通流。計程車的分布可能不同於所有車輛的軌跡分布。所以,我們需要基於抽樣資料生成整體交通分布的能力。 

城市空氣專案中,我們在城市中只建立了有限數量的空氣質素監測站。我們只有從這些空氣質素監測站獲得的樣本資料。這些資料是非常稀疏的,但是我們想要復原整個城市的資料。 

有兩種型別的資料收集策略。第一種策略是靜態感知,即在固定位置部署一些感測器。這種策略的問題是在什麼地方部署站點可以最大化知識的收益。第二種是動態激勵,對於基於群體感知的策略,我們想要把正確的激勵放到正確的地方以獲得更多的資料。

城市資料管理中的挑戰

多模態資料 

這些資料有不同的表示形式、使用不同的單位,具有不同的密度。

動態、高速、海量的資料 

我們必須考慮如何頻繁地更新資料。

在城市空氣專案中,我們需要使用五個不同的資料集,包括氣象資料、交通資料和興趣點資料。這些資料是完全不同的。它們都是多模態資料,具有不同的度量、密度和表示方法。大部分資料都有相關聯的空間和時間資訊。其中一部分是類別資料,另一部分是數值資料。所以,在這個專案中,我們需要快速提取給定時間段內給定區域中的各種資料。我們需要索引結構來更好地管理多模態資料。

另外,我們需要考慮資料的更新頻率和資料量。首先,資料更新非常頻繁。所以我們需要一些靈活的索引結構,以便資料能夠非常頻繁地更新。其次,不同資料集的更新頻率是不同的。如果我們簡單的把不同型別的資料集組織到乙個資料索引結構中,那麼就會面臨一些大的挑戰。當一類資料集中的乙個資料片有了更新時,我們就需要更新整個資料結構,這將會是乙個災難。第三,資料是海量的。我們無法在一台機器上儲存所有資料。所以如何把資料分組並分布到不同的機器上,以便進行平行計算是資料管理的乙個新挑戰。

識別不同領域的多個資料來源之間的關聯模式 

跨多個領域的關聯模式背後有巨大的價值。識別這樣的關聯模式非常有挑戰。

首先,這裡面沒有清晰的交易概念。例如,超市的交易記錄中會記錄人們同時買牛奶、麵包和尿布。但是,這裡我們有不同的資料來源,其中並沒有清晰的併發的概念。所以我們必須定義不同資料來源的併發的含義是什麼。第二個原因是我們有很多資料來源,每個資料來源都有很多屬性,所以不同的資料來源和不同的屬性就可能有很多種組合。這是乙個非常耗時的過程。第三,我們需要處理不同模態之間的交叉。發現不同類別之間的交叉非常容易。這就是傳統的關聯規則方法處理交易資料的方式。但是,如果數值資料和數值資料在一起或者數值資料和類別資料在一起,那麼是什麼樣的呢?這是乙個我們需要解決的新挑戰。

城市資料分析中的挑戰

空間和時空資料分析 

傳統的資料探勘和機器學習技術通常是處理文字和影象資料的。但是現在我們有空間和時空資料。這是乙個我們需要去探索的新領域。

跨域資料融合 

我們有跨多個域的多個資料來源。如何從來自不同域的多個資料集中釋放知識的力量是乙個新的挑戰。這也是乙個端到端的服務,需要整合不同的技術,包括機器學習、資料管理和視覺化。我們需要把這些技術聚合在一起。(更多關於跨域資料融合的內容在下文)

城市資料輸出中的挑戰 

它必須是城市範圍內的動態的決策制定和服務提供。它不能只是乙個路段上的服務。這是乙個城市範圍內的服務,它需要影響人們的決策制定。

為**未來使用一些服務,為理解歷史使用一些服務。 

例如,我們想要推斷整個城市的細粒度的空氣質素。這可以作為乙個服務,用來理解城市中當前的空氣質素。我們還可以**未來的空氣質素。所以,這是一種對未來的理解。有時候,我們需要看看歷史來理解我們的資料。例如,什麼是城市中空氣汙染的根本原因。

人們乘坐地鐵時需要刷卡進出地鐵站。刷卡資料是被動產生的。我們可以聚合不同人產生的資料來搞清楚地鐵系統中的流量。之後,我們可以分配正確的資源或者對地鐵進行重新排程以更加有效地搭載更多的乘客。

參與式感知或者主動感知 

人們主動提供他們的資料。他們知道資料是什麼,也知道任務的目的。

他們提供了gps手機的移動速度。隨後,我們聚合個人使用者的資訊。然後,我就可以理解整個城市的交通模式。人們知道他們的資訊會被用來 

幫助理解交通狀況。

融合不同特徵水平的資料。我們從不同資料集中提取特徵,把資料收集在一起作為乙個新的特徵向量並把他們作為乙個分類或者資訊檢索任務。高階的基於特徵水平的融合方法使用深度神經網路學習從不同資料集中提取的特徵的新的表示。

基於語義含義的方法。我們需要理解資料的語義含義。這類方法有四個子類。 

多視角學習。我們把不同資料集看成是同乙個物件的不同視角。通過融合不同物件的視角,我們能夠更好地理解物件。協同訓練是乙個多視角學習的例子。

基於概率依賴的方法,如圖模型。每個節點表示乙個變數,邊表示概率依賴。

基於相似度的方法,如聯合矩陣分解、聯合張量分解或者可感知情境的張量分解。我們理解不同條目或者不同物件之間的相似性。所以,我們想要基於乙個物件和其他物件之間的相似性填充這個物件的缺失值。

基於轉移學習的方法。我們想要把a領域中的知識轉移到b領域,如從交通資料中轉移到空氣質素資料中。

2. 城市空氣專案**:

大資料學習筆記 城市計算 2

本節介紹大資料能夠怎樣幫助改進城市規劃。這個例子是利用大量計程車的gps軌跡來收集城市交通網路中有問題的設計。在這個專案中,我們的目標是使用車輛的gps軌跡 路網資料等交通資料來收集城市道路網路中有問題的設計。一些路網設計在很多年前也許是合適的,但是隨著交通流量的增長,這些路網設計可能會過時或者不那...

大資料學習筆記1

文件分類 通常文件中最常出現的詞都是無意義的常用詞,而關於主題的詞語通常出現的並不多,但又不是所有少見的詞都有用。1.找出跟主題相關的重要詞彙 2.計算tf.idf,度量給定詞語在少數文件中反覆出現程度的形式化指標稱為tf.idf term frequency,inverse document fr...

大資料筆記1

spark實現平行計算 把超大的資料集合分成n個分塊的資料集,用m個執行器 mspark是一種分布式並行處理計算框架,與hadoop聯合使用,增強hadoop的效能,增加記憶體快取 流資料處理 圖形處理等高階的資料處理能力。spark的中間結果儲存在記憶體上,在迭代計算方面擁有更好的效能,而mapr...