from: kirk borne
資料科學的發展日新月異,正深入我們生活的方方面面。資料科學改變了我們探索世界,與世界互動的方式,而且資料科學的演算法和應用也在持續發展。我們期待這一趨勢繼續,因為資料科學對人類產生了日益深刻的影響。在這裡我們描述的是資料科學領域中我們參與的未來幾年即將出現的一些趨勢與應用。
資料科學演算法的進步可以追蹤那些資料科學家所使用的用來表示他們研究領域的資料結構和資料模型的發展。可以反映這種聯絡的乙個最明顯的例子是部署在圖形資料庫(包含網路資料和語義聯絡的資料庫)中的大規模圖分析演算法的應用。人們有時候說,「整個世界是乙個圖」,因此最自然的資料結構不是由行列構成的表,而是由點和邊構成的網路圖。圖形分析方法包括了傳統的機器學習方法。
另乙個資料科學演算法增長的領域是地理空間時間**分析,能夠應用在任何涉及空間位置和時間的資料集,而這包括了我們生活的一切。我們希望在法律執行、氣候變化、災難控制、人口健康,社會變遷等更多領域越來越多地進行這一方法的高階部署。
很明顯,更大更快更複雜的資料集需要更快(超快)的分析。我們期盼著利用先進技術優勢如量子機器學習、記憶體資料運算和基於專門裝置(gpu等)的機器學習等的先進資料科學演算法出現。在這些商業裝置中,我們希望開發更多的嵌入式機器學習演算法(尤其是深度學習),在資料收集時刻能夠執行時間要求嚴格的資料到洞察的轉換。隨著物聯網(iot)的出現,包括工業物聯網和一切網際網路,這一應用場景將會極大豐富。
認知機器學習也取得了新進展,包括開源和開發可配置演算法,能夠用來探索流式實時資料的全部內容,上下文和語義意義。使用360度情景的能力使其在正確的時間,正確的地點,正確的語境下做出正確的行動-這是認知分析的本質。另乙個考察認知分析的方式是,針對某乙個物件或種群,演算法能夠找到你應該問你的資料的正確的問題(這可能不是以傳統的方式問的問題)。
資料科學發展的另乙個領域,跟特定的資料型別有關的,是非結構化資料,尤其是文字。這種非結構化資料的增長是驚人的,因為在自然語言中有著比**中數字更多的含義,所以需要比數值型演算法更豐富的演算法。面向非結構化資料的資料科學新演算法將適用於多個方向。自然語言生成將用於將資料點轉換為文字,可以用來自動生成資料的故事。結構化資料庫生成將文字文件或其他非結構化資料轉換為資料點(即將定性資料轉換為機器可計算的定量資料)。
所有這些技術進展,加上那些我們想象不到的,將會被引進以支撐我們的新領域。
機器學習即將在未來幾年被應用的一些最熱門的,最關鍵的領域有:
資料科學 什麼是資料科學?
資料是現實世界運轉留下的痕跡。這些痕跡如何展示出來,則取決於我們採用什麼樣的資料收集和樣本採集方法。將具象的資料轉化為抽象的資料,過程是絕對主觀的。統計推斷 關注的是如何從隨機過程產生的資料中提取資訊。關於建模資料即資訊,不需要模型,了解相關性就夠了。anderson 這是錯誤的想法。什麼是模型 模...
資料清洗 資料科學
資料清洗 data cleansing 指刪除 更正資料庫中錯誤 不完整 格式有誤或多餘的資料。資料清洗不僅僅更正錯誤,同樣加強來自各個單獨資訊系統不同資料間的一致性。專門的資料清洗軟體能夠自動檢測資料檔案,更正錯誤資料,並用全企業一致的格式整合資料。wikipedia 資料清理的第一步是從資料集中...
資料科學之路
先放一張技術路線圖,然後每天更新一點東西,用於複習和鞏固 1.基礎部分 a.矩陣和線性代數基礎 矩陣是什麼?數學上,乙個m n的矩陣是乙個由m行n列元素排列成的矩形陣列。矩陣的加法,要求兩個矩陣或者是多個矩陣,要求所有的矩陣的列和行都是一樣的,例如都是3x2的矩陣,或者是5x8矩陣。矩陣的加法就是將...