為什麼說 NLP 將會是資料處理的核心?

2021-08-21 20:22:06 字數 1783 閱讀 4055

在以大資料、雲計算為背景的技術框架支撐下,網際網路發展極為迅速,過去乙個技術或者行業熱點從誕生到消亡需要幾年乃至更長的時間,但是最近幾年,其生命週期在不斷縮短,大多數的熱點從產生到消亡只需要1-2年,有些僅僅是半年甚至幾個月的時間。

首先,我們從中國網際網路的四大浪潮說起。網際網路從2023年誕生(加入國際網際網路)到現在才短短的24年,就在這24年裡,我們經歷了四次非同凡響、一次比一次更徹底的發展大高潮。

第一次網際網路大浪潮(2023年—2023年),以四大門戶和搜尋為代表,能做**的工程師就可以被稱為技術牛人;

第二次網際網路大浪潮(2023年—2023年),從搜尋到 pc 端社交化網路的發展,我們的社交形態發生了根本的變化,從線下交流正轉變為線上交流,大量的資料開始生成;

第四次網際網路大浪潮(2015—至今),是在前三次發展基礎上,以大資料、雲計算為背景發展起來的人工智慧技術革命,分布式計算讓大資料處理提速,而昔日隕落的巨星深度學習此刻再次被喚醒,並很快在影象和語音方面取得重大突破,但在自然語言方面卻顯得有些暗淡,突破並不是很大。儘管有很多人都去從事計算機視覺、語音等方面的工作,但隨著 ai 的繼續發展,nlp 方向正顯得越來越重要。

接著,我們總結一下資料領域成就和挑戰。

有乙個不可否認的事實,當前從事網際網路的人們已經製造出了海量的資料,未來還將繼續持續,其中包括結構化資料、半結構化和非結構化資料。我發現,對於結構化資料而言,在大資料、雲計算技術「上下齊心」的大力整合下,其技術基本趨向成熟和穩定,比如關係型資料庫以及基於 hadoop 的 hdfs 分布式檔案系統、hive 資料倉儲和非關係型資料庫 hbase,以及 elasticsearch 集群等資料儲存的關聯式資料庫或者 nosql,可以用來管理和儲存資料;基於 mapreduce、spark 和 storm、flink 等大資料處理框架可以分別處理離線和實時資料等。而半結構化、非結構化的資料,除了以 elk 為代表的日誌處理流程,過去在其它限定領域基於規則和知識庫也取得了一定的成果,因其自身的複雜性,未來更多領域應用都具有很大的困難和挑戰。

最後,我們看看國內外人工智慧領域的工業現狀。

在2018全球人工智慧技術大會(gaitc)大會上,從中國科學院院士姚期智提出人工智慧的新思維開始,其重點講述了人工神經網路為代表的深度學習以及量子計算機將是未來發展的新思維;緊接著中國工程院院士李德毅分享了路測的學問——無人駕駛的後圖靈測試,提出未來無人駕駛挑戰應該是讓無人駕駛具有司機的認知、思維和情感,而不是當前以 gps 定位和動力學解決無人駕駛的問題;接下來微軟全球資深副總裁王永東向我們展示的微軟小冰,大家一起見證了微軟小冰在社互動動、唱歌、作詩、節目主持和情感方面不凡的表現,而本人也真實測試了一下,小冰現在的表現已經非常優秀了。然而要達到乙個成年自然人的水平,在某些方面還不能完全表現出人的特性。下面這幅圖是微軟小冰的個人介紹。

為什麼說未來資料領域的核心是中文自然語言處理?

正是基於上面對中國網際網路發展的總結,對當前資料領域所面臨的挑戰以及資本市場對人工智慧的認可分析,未來資料領域的重點是自然語言處理技術及其在智慧型問答、情感分析、語義理解、知識圖譜等應用方面的突破。對於我們國內中文來說,如何更好的把前面所說的應用在中文處理上,顯得更為重要和急迫。

為什麼GAN不能處理離散的資料

最初的 gans 僅僅定義在實數領域,gans 通過訓練出的生成器來產生合成資料,然後在合成資料上執行判別器,判別器的輸出梯度將會告訴你,如何通過略微改變合成資料而使其更加現實。一般來說只有在資料連續的情況下,你才可以略微改變合成的資料,而如果資料是離散的,則不能簡單的通過改變合成資料。例如,如果你...

為什麼說大資料技術的核心是Map技術

大資料核心技術 map技術 彭文偉前言 大資料處理關鍵技術一般包括 大資料採集 大資料預處理 大資料儲存及管理 大資料分析及挖掘 大資料展現和應用 大資料檢索 大資料視覺化 大資料應用 大資料安全等 而以上這些關鍵技術都離不開底層的應用技術,鍵值對map的效能。對於c 程式來說 map的使用無處不在...

為什麼說資料庫版本控制是必須的

原文 為什麼說資料庫版本控制是必須的 原文出處 黃釗吉csdn部落格 為什麼說資料庫版本控制是必要的 開發過程中的版本控制非常常見,但在資料庫的世界來說,版本控制就是二等甚至三等公民了。當多人同時開發乙個資料庫管理和應用系統時,採用合理的方法監控資料庫中表 儲存過程和檢視等物件的變動是非常重要的,每...