我經常遇到著迷於深度學習、壓縮分類和自動駕駛汽車的資料科學團隊,它們渴望運用當下流行的演算法。比如說,我最近在與一家大型金融機構合作,共同加強其網路安全;我們甚至還沒有開始基本的監控,我團隊中的一名資料科學家就在談論k-均值聚類和神經網路。
我們要始終記得先要了解問題和機會,然後運用正確的系統或演算法。有時候,自學習神經網路可能是最佳的選擇;而有時候,你得採用經典的技術:專家系統。
專家系統是一種基於規則的引擎,它基於專家們的集體智慧型。它是人工智慧(ai)領域歷史最悠久的創新之一,實際應用可以追溯到上世紀70年代。
資料科學界經常開玩笑說,專家系統好比是過時的恐龍,它們很有意思,但是就現代應用而言不切實際。我完全不同意,人工智慧領域沒有哪一項進步完全取 代得了專家系統的功能和效用。此外,由於專家系統已存在相當一段長的時間,你可以運用久經考驗的最佳實踐。下面是使用專家系統、讓你開始入手的六個最佳實 踐。
1. 徵集需求
構建一套專家系統最困難的部分就是,與實際的專家們見面討論。與任何終端使用者見面討論已夠困難了,而你專案需要的那些專家是非常特殊的終端使用者,每個人都想要與之討論。在徵集需求之前,要徵得管理層的同意,批准你與專家們見面討論。
比如說,我在接觸一家跨國交易處理公司時,整個公司只有五六個人知道交易網路的內部結構。如果你沒有讓管理層承諾專家到時抽出時間,那麼你休想與他們談論15分鐘以上。
2. 進行分析
盡量少花時間在分析上。忍住對專家訪談進行定性分析的衝動,這沒有必要。
專家系統旨在進行自己的分析。艱苦的工作在分析中並不多,難就難在框架的搭建和微調上。在這方面,它類似神經網路。你的任務就是告訴系統如何思考,然後讓系統為自己處理思考任務。
3. 設計框架
將冗餘性(verbosity)設計到你的專家系統框架中。專家系統由兩個基本部分組成:知識庫和推理引擎。知識庫負責儲存關於設計領域的事實,而推理引擎負責將歸納(正向鏈)推理和演繹(反向鏈)推理運用到知識庫中的事實。
這兩個系統都必須精心設計,讓你可以了解專家系統在想什麼。你需要非常詳細地了解專家系統知道的情況,以及它如何得出結論。先進系統更側重於採用自然語言介面――這是我支援的乙個最佳實踐。
4. 開發系統
開發速度要快。與分析一樣,如果你在開發方面花了大量的時間,那麼做法不當。你唯一要開發的東西就是框架(知識庫和推理引擎)。暫時盡量避免編寫程式**。
然而,要從長計議。在程式**可以取代框架推理的地方構建介面。雖然將程式**換成基於框架的推理有悖於大眾的看法,但是一旦規則得到了全面審查,它就是你專家系統的一種實際延伸。程式**讓你有機會大大加快執行,這對許多應用程式(比如嵌入式系統)來說更切實際。
5. 訓練系統
不要低估了合理訓練專家系統所需要投入的時間、精力和專家數量。我使用「訓練」這個詞很寬泛――專家系統嚴格上來說並不是一種學習系統。但是,決定 專家系統成敗的卻是領域知識以及它如何進行推理。專家必須是這個過程的一部分,因為一旦饋送了需求徵集階段收集的資訊,專家就需要微調引擎。
這時候,情況變得有意思起來。讓乙個專家解釋過程原本夠難的,更不用說讓一組專家就合適的過程達成共識了。到頭來這是值得的,但是勤奮和耐心在這個階段會給你帶來好處。
6. 改進系統
結束語
儘管種種新奇的系統和演算法湧入資料科學界,但使用一種有幾十年歷史,並久經考驗的解決方案:專家系統根本不會錯。別因為設計的簡潔性而誤以為它過時或無效,事實恰恰相反。
只要你能找到合適的專家,就可以立即搭建起一套專家系統;與此同時,其他資料科學家仍在為壓縮分類絞盡腦汁。掌握了這裡給出的幾個要點,以及你自己汲取的經驗教訓,你可能自己都沒意識到,就成了專家系統的專業人士。
原文發布時間為:2023年9月21日
人工智慧創新有望解決大資料難題
我經常遇到著迷於深度學習 壓縮分類和自動駕駛汽車的資料科學團隊,它們渴望運用當下流行的演算法。比如說,我最近在與一家大型金融機構合作,共同加強其網路安全 我們甚至還沒有開始基本的監控,我團隊中的一名資料科學家就在談論k 均值聚類和神經網路。我們要始終記得先要了解問題和機會,然後運用正確的系統或演算法...
人工智慧與大資料
現在,沒有什麼流行詞比大資料和人工智慧更常見了。無數的分析家向我們保證,將從根本上重塑我們的日常生活。事實上,對於圍繞人工智慧和大資料的所有討論,很少有人提到這兩種新興技術的融合,尤其是在解釋人工智慧為什麼迫切需要大資料以取得成功的時候。這是人工智慧和大資料操作之間的秘密聯絡,以及這兩種新興趨勢將如...
大資料未來 超級人工智慧?
一 理解大資料 1 當前 大資料的四大特徵 規模大 變化快 種類雜 價值密度低。2 產業成果 二 大資料到大資料計算 1 大資料膨脹,如何處理演算法以及資料的問題?上面提到的是通過改變演算法來達到遍歷資料的目的,但是在真正處理資料時依然是無法做到高效的,畢竟機器cpu的運算瓶頸擺在那裡,演算法工程師...