關於人工智慧的小知識總結

2021-08-09 22:48:56 字數 552 閱讀 9690

1、q-learning和policy-gradient有什麼區別?

q-learning 基於值函式估計的強化學習方法,policy-gradient是一種策略搜尋強化學習方法。與機器學習中的方法做模擬,前者可以與樸素貝葉斯作模擬,通過估計後驗概率得到**,後者可以與svm作模擬,不估計後驗概率而直接優化學習目標。

關於解空間的問題:

解空間(策略空間)不是由求解方法確定的,而是由策略模型確定的。兩者可以使用相同的模型,例如,相同大小的神經網路,這時,他們的解空間是一樣的。

q-learning在離散狀態空間中理論上可以收斂到最優策略,但是收斂速度可能極慢。policy-gradient可以解決q-learning在連續空間和高維度上不能收斂的問題,使用的是梯度方法來求解,缺點是,只能收斂到不動點(區域性最優),不能證明收斂到最優策略。

2、alphago 用了哪些人工智慧技術?核心技術有哪些?

alphago的大腦分成了四個部分:快速感知腦、深度模仿腦(12層的deep learning)、自學成長腦(reinforcement learning)、全域性分析腦。使用了蒙特卡洛樹的搜尋策略。

人工智慧的相關知識

1.anaconda jupyter 執行快捷鍵 shift 回車 2.線性回歸 必須匯入五個庫 同時也匯入如下兩個庫 3.logistic回歸 是最基礎的 分類演算法 備註 如果資料集要求利用線性回歸去操作,則盡量使用分類演算法 logistic回歸 logistic回歸是一種分類演算法特性 模型...

小總結大資料和人工智慧

大資料 雲計算和人工智慧是當下比較熱的it方向,bat都有了雲,都有了ai部門,各有優勢,也不可避免的產品功能同質化。移動網際網路產生的大量資料,促使大資料的發展,大資料的發展又和雲計算相互促進,這兩個的技術進步又帶動ai的發展。技術相互促進,不一定什麼時候應用到某個領域就是乙個風口。資本和 的介入...

關於人工智慧(AI)

前言 雖然已經幹了快10年軟體了,不過剛剛才在csdn上註冊。其實以前也註冊過乙個賬戶,但是嫌 速度太慢,所以就荒廢了。現在突然發現不覺得網速太慢了 雖然現在其實也很慢 我想可能是因為我有了越來越多的能用於思考的時間了,呵呵。談談人工智慧吧。人工智慧這個學科就和數學中的數論一樣 其立論極其簡單,任何...