從evernote搬家過來,希望可以分享給更多的同學。
euclidean distance and pearson correlation score
from imp import reload 來定義reload。
經過recommendations.py,可以發現:選擇不同的相似性度量方法,對結果的影響是微乎其微的。
我們所要做的全部事情就是:建立乙個涉及人員、物品和評價值的字典,然後就可以藉此來為任何人提供建議了。
兩種過濾技術:user-based collaborative filtering, item-based collaborative filtering.
data clustering: 一種用以尋找緊密相關的事、人或觀點,並將其視覺化的方法。
supervised learning methods: 利用樣本輸入和期望輸出來學習如何預期的技術。
unsupervised learning 之一:聚類。目的是要在一組資料中找尋某種結構,而這些資料本身並不是我們要找的答案。其他無監督學習的例子還包括non-negative matrix factorization and self-organizing maps
hierarchical clustering: 通過連續不斷地將最為相似的群組兩兩合併,來構造出乙個群組的層級結構。其中的每個群組都是從單一元素開始的。在每次迭代的過程中,分級聚類演算法會計算每兩個群組間的距離,並將距離最近的兩個群組合並成乙個新的群組。這一過程會一直重複下去,直到只剩乙個群組為止。通常待分級聚類完成之後,我們可以採用一種圖形化的方式來展現所得的結果,這種圖被稱為dendrogram。
(第三章聚類因源資料問題,先暫緩學習)
information retrieval
urllib2在python3已拆分更名為urllib.request和urllib.error
python3的urllib包含5個模組:
棧溢位:由於緩衝區溢位而使得有用的儲存單元被改寫,往往會引發不可預料的後果。向這些單元寫入任意的資料,一般只會導致程式崩潰之類的事故,對這種情況我們也至多說這個程式有bug。但如果向這些單元寫入的是精心準備好的資料,就可能使得程式流程被劫持,致使不希望的**被執行,落入攻擊者的掌控之中,這就不僅僅是bug,而是漏洞(exploit)了。
集體智慧型程式設計學習筆記 更新
本人是python初學者,本系列用來熟悉python和記錄學習點滴 度量 引數 函式 名詞 注意 第二章 推薦演算法 語言python 步驟 1 數值化 將屬性的值對應到數字,如喜歡 1不喜歡 1 已購買2,已瀏覽1未購買0 2 相似度係數 用來確定與其他人評委的相似程度的度量。常用兩種度量 歐幾里...
《集體智慧型程式設計》學習筆記(一)
先構造乙個簡單的資料集 使用者對不同電影的評分 critics gene seymour michael phillips claudia puig mick lasalle jack matthews toby 評價值特點 歐幾里德距離 多維空間中兩點之間的距離,用來衡量二者的相似度。距離越小,相...
《集體智慧型程式設計》學習筆記(一)
先構造乙個簡單的資料集 使用者對不同電影的評分 critics gene seymour michael phillips claudia puig mick lasalle jack matthews toby 評價值特點 歐幾里德距離 多維空間中兩點之間的距離,用來衡量二者的相似度。距離越小,相...