傳統資料庫無法滿足的痛點
在mysql中,我們根據關鍵字去搜尋一般都是like %~~%,但是這樣搜尋的效能是很低的,因為沒有走索引。
相關性搜尋,電商**中的根據瀏覽記錄做的商品推薦,在海量資料下直接查詢資料庫也是無法做到快速反應
倒排索引
類似這樣的資料結構,它是把值作為索引,比如說搜尋「我」的時候,在字典樹中先找到「我」,然後再查詢到id=1跟id=2的所有記錄,那麼這兩篇文件就找到了,搜尋「程式設計師」,得到id=2,然後再查詢id=2的所有記錄,那麼「我是程式設計師」這篇文件就找到了。
基於lucene的搜尋引擎有elasticsearch跟solr,實際上就是對文件進行分詞實現快速查詢功能,在實際應用中可以通過定時器把文件從mysql同步到elasticsearch或者solr,然後查詢的時候就直接查詢elasticsearch或者solr
機器學習原理個人總結
1 用自己的話說明機器學習的四大分類 classification 分類 clustering 聚類 regression 回歸 dimensionality reduction 降維 1 回歸是對已有的資料樣本點進行擬合,再根據擬合出來的函式,對未來進行 商品 走勢的 就是回歸任務。2 分類需要先...
降維PCA原理個人總結
pca是一種經典的降維方法,基礎的pca是一種線性的降維,本質是線性座標變換,經典的pca目標優化解釋思路有兩種 一種是單個維度上方差最大化,另一種是採用最小二乘線性回歸的思想最小化樣本點到超平面的距離。這裡普及下協方差,方差的定義。協方差刻畫的是資料 兩個變數 的相關性。資料的方差指的是 資料樣本...
Weak 原理 個人學習總結
weak簡單來說是乙個雜湊表,key為修飾物件的位址,value為指向該位址的指標陣列。weak是由runtime初始化並維護的乙個weak表。在runtime的原始碼中由乙個objc weak檔案中進行定義了weak表的結構體及相關的方法。其中結構體中定義可乙個table weak t的乙個wea...