大規模商品挖掘計算

2022-06-22 16:39:15 字數 1501 閱讀 5883

docker:

docker就是類似的理念。現在都流行雲計算了,雲計算就好比大貨輪。docker就是貨櫃。

1.不同的應用程式可能會有不同的應用環境,比如.net開發的**和php開發的**依賴的軟體就不一樣,如果把他們依賴的軟體都安裝在乙個伺服器上就要除錯很久,而且很麻煩,還會造成一些衝突。比如iis和apache訪問埠衝突。這個時候你就要隔離.net開發的**和php開發的**。常規來講,我們可以在伺服器上建立不同的虛擬機器在不同的虛擬機器上放置不同的應用,但是虛擬機器開銷比較高。docker可以實現虛擬機器隔離應用環境的功能,並且開銷比虛擬機器小,小就意味著省錢了。

2.你開發軟體的時候用的是ubuntu,但是運維管理的都是centos,運維在把你的軟體從開發環境轉移到生產環境的時候就會遇到一些ubuntu轉centos的問題,比如:有個特殊版本的資料庫,只有ubuntu支援,centos不支援,在轉移的過程當中運維就得想辦法解決這樣的問題。這時候要是有docker你就可以把開發環境直接封裝轉移給運維,運維直接部署你給他的docker就可以了。而且部署速度快。

3.在伺服器負載方面,如果你單獨開乙個虛擬機器,那麼虛擬機會占用空閒記憶體的,docker部署的話,這些記憶體就會利用起來。

總之docker就是貨櫃原理。

elasticsearch (es):

elasticsearch 是乙個實時的分布式搜尋分析引擎,

它能讓你以乙個之前從未有過的速度和規模,去探索你的資料。 它被用作全文檢索、結構化搜尋、分析以及這三個功能的組合:

然而 elasticsearch 不僅僅為巨頭公司服務。它也幫助了很多初創公司,像 datadog 和 klout, 幫助他們將想法用原型實現,並轉化為可擴充套件的解決方案。elasticsearch 能執行在你的膝上型電腦上,或者擴充套件到上百臺伺服器上去處理pb級資料。

elasticsearch 中沒有乙個單獨的元件是全新的或者是革命性的。全文搜尋很久之前就已經可以做到了, 就像早就出現了的分析系統

和分布式資料庫。 革命性的成果在於將這些單獨的,有用的元件融合到乙個單一的、一致的、實時的應用中。它對於初學者而言有乙個較低的門檻, 而當你的技能提公升或需求增加時,它也始終能滿足你的需求。

如果你現在開啟這本書,是因為你擁有資料。除非你準備使用它 做些什麼 ,否則擁有這些資料將沒有意義。

不幸的是,大部分資料庫在從你的資料中提取可用知識時出乎意料的低效。

當然,你可以通過時間戳或精確值進行過濾,但是它們能夠進行全文檢索、處理同義詞、通過相關性給文件評分麼? 它們從同樣的資料中生成分析與聚合資料嗎?最重要的是,它們能實時地做到上面的那些而不經過大型批處理的任務麼?

這就是 elasticsearch 脫穎而出的地方:elasticsearch 鼓勵你去探索與利用資料,而不是因為查詢資料太困難,就讓它們爛在資料倉儲裡面。

elasticsearch 將成為你最好的朋友。

實時計算:spark、flink、storm

機器學習

深度學習

自然語言處理

雲計算何時大規模商用

本文講的是雲計算何時大規模商用,雲計算在國內各個地方是否過熱了,是否變成了圈地運動?雲計算到底將為it行業帶來什麼?這是昨日峰會的一大熱點話題。昨天下午,在分論壇 移動互聯與雲計算 無限時空與資源 上,中國寬頻資本董事長 創始合夥人田溯寧,fortinet創始人 董事長謝青和金蝶國際軟體集團董事局主...

大規模SNS中興趣圈子的自動挖掘

如果能夠從海量使用者中通過自動手段挖掘出乙個個的興趣圈子,對於很多具體應用來說是非常重要的基礎資料,比如可以利用使用者所屬興趣圈子進行感興趣人物推薦,或者根據所屬圈子的群體特性分析使用者的個人興趣點等,所以在sns平台下,如何對海量資料自動進行興趣圈子挖掘是個非常有用的基礎功能。圖1 興趣圖例子 圖...

大規模機器學習

如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應 該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...