簡介:
doug cutting是nutch, lucene, hadoop開源專案的作者,搜尋引擎方面的專家。
lucene是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到各種實際應用程式中。
nutch是乙個建立在lucene核心之上的web搜尋的實現,它是乙個真正的應用程式。
hadoop是google的分布式程式設計模式mapreduce的實現。mapreduce讓程式自動分布到乙個由普通機器組成的超大集群上併發執行。
觀點:
3)創新只有在剛發展的時候比較容易,越到後來越成熟,越不容易創新。
4)速度是搜尋引擎好壞的重要因素。分布式搜尋是一件很有趣的事,但我不能肯定它能否實現並保持速度足夠的快。
問題請教大佬們
本markdown編輯器使用stackedit修改而來,用它寫部落格,將會帶來全新的體驗哦 markdown 是一種輕量級標記語言,它允許人們使用易讀易寫的純文字格式編寫文件,然後轉換成格式豐富的html頁面。維基百科 使用簡單的符號標識不同的標題,將某些文字標記為粗體或者斜體,建立乙個鏈結等,詳細...
新浪爬蟲大佬們
微博爬蟲單機每日千萬級的資料 微博爬蟲總結 httpproxymiddleware http 中介軟體 乙個用於scrapy爬蟲的自動 中介軟體 scrapy爬蟲 利用crawlera神器,無需再尋找 ip scrapy 切換 針對特定響應狀態碼,使用 重新請求 python爬蟲系列之 scrapy...
dp大佬們的部落格集合
看了不少部落格,發現大佬們的部落格都是簡單的知識總結然後是大量例題及題解,也算是明白了解題數量是必不可收的。先看揹包dp 花了整整兩三晚也僅僅只看了01揹包完全揹包和多重揹包三個專項,開始我覺得看這三個專項已經很慢了,結果開始分組揹包後更慢了,雖然模板什麼的都知道,但理解起來還是感覺有些吃力,而且分...