153day(網路搜尋問題)

2021-08-16 20:22:45 字數 1387 閱讀 7056

《2023年3月13日》【連續153天】

a.搜尋引擎:

a.歷史:

1.雛形:

·1990,archie(檔案檢索系統);

·1993,蜘蛛程式(spider):一開始是為了統計伺服器數量,後來可以捕獲url;

2.第一代搜尋引擎:

·1994,yahoo!的目錄搜尋引擎:建立自己的網路指南資訊庫,將網頁分類,按主題進行分類索引,形成乙個樹形分類結構體系,

人工分類,因網頁數量**增加,工作量巨大,且無法根據網頁內容進行搜尋(2023年放棄);

3.第二代搜尋引擎:

使用蜘蛛程式在網路上自動捕獲網頁;

·1998,google創立,99年提供搜尋服務,推出pagerank,動態摘要,網頁快照等功能革新;

·2023年,yahoo!重新推出新的搜尋引擎;

b.分類:

1.分類目錄;

2.全文搜尋:

·擁有自己的檢索程式,俗稱「蜘蛛程式」,建立自己的網頁資料庫:

·租用其它搜尋引擎的資料庫,並按自定的格式排列搜尋結果,如lycos;

·自動網頁蒐集:

如google一般是28天;

或網頁所有者主動向搜尋引擎提供**;

3.元搜尋:關於搜尋引擎的搜尋引擎;

4.垂直;

5.集合式;

6.門戶;

7.免費鏈結列表;

b.工作原理:

1.全文:

構成:搜尋器,索引器,檢索器,使用者介面;

c.pagerank演算法:

思想:1.根據接入鏈結的數量和重要性;

2.根據外部鏈結和內部鏈結的數量和質量來覺得決定網頁的重要性;

正向鏈結和反向鏈結;

計算思想:

1)在初始階段:網頁通過鏈結關係構建起web圖,每個頁面設定相同的pagerank值,通過若干輪的計算,會得到每個頁面所獲得的最終pagerank值。隨著每一輪的計算進行,網頁當前的pagerank值會不斷得到更新。

2)在一輪中更新頁面pagerank得分的計算方法:在一輪更新頁面pagerank得分的計算中,每個頁面將其當前的pagerank值平均分配到本頁面包含的出鏈上,這樣每個鏈結即獲得了相應的權值。而每個頁面將所有指向本頁面的入鏈所傳入的權值求和,即可得到新的pagerank得分。當每個頁面都獲得了更新後的pagerank值,就完成了一輪pagerank計算。

深搜自閉day1

早上七點就到機房了,就此開始我自閉的一天 其他同學都去參加運動會了,我只能在機房碼題,課間去操場還不讓進。唉 吐槽結束,下面正題開始 今天碼了大概十來道題 當然是偏基礎的 總結一下我的體驗,那就是萬物皆可搜,優化讓你哭,拿個暴力分還是沒啥大問題的。今天出現的幾個錯誤 1.沒有有效地利用遞迴 我在遞迴...

153 python網路程式設計 TCP客戶端

tcp的客戶端要比伺服器端簡單很多,如果說伺服器端是需要自己買手機 查手機卡 設定鈴聲 等待別人打 流程的話,那麼客戶端就只需要找乙個 亭,拿起 撥打即可,流程要少很多。示例 coding utf 8 from socket import 建立socket tcpclientsocket socke...

網路尋路 深搜

問題描述 x 國的乙個網路使用若干條線路連線若干個節點。節點間的通訊是雙向的。某重要資料報,為了安全起見,必須恰好被 兩次到達目的地。該包可能在任意乙個節點產生,我們需要知道該網路中一共有多少種不同的 路徑。源位址和目標位址可以相同,但中間節點必須不同。如下圖所示的網路。1 2 3 1 是允許的 1...