《2023年3月13日》【連續153天】
a.搜尋引擎:
a.歷史:
1.雛形:
·1990,archie(檔案檢索系統);
·1993,蜘蛛程式(spider):一開始是為了統計伺服器數量,後來可以捕獲url;
2.第一代搜尋引擎:
·1994,yahoo!的目錄搜尋引擎:建立自己的網路指南資訊庫,將網頁分類,按主題進行分類索引,形成乙個樹形分類結構體系,
人工分類,因網頁數量**增加,工作量巨大,且無法根據網頁內容進行搜尋(2023年放棄);
3.第二代搜尋引擎:
使用蜘蛛程式在網路上自動捕獲網頁;
·1998,google創立,99年提供搜尋服務,推出pagerank,動態摘要,網頁快照等功能革新;
·2023年,yahoo!重新推出新的搜尋引擎;
b.分類:
1.分類目錄;
2.全文搜尋:
·擁有自己的檢索程式,俗稱「蜘蛛程式」,建立自己的網頁資料庫:
·租用其它搜尋引擎的資料庫,並按自定的格式排列搜尋結果,如lycos;
·自動網頁蒐集:
如google一般是28天;
或網頁所有者主動向搜尋引擎提供**;
3.元搜尋:關於搜尋引擎的搜尋引擎;
4.垂直;
5.集合式;
6.門戶;
7.免費鏈結列表;
b.工作原理:
1.全文:
構成:搜尋器,索引器,檢索器,使用者介面;
c.pagerank演算法:
思想:1.根據接入鏈結的數量和重要性;
2.根據外部鏈結和內部鏈結的數量和質量來覺得決定網頁的重要性;
正向鏈結和反向鏈結;
計算思想:
1)在初始階段:網頁通過鏈結關係構建起web圖,每個頁面設定相同的pagerank值,通過若干輪的計算,會得到每個頁面所獲得的最終pagerank值。隨著每一輪的計算進行,網頁當前的pagerank值會不斷得到更新。
2)在一輪中更新頁面pagerank得分的計算方法:在一輪更新頁面pagerank得分的計算中,每個頁面將其當前的pagerank值平均分配到本頁面包含的出鏈上,這樣每個鏈結即獲得了相應的權值。而每個頁面將所有指向本頁面的入鏈所傳入的權值求和,即可得到新的pagerank得分。當每個頁面都獲得了更新後的pagerank值,就完成了一輪pagerank計算。
深搜自閉day1
早上七點就到機房了,就此開始我自閉的一天 其他同學都去參加運動會了,我只能在機房碼題,課間去操場還不讓進。唉 吐槽結束,下面正題開始 今天碼了大概十來道題 當然是偏基礎的 總結一下我的體驗,那就是萬物皆可搜,優化讓你哭,拿個暴力分還是沒啥大問題的。今天出現的幾個錯誤 1.沒有有效地利用遞迴 我在遞迴...
153 python網路程式設計 TCP客戶端
tcp的客戶端要比伺服器端簡單很多,如果說伺服器端是需要自己買手機 查手機卡 設定鈴聲 等待別人打 流程的話,那麼客戶端就只需要找乙個 亭,拿起 撥打即可,流程要少很多。示例 coding utf 8 from socket import 建立socket tcpclientsocket socke...
網路尋路 深搜
問題描述 x 國的乙個網路使用若干條線路連線若干個節點。節點間的通訊是雙向的。某重要資料報,為了安全起見,必須恰好被 兩次到達目的地。該包可能在任意乙個節點產生,我們需要知道該網路中一共有多少種不同的 路徑。源位址和目標位址可以相同,但中間節點必須不同。如下圖所示的網路。1 2 3 1 是允許的 1...