有關網路爬蟲的一些基本概念 一

2021-06-28 15:31:11 字數 747 閱讀 4402

網路爬蟲:(又被稱為網頁蜘蛛,網路機械人,在fofa社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。

uri(uniform resource identifier 統一資源識別符號)一般由三部分組成:1.訪問資源的命名機制(方案名、協議)2.存放資源的主機名(網域名稱)3.資源自身的名稱(路徑)。

例:方案名 (http)

網域名稱 (www.cisco.com)

路徑 (/en/us/partners/index.html)

url是uniform resource locator的縮寫,譯為「統一資源定位符」:url的格式由下列三部分組成:

第一部分是協議(或稱為服務方式);

第二部分是存有該資源的主機ip位址(有時也包括埠號);

第三部分是主機資源的具體位址。,如目錄和檔名等。

第一部分和第二部分之間用「://」符號隔開,第二部分和第三部分用「/」符號隔開。第一部分和第二部分是不可缺少的,第三部分有時可以省略。

url示例

檔案的url:

用url表示檔案時,伺服器方式用file表示,後面要有主機ip位址、檔案的訪問路徑(即目錄)和檔名等資訊。有時可以省略目錄和檔名,但「/」符號不能省略。

例:file://a:1234/b/c/d.txt

代表獲取資源使用ftp協議,資源目標是a主機的1234埠的b目錄下的c目錄下的d.txt。

有關程序的一些基本概念

對程序的初步描述 一.和程序有關的一些概念 乙個程序就是乙個正在執行程式的例項,包括程式計數器,暫存器和變數的當前值。從概念上說,每個程序擁有它自己的虛擬cpu,當然真實的cpu在各個程序之間來回切換。在某一瞬間,cpu只能執行乙個程序,但在一秒鐘時間他可以執行多個程序,這一就產生了並行的錯覺,通產...

網路通訊的一些基本概念

最初由四個位元組,四個字點表示 130.207.244.244 ipv4 fe8o fcfd 4aff fecf ea4e ipv6 不便記憶,所以常用主機名 hostname 代替 127.由本地程式使用16即位掩碼,表示該子網內部ip位址前16位要一致 5.資料報分組 df標記 don t fr...

C 一些基本概念

建構函式的作用是對物件本身做初始化工作,也就是給使用者提供初始化類中成員變數的一種方式。析構函式是釋放物件執行期間所申請的資源。函式的過載,過載構成的條件 函式的引數型別不同 引數個數不同,才能構成函式的過載 在乙個類中 注意,只有函式的返回型別不同是不能構成函式的過載。在函式過載時,要注意函式帶有...