create table `webpage` (
`id` varchar(250) not null,
`headers` blob,
`text` mediumtext,
`status` int(11) default null,
`markers` blob,
`parsestatus` blob,
`modifiedtime` bigint(20) default null,
`prevmodifiedtime` bigint(20) default null,
`score` float default null,
`typ` varchar(32) character set latin1 default null,
`batchid` varchar(32) character set latin1 default null,
`baseurl` varchar(767) default null,
`content` longblob,
`title` varchar(2048) default null,
`reprurl` varchar(767) default null,
`fetchinterval` int(11) default null,
`prevfetchtime` bigint(20) default null,
`inlinks` mediumblob,
`prevsignature` blob,
`outlinks` mediumblob,
`fetchtime` bigint(20) default null,
`retriessincefetch` int(11) default null,
`protocolstatus` blob,
`signature` blob,
`metadata` blob,
primary key (`id`)
) engine=innodb default charset=utf8 row_format=compressed;
主鍵,根據網頁url生成(格式:reversed domain name:protocol:port and path),因此,nutch2只能儲存當前網頁的狀態,而不能儲存歷史資訊。
合併了解析出來的所有文字字段(utf-8),用於普通的檢索,不過現在檢索一般使用solr,所以這個字段意義不大。
記錄抓取狀態,以下是各個狀態代表的含義
1 unfetched (links not yet fetched due to limits set in regex-urlfilter.txt, -topn crawl parameters, etc.)
2 fetched (page was successfully fetched)
3 gone (that page no longer exists)
4 redir_temp (temporary redirection — see reprurl below for more details)
5 redir_perm (permanent redirection — see reprurl below for more details)
34 retry
38 not modified
各個任務的標記(如:dist***injmrk_***updmrk_***ftcmrk_***gnmrk_***prsmrk_**)
parse狀態,在執行parsejob之前都是null。
parsestatuscodes.html
最後更改時間
網頁重要程度(pr),nutch2.2.1 使用的是opic演算法
批次id,由generate生成( (curtime/1000) + "-" +randomseed ), fetch時可選擇特定batchid的任務
用於將網頁原始碼中相對鏈結位址的轉為絕對位址,通常就是當前網頁的位址,有重定向的情況下,是最終定向到的位址
完整的網頁原始碼,未經任何處理(字符集也沒轉)。
title標籤裡的內容 (已轉utf-8編碼)
重定向url,將在下一輪抓取,不會立即跟入
抓取間隔,預設是2592000(30天)
上次抓取時間
入鏈(url+linktext)
上次更新時網頁簽名
出鏈(url+linktext)
下次抓取時間,通常是間隔乙個月
重試次數
網頁簽名,用於判斷網頁是否改變,預設的實現是:org.apache.nutch.crawl.md5signature ,採用content的md5值,另乙個方案是org.apache.nutch.crawl.textprofilesignature,content抽取文字、分詞、排序等一系列操作後計算md5值
textprofilesignature
自定義元資料,可以在種子檔案裡面加,例如: http://***x/***.html \t type=news
protocolstatus
access_denied 17
blocked 23
exception 16
failed 2
gone 11
moved 12
notfetching 20
notfound 14
notmodified 21
proto_not_found 10
redir_exceeded 19
retry 15
robots_denied 18
success 1
temp_moved 13
wouldblock 22
mysql建立使用者表 mysql 建庫建表建使用者
1.建立資料庫 create database school 2.使用資料庫 use school 3.建立使用者 create user jame localhost identified by jame 4.授權使用者 注意這裡是用了 哦,可以自己講school也替換成 號 grant sele...
mysql建表思路 MySQL 建表思路
思想 硬碟如倉庫,表如倉庫中貨架 常用與不常用等分類 欄位如貨物 尺寸是固定或變動 訪問貨物涉及到貨架的佔位 效率。資料型別選用,建表思路,正規化 資料型別特點 資料型別的速度關係 最快 整形 date,time char,enum varchar text blob 最慢 char 與 varch...
mysql建表建索引6 mysql建表建索引
建表 create table sj projects id int 11 not null auto increment,title varchar 255 not null default comment 專案名稱 platform id int 11 not null default 0 co...