統計 text html 文件型別

使用heritrix抓取的網頁儲存在jobs/crawler/mirror下，判斷抓取的檔案是否是text/html 文件型別，只需要判斷檔案中是否含有「text/html」字串，使用bufferedreader類中的readline()方法讀取檔案每一行，檢查其是否包含該串，如果有則說明是text/html 文件，否則，一直讀到檔案末尾仍未包含，則不是text/html 文件。

遍歷jobs資料夾下每個crawler資料夾，找到其目錄下的mirror資料夾，對其進行深度優先搜尋，找到目錄樹的每一片葉子（即檔案），檢索檔案，檢查是否包含「text/html」字串，如果有，則計數器加1。

public