提取類
<?php
require_once '******_html_dom.php';
/*** 正文提取類
* @author wangzhongibn
* 2010-02-20
*/class extracttext
/*** 設定html**
* @param $stringorurl
* @return string
*/private function setinnerhtml($stringorurl)
else
// html 糾錯
if(function_exists("tidy_repair_string"))
}/**
* 從網頁原始碼中獲取正文
* @param $stringorurl 內容或url
* @return string
*/public function getcontent($stringorurl,$isfilter=true,$func='')
else
if($isfilter)
return $text;
}/**
* 過濾內容少的標籤
* @param $texts 陣列
* @param $num 資料量
*/private function filtermin(&$texts,$num=200)
$i++;}}
/*** 過濾
* @param $text
* @return string
*/private function filter(&$text)
/*** 獲取網頁原始碼中的標籤列表.
* @param $string
* @param $tag
* @return array
*/public function gettags($string,$tag='div')
return $texts;}}
/*** 計算漢字比例
* @param $x
* @param $y
* @return unknown_type
*/function comparescale($x,$y)
else
}else
else
else}}
}/**
* float 物件比較
* @param $x
* @param $y
* @return unknown_type
*/function floatcompare($x,$y)
/*** string 物件比較
* @param $x
* @param $y
* @return unknown_type
*/function stringcompare($x,$y)
return -1;
}if(empty($y))
}呼叫例項
網頁正文識別及提取演算法 提取網路正文的實踐
goose安裝pip install goose extractor或 pip3 install goosegithub 簡單例項 python3 python 3.7.6 default,feb 16 2020,17 48 02 clang 8.0.0 clang 800.0.42.1 on da...
淺識網頁正文提取演算法
淺識網頁正文提取演算法 因為要到一家網際網路公司參加自然語言處理實習生面試,對於崗位要求中提到的工作內容 網頁正文內容提取 的相關知識進行了一下突擊。重點看了一下網頁正文提取所涉及到的各種演算法,網上的內容很多,我只是看了其中一小部分,對各類演算法做了乙個簡單的了解,不敢說對其做乙個綜述,只是以乙個...
多種基於html正文提取的思想
一 基於統計的中文網頁正文抽取的研究 摘 要 資訊抽取技術是一種廣泛運用於網際網路的資料探勘技術。其目的是從網際網路海量資料中抽取有意義 有價值的資料和資訊,從而能更好的利用網際網路資源。文中採用一種統計網頁特徵的方法,將中文網頁中的正文部分抽取出來。該方法首先將網頁表示成基於xml的dom樹形式,...