PHP 通用正文提取

提取類

<?php

require_once '******_html_dom.php';

/*** 正文提取類

* @author wangzhongibn

* 2010-02-20

*/class extracttext

/*** 設定html**

* @param $stringorurl

* @return string

*/private function setinnerhtml($stringorurl)

else

// html 糾錯

if(function_exists("tidy_repair_string"))

}/**

* 從網頁原始碼中獲取正文

* @param $stringorurl 內容或url

* @return string

*/public function getcontent($stringorurl,$isfilter=true,$func='')

else

if($isfilter)

return $text;

}/**

* 過濾內容少的標籤

* @param $texts 陣列

* @param $num 資料量

*/private function filtermin(&$texts,$num=200)

$i++;}}

/*** 過濾

* @param $text

* @return string

*/private function filter(&$text)

/*** 獲取網頁原始碼中的標籤列表.

* @param $string

* @param $tag

* @return array

*/public function gettags($string,$tag='div')

return $texts;}}

/*** 計算漢字比例

* @param $x

* @param $y

* @return unknown_type

*/function comparescale($x,$y)

else

}else

else

else}}

}/**

* float 物件比較

* @param $x

* @param $y

* @return unknown_type

*/function floatcompare($x,$y)

/*** string 物件比較

* @param $x

* @param $y

* @return unknown_type

*/function stringcompare($x,$y)

return -1;

}if(empty($y))

}呼叫例項

網頁正文識別及提取演算法提取網路正文的實踐

goose安裝pip install goose extractor或 pip3 install goosegithub 簡單例項 python3 python 3.7.6 default,feb 16 2020,17 48 02 clang 8.0.0 clang 800.0.42.1 on da...

淺識網頁正文提取演算法

淺識網頁正文提取演算法因為要到一家網際網路公司參加自然語言處理實習生面試，對於崗位要求中提到的工作內容網頁正文內容提取的相關知識進行了一下突擊。重點看了一下網頁正文提取所涉及到的各種演算法，網上的內容很多，我只是看了其中一小部分，對各類演算法做了乙個簡單的了解，不敢說對其做乙個綜述，只是以乙個...

多種基於html正文提取的思想

一基於統計的中文網頁正文抽取的研究摘要資訊抽取技術是一種廣泛運用於網際網路的資料探勘技術。其目的是從網際網路海量資料中抽取有意義有價值的資料和資訊，從而能更好的利用網際網路資源。文中採用一種統計網頁特徵的方法，將中文網頁中的正文部分抽取出來。該方法首先將網頁表示成基於xml的dom樹形式，...

PHP 通用正文提取

網頁正文識別及提取演算法 提取網路正文的實踐

淺識網頁正文提取演算法

多種基於html正文提取的思想

相關推薦

網頁正文識別及提取演算法提取網路正文的實踐