今天讀了一篇長e文web content mining , 從題目看好像沒有什麼特別,也許是普通的商業軟文,但是,看了第一段後發現是關於dr. bing liu of the university of illinois chicago的,所以打足精神一句一句把它讀完。第一次遇到bing liu這個名字是在一年前,華中科技大學一博士朋友推薦給我《sentiment analysis and subjectivity》這篇綜述,就是bing liu寫的,然後又閱讀了《opinion spam and analysis》。都是翻來覆去精讀,因為幾年前就想著手開發乙個web資料探勘軟體,主要用於企業競爭情報分析,醞釀了很多年都不敢下手,理論性太 強,擔心吃不透或吃不準。直到2023年底開始陸續接觸了幾個網路輿情監測專案,也承接了好幾個行業的類似專案,才下定決心投入sliceprofile 的 開發,這個專案投入巨大,資源投入十分集中,但開發周期很短(5個月),因為整個框架早就在頭腦中醞釀成型了,尤其閱讀《sentiment analysis and subjectivity》獲得的靈感更多,還閱讀了大量引文,再三權衡學術和商業的分界線的位置。所以今天看這篇文章的動力決不是因為有中國名字的人寫 了一篇e文而已。
這篇文章好像是對劉博士新書《web data mining》的介紹和讀後感,沒有讀過這本書,所以這篇文章的部分內容沒有理解,而且有些觀點不知道是劉博士的還是文章作者的。一些重要結論和一些本人的疑惑一併記錄下來,作成一篇讀書筆記。
劉博士將web data mining分成三類:
什麼是結構化資料提取
讀到這一段,首先感慨劉博士寫書不是湊的,還真有些實踐體驗,例如,關於從亞馬遜(amazon.com)上提取商品列表和商品詳細資訊這類活動,應該是我們這些資訊勞工常做的事 。引出了乙個概念:entity,但是沒有搞懂對實體(entity)的界定與資料探勘是什麼關係,為什麼要講這個概念。
然後講到結構化資料探勘和非結構化資料探勘,更是一頭霧水。
the word inductive meansguessedguessing the textwhich frames a structured data object.關於非結構化資料探勘比較容易理解,automatic extraction正是gooseeker現在的研發方向,我認為很有價值且能指導我們研發規劃的一句話:
algorithms exist for this purpose, but i believe this area could be more customizedwhen someone has a specific scientific goal in mind.
什麼是資訊整合
文章用機票搜尋服務為例說明資訊整合需要解決的問題,gooseeker**上的比價系統案例 也需要解決資訊整合問題。從不同**上提取到的資訊進行比對,識別出同義內容,例如,京東 和卓越 上的同乙個商品用不同標題和不同的產品描述,需要識別出來。文章提到了多種方法:
根據劉博士的slides,資訊整合被清晰地分成兩類:
什麼是觀點挖掘
也許web content mining 的作者有其獨特的經歷和視角,所以文中有些觀點一時難以理解,看來還是有必要直接閱讀劉博士的新書《web data mining》。
什麼是資料探勘
當今資料庫的容量已經達到上萬億的水平 t 1,000,000,000,000個位元組。在這些大量資料的背後隱藏了很多具有決策意義的資訊,那麼怎麼得到這些 知識 呢?也就是怎樣通過一顆顆的樹木了解到整個森林的情況?電腦科學對這個問題給出的最新回答就是 資料探勘,在 資料礦山 中找到蘊藏的 知識金塊 幫...
什麼是資料探勘
簡單地說,資料探勘是指從大量資料中提取或 挖掘 知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘 稱作 挖掘,而不是砂石挖掘。因此,資料探勘應當更正確地命名為 從資料中挖掘知識 遺憾的是這個詞有點長。圖1 3 資料探勘 在你的資料中搜尋知識 有趣的模式 圖1 4 資料探勘作為知識發現過程的乙個...
什麼是資料探勘
什麼是資料探勘?簡單地說,資料探勘是指從大量資料中提取或 挖掘 知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘 稱作 挖掘,而不是砂石挖掘。因此,資料探勘應當更正確地命名為 從資料中挖掘知識 遺憾的是這個詞有點長。知識挖掘 是乙個較短的術語,但不能反映從大量資料中挖掘。畢竟,挖掘是乙個很生動...