ArcGIS 10 8 幫助檔案詞頻統計

2021-10-07 21:32:40 字數 1506 閱讀 1076

對 arcgis 10.8 本地幫助檔案(chm)做了統計。結果顯示,幫助檔案合計10398個頁面(比想象中大好多),14358147個字,詞頻統計來看,出現最多的詞是 『資料』 ,出現了48998次,其次是 『要素』,』使用』,和 『工具』。

流程是先把chm解編譯成htm,再用beautifulsoup讀取,用jieba分詞。

import os

import requests

from bs4 import beautifulsoup

import jieba

from collections import counter

path =

'e:\\jby'

defget_filelist

(dir):

filelist =

for home, dirs, files in os.walk(path)

:for filename in files:

if(filename[-3

:]=="htm"):

)return filelist

if __name__ ==

"__main__"

: text=

"" count=

0 filelist = get_filelist(

dir)

print

(len

(filelist)

)for

file

in filelist :

file=

open

(file

,'r'

) soup=beautifulsoup(

open

(file

),features=

'html.parser'

) text=text+soup.text

if(count%

100==0)

:print

(count)

count=count+

1print

("總文字長度"

+str

(len

(text)))

seg_list = jieba.cut(txt)

c = counter(

)for x in seg_list:

iflen

(x)>

1and x !=

'\r\n'

: c[x]+=1

print

('常用詞頻度統計結果'

)for

(k,v)

in c.most_common(

100)

:print

('%s%s %d'%(

' '*(

5-len(k)

), k, v)

)

CHM幫助檔案

在visual c 6中呼叫html help沒有現成的函式,需要呼叫htmlhelp 這個api函式。而在呼叫這個函式之前,還需要在你的工程中加上htmlhelp的庫和標頭檔案 1.指定htmlhelp.h的路徑。選擇選單 project settings.開啟 project settings ...

幫助檔案的呼叫

2.製作目錄表 索引表 按照內容的相互關係及次序建立目錄表,乙個目錄項對應乙個幫助主題,乙個幫助主題可對應乙個html頁 設計包含關鍵字的索引表讓使用者更快地獲得所需的資訊,乙個關鍵字可對應乙個html頁。將設計好的html頁與幫助主題目錄項及關鍵字索引建立對應關係。一般製作應用程式幫助系統時可根據...

CHM幫助檔案製作流程

1.熟悉目標系統 熟悉需要製作幫助檔案的系統功能,收集相關的背景資料 2.製作幫助檔案內容大綱 幫助檔案內容大綱常常表現為.hhc目錄檔案 3.編寫幫助檔案內容 例如可以使用ms word 2000編寫doc幫助檔案,再匯出為html檔案。技巧1 為文字建立html超級鏈結 選中文字 選擇 插入 超...