使用xpdf將pdf轉換為html
1.6 word/excel/pdf檔案轉換成html整理
4、解壓除錯
1) 先將xpdf-3.02pl2-win32.zip解壓,解壓後的內容可根據需要進行刪減,如果只需要轉換為txt格式,其他的
exe檔案可以刪除,只保留pdftotext.exe,以此類推;
2) 然後將xpdf-chinese-simplified.tar.gz解壓到剛才xpdf-3.02pl2-win32.zip的解壓目錄;
3) 將pdftohtml-0.39-win32.tar.gz解壓,pdftohtml.exe解壓到xpdf-3.02pl2-win32.zip的解壓目錄;
4) 目錄結構:
+---[x:\xpdf]
|-------各種轉換用到的exe檔案
||-------xpdfrc
|+------[x:\xpdf\xpdf-chinese-simplified]
| 1.6 word/excel/pdf檔案轉換成html整理
|+-------很多轉換時需要用到的字元檔案
xpdfrc:此檔案是用來宣告轉換字符集對應路徑的檔案
5) 修改xpdfrc檔案(檔案原名為sample-xpdfrc)
修改檔案內容為:
#----- begin chinese simplified support package
cidtounicode adobe-gb1 xpdf-chinese-simplified\adobe-gb1.cidtounicode
unicodemap iso-2022-cn xpdf-chinese-simplified\iso-2022-cn.unicodemap
unicodemap euc-cn xpdf-chinese-simplified\euc-cn.unicodemap
unicodemap gbk xpdf-chinese-simplified\gbk.unicodemap
cmapdir adobe-gb1 xpdf-chinese-simplified\cmap
tounicodedir xpdf-chinese-simplified\cmap
fontdir c:\windows\fonts
displaycidfonttt adobe-gb1 c:\windows\fonts\simhei.ttf
#----- end chinese simplified support package
6) 建立bat檔案pdftohtml.bat(放置的路徑不能包含空格)
內容為:
@echo off
set folderpath=%1
set filepath=%2
cd /d %folderpath%
pdftohtml -enc gbk %filepath%
exit
1.6 word/excel/pdf檔案轉換成html整理
7) 建立類
public class convertpdf
}private static int checkcontenttype()
private static void tohtml()
catch (ioexception e)}}
}string cmd = "....";此處**是呼叫建立的bat檔案進行轉換
8) 測試轉換
public static void main(string args)
使用XPDF將PDF轉換為HTML
4 解壓除錯 1 先將xpdf 3.02pl4 win32.zip解壓,解壓後的內容可根據需要進行刪減,如果只需要轉換為txt格式,其他的exe檔案可以刪除,只保留pdftotext.exe,以此類推 2 然後將xpdf chinese simplified.tar.gz解壓到剛才xpdf 3.02...
將Office文件轉換為PDF
匯入的包 pom.xml中 com.github.livesense jodconverter core 1.0.5 param sourcefile 原始檔,絕對路徑.可以是office2003 2007全部格式的文件,office2010的沒測試.包括.doc,docx,xls,xlsx,ppt...
Jsp結合XML XSLT將輸出轉換為Html格式
xstl即可可擴充套件的樣式表轉換語言 可採用xslt技術將xml結構的資料轉換為html頁面的 jakarta.apache.org 提供的有三個關鍵包 xerces.jar xalan.jar xsl.jar 我們知道 xml xslt就可以直接輸出到支援xml的瀏覽器上,如ie 5.0以上,但...