PDF複製亂碼問題解決方案

2022-03-10 19:15:49 字數 890 閱讀 5662

pdf格式檔案一般分為文本版和版:文本版檔案較小,方便搜尋,可以方便地轉換成其他格式;而版檔案較大,可防止他們直接複製。而今天要說的文字版本卻無法搜尋,這給檔案使用帶來了極大的不便。主要表現為:

(1)檔案較小,文字可選擇;

(2)文字可複製,複製的結果為亂碼,如下圖的"基礎"二字,貼上的結果是"!"";

(3)無法複製,很急人;

(4)編輯時,格式中的字型是顯示"亂碼";

在選單欄[文件]-[屬性]-[字型]中,可以看到有較多已嵌入了自定義編碼字型,這是發布者處理的,以防止複製和搜尋,一般是一種不可逆的操作。

網路上大多的解決方案是使用abbyy ocr來識別,重新編排乙份文件,但這樣的效率還是很慢,特別是當檔案解析度並不高的情況下。通過測試發了一種方案。具體操作如下:

先用adobe acrobat開啟檔案,使用印刷製作工具

開啟印前檢查進行pdf修正,通過分析和處理,將字型轉為空心。

修正後,使用掃瞄和ocr工具"增強",進行識別處理後,儲存即可。這樣的操作方法簡單,速度較快,結果正確,無需進行核查。

Ajax post亂碼問題解決方案

今天測試乙個ajax元件的時候遇到亂碼問題,在網上找了很多解決方案都未能解決,原因可能我出現亂碼的問題不在傳輸過程,而且是在頁面上就已經出現亂碼了,現象很奇怪,我直接把引數賦值為中文後alert,發現是亂碼,所以不管我怎麼設定和在後台解碼都依然是亂碼。後來找到原因,共分兩點 第一 我的meta標籤設...

python Django 亂碼問題解決方案

亂碼問題 1,插入資料庫亂碼,檔案前加入 import sys reload sys sys.setdefaultencoding utf8 同時保證資料庫介面是utf8的 mysql alter database databasename default character set utf8 co...

中文亂碼問題解決方案

1.接收中文引數亂碼 a.以get方式提交引數亂碼,在server.xml檔案中catelina標籤中新增乙個屬性uriencoding utf 8 b.以post方式提交引數亂碼,在接收引數之前設定request物件的編碼方式 request.setcharacterencoding utf 8 ...