由於要解析fb2電子書文字,這方面似乎俄文資料比較多啊,沒辦法,摸著石頭過河吧
利用網上的乙個軟體any2fb2把一段文字轉換成fb2,用editplus直接開啟fb2
文字內容:
漢 fb2 測試
fb2內容:
漢 fb2 測試
有發現,小樣,原來你穿了fb2的馬甲,骨子裡卻是xml的種。
xml解析網上資料太多了,不感冒,現在說下這裡面的"&#"開頭,中間為數字,';'號結尾的東東吧。比如漢其實就是'漢',
這些字元瀏覽器可以自動轉換的,現在我們來實現這個轉換。
開頭與結尾的字元不管它,取中間數字部分,網上有人說這些是utf-8的編碼,不好意思,至少在這裡是不正確的,
比如27721,這其實是十進位制的,而不是十六進製制,把它轉成十六進製制為0x6c49,正是'漢'的ucs2編碼,其utf-8編碼為e6b189。
接下來把它轉換成ascii
wchar * wszucs2 = l"/x6c49";
int len = widechartomultibyte(cp_acp, 0, wszucs2, -1, null, 0, null, null);
char *szgbk=new char[len + 1];
szgbk[len] = '/0';
widechartomultibyte (cp_acp, 0, wszucs2, -1, szgbk, len, null,null);
messageboxa(null, szgbk, null, mb_ok);//輸出'漢'
delete szgbk;
xml輸出的格式美化,字串的xml格式美化
在解析xml中經常會遇到這兩個問題 一是輸出的xml檔案是需要美化 二是輸入的xml也需要美化之後轉成字串。正好目前專案中解析xml檔案的時候用到了這兩個過程,在此記錄記錄方便今後查閱。將符合xml的字串進行美化,美化後的字串輸出後與xml檔案中的效果一樣 param str return publ...
字元格式(gbk utf8等)
gbk就是在儲存你的帖子的時候,乙個漢字占用兩個位元組。外國人看會出現亂碼,此為我中華為自己漢字編碼而形成之解決方案。utf8就是在儲存你的帖子的時候,乙個漢字占用3個位元組。但是外國人看的話不會亂碼,此為西人為了解決多位元組字元而形成之解決方案。ascii iso 8859 1 是鼻祖,最簡單的方...
C 構造xml格式的字串
比如要構造這樣的字串 password bs002servicecode head 3203231993052802 idcard 0001 000101 00010102aptitudecode 初領traintype peopleinfo 3203231993052802 idcard 0001...