因處理資料,需要把單位名稱前的空格字元去年,結果只有幾條記錄的去掉了,大部分記錄的單位名稱欄位前的空格沒有去掉。先看下圖
第1列為原資料,第2列為應用公式trim去空格,第3列用substitue函式替換空格
選中a列第3行「山東路」前面的空格
進行替換操作,把這些未知的字元替換成b
黃色記錄的4處未知的不可見的字元全換成了b,這些字元到看上去是空格,實則不是,那麼它們到底是什麼呢,我們成code函式檢測一下它們的值,結果見d列
它們是值63的不可見字元。其實不可見字元有很多種
那麼我們可以用個什麼簡單的方法處理掉呢,目前我還沒有找到答案,但可以用mid函式來提取我們真正需要的資料,變相去年最空格,
見f列f2==mid(a2,2,len(a1)-1)
空格佔了1個字元的位置,從第2個字元開始取值,當然了真正所取的長度也要減1,這樣就實現了我們想要的結果了
字串中的不可見字元
最近用datax匯入資料到pipeline的時候,碰到乙個報髒資料的錯誤,檢查後發現字串包含 u0000和 u007f,就以為是這兩個unicode字元搞的鬼,寫了正則 unicode.replaceall s u007f s 來匹配,還是會報髒資料,原始的字串是下面這個樣子的 12345678 u...
不可見的unicode字元
專案中執行到 如 x x.encode encoding 報錯 latin 1 codec can t encode character u u202d in position 0 ordinal not in range 256 可見是編碼問題。報錯資訊顯示這個x字串中含有異常的字元u u202d...
Vim中顯示不可見字元
在linux中,cat a file可以把檔案中的所有 可見的和不可見的字元 都顯示出來,在vim中,如何將不可見字元也顯示出來呢?當然,如果只是想在vim中檢視的話,可以這樣 cat a在vim中呼叫cat轉換顯示。這樣的做法不便於編輯,其實vim本身是可以設定顯示不可見字元的。只需要 set i...