寫在前面
針對基礎資料,如果處理不好,可能會對演算法結果產生意想不到的影響。
其中,行政區劃翻譯表中缺少地級市等行政編碼,直接導致證件軌跡統計補全等問題,從而影響演算法的準確性等
行政區劃
1. 析取資料
import requests
import pandas as pd
from bs4 import beautifulsoup
text = requests.get(u''
).text
soup = beautifulsoup(text,
'lxml');
result =
for item in soup.find_all(
'tr'
,attrs=):
ele = item.find_all(
'td'
,attrs=
)if ele[0]
.gettext()is
notnone
and ele[0]
.gettext()!=
'':[ele[0]
.gettext(
), ele[1]
.gettext()]
)
xzqh = pd.dataframe(result)
xzqh.columns =
['xzqh_code'
,'ch_name'
]
2. 具體效果
中國行政區劃編碼 省市縣鎮村
為什麼80 的碼農都做不了架構師?行政區劃數字 簡稱數字碼 由12位組成,前6位分別表示省 自治區 直轄市 特別行政區 市 地區 自治州 盟 直轄市所轄市轄區 縣彙總碼 省 自治區 直轄縣級行政區劃彙總碼 縣 自治縣 縣級市 旗 自治旗 市轄區 林區 特區 前6位數字碼從左到右含義 前兩位表示省 接...
開源專案 中國行政區劃資料
中國的省 市 區等行政區劃資料是任何網際網路服務的基礎,每次重新做乙個專案的時候都要重新尋找相關資料。我嘗試著從github上尋找合適的行政區劃資料,雖然有許多關於行政區劃資料的專案,但其資料都不太理想,大多數都存在以下問題 上面說的問題總結起來可以歸因為兩個方面 資料準確性 和 資料實時性 專案雖...
行政區劃資料資料庫的設計 一
author 水如煙 總目錄 行政區劃資料方案設計 我們的目的是查詢某時間某個區劃碼是否存在,若存在當時的區劃名稱是什麼。資料庫基於sqlserver2005,用它也算是接觸學習吧。2005有了架構,我當是framework裡頭的命名空間。一般的,建立乙個資料庫時,我先建立如下架構 命名空間 bas...