一、資料說明:
1、資料組成
(1)增值稅發票資料,檔名zzsfp
(2)發票對應貨物明細資料,檔名zzsfp_hwmx
(3)企業資訊,檔名nsrxx
2、資料字段說明
(1)zzsfp表字典
字段含義
資料型別
備註fp_nid
發票id
string
發票唯一標識
xf_id
銷方識別號
string
企業唯一身份標識
gf_id
購方識別號
string
企業唯一身份標識
je金額
double
se稅額
double
jshj
價稅合計
double
kpyf
開票月份
string
kprq
開票日期
string
zfbz
作廢標誌
string
『y』代表作廢
zzsfp表內容($ less zzsfp)
(2)zzsfp_hwmx表
字段含義
資料型別
備註fp_nid
發票id
string
發票唯一標識
date_key
開票月份
string
hwmc
貨物名稱
string
ggxh
規格型號
string
dw單位
string
sl數量
double
dj單價
double
je金額
double
se稅額
double
spbm
商品編碼
string
zzsfp_hwmx表內容($ less zzsfp_hwmx)
(3)nsrxx表
字段含義
資料型別
備註hydm
行業**
string
nsr_id
納稅人id
string
企業唯一身份標識
djzclx_dm
登記註冊型別**
string
網上可查閱相關**含義
kydjrq
開業登記日期
string
xgrq
修改日期
string
給企業打標籤的時間
label
標籤string
『0』代表正常企業
『1』代表問題企業
nsrxx表內容($ less nsrxx)
3、關聯資料的必要說明
(1)zzsfp錶可通過fp_nid進行關聯
(2)zzsfp錶可通過xf_id或者gf_id與nsrxx中的nsr_id進行關聯,分離出銷項發票表和進項發票表
二、測試要求:
1、資料匯入:
要求將三個樣表檔案中的資料匯入hive資料倉儲中。
2、資料分析:
企業異常的判斷標準參考:
企業增值稅發票進項與出項嚴重不符即出現只出不進或者只進不出的企業;
(1)、將zzsfp、zzsfp_hwmx、nsrxx三個表根據連線在一起,zzsfp和zzsfp_hwmx考fp_nid連線,連線好之後和nsrxx連線,靠xf_id進行連線。
關聯語句:select zzsfp.fp_nid,zzsfp.xf_id,zzsfp.gf_id,zzsfp.je,zzsfp_hwmx.hwmc,zzsfp_hwmx.je,nsrxx.nsr_id join zzsfp on zzsfp_hwmx on zzsfp.fp_nid = zzsfp_hwmx.fp_nid join nsrxx on zzsfp.xs_id = nsrxx.nsr_id;
(2)、處理的是金額和貨物明細中相同fp_nid中相同id的貨物累加在一起的差值,進行排序
(3)、在第二步基礎上篩選只進不出的或是只出不進的,只出不進或者只進不出的je就 會等於出和進的差價
sql語句:select * from nsrxx where je = ljje;
(4)、前期的標準均是定死的會篩選出大概4600家廠家,最後再根據中位數進行篩選。
3、處理結果入庫:
將上述異常標準的結果分別匯**計,並將結果資料匯出到mysql資料庫中。
最終
最終給出的資料情況
企業總數:33,829
非正常企業總數:318
學習進度(1)
10.01 10.10 抽空學習了hadoop和虛擬機器的一些知識,hadoop的安裝真的十分繁瑣,一些配置不細心就會出錯 附上常用hadoop認為重要的命令的總結 初始化namenode的元資料目錄 hadoop namenode format 檢視hdfs的目錄資訊 hadoop fs ls h...
BLEND學習進度1
工具欄 布局控制項 grid 最外層,最常用的布局。專案初始既包含它。canvas 常用,部署在grid裡,可以控制內部控制項位置,可以巢狀canvas。stackpanel 只能水平或者垂直排列內部的控制項,沒有zindex軸。scrollviewer 有滾動條的容器,裡面只能放乙個控制項。比如s...
2023年1月28日學習進度
今天,勵志努力學習,以期在這個時候把收穫大篇幅地寫出來,安撫一下心靈,離就業更近一步。然而完成得不盡人意。首先,為了夯實基礎,撿起了放假前沒有學完的計算機網路,看到當時在書上做的筆記,燃起了新的鬥志,要努力找到當時的充實感。首先,複習了前兩章的概論 應用層相關知識,心裡進一步加深了對知識的理解。又努...