學習進度1

2022-09-08 10:24:13 字數 3768 閱讀 5885

一、資料說明

1、資料組成

(1)增值稅發票資料,檔名zzsfp

(2)發票對應貨物明細資料,檔名zzsfp_hwmx

(3)企業資訊,檔名nsrxx

2、資料字段說明

(1)zzsfp表字典

字段含義

資料型別

備註fp_nid

發票id

string

發票唯一標識

xf_id

銷方識別號

string

企業唯一身份標識

gf_id

購方識別號

string

企業唯一身份標識

je金額

double

se稅額

double

jshj

價稅合計

double

kpyf

開票月份

string

kprq

開票日期

string

zfbz

作廢標誌

string

『y』代表作廢

zzsfp表內容($ less zzsfp)

(2)zzsfp_hwmx表

字段含義

資料型別

備註fp_nid

發票id

string

發票唯一標識

date_key

開票月份

string

hwmc

貨物名稱

string

ggxh

規格型號

string

dw單位

string

sl數量

double

dj單價

double

je金額

double

se稅額

double

spbm

商品編碼

string

zzsfp_hwmx表內容($ less zzsfp_hwmx)

(3)nsrxx表

字段含義

資料型別

備註hydm

行業**

string

nsr_id

納稅人id

string

企業唯一身份標識

djzclx_dm

登記註冊型別**

string

網上可查閱相關**含義

kydjrq

開業登記日期

string

xgrq

修改日期

string

給企業打標籤的時間

label

標籤string

『0』代表正常企業

『1』代表問題企業

nsrxx表內容($ less nsrxx)

3、關聯資料的必要說明

(1)zzsfp錶可通過fp_nid進行關聯

(2)zzsfp錶可通過xf_id或者gf_id與nsrxx中的nsr_id進行關聯,分離出銷項發票表和進項發票表

二、測試要求

1、資料匯入:

要求三個樣表檔案中的資料匯入hive資料倉儲中。

2、資料分析

企業異常的判斷標準參考:

企業增值稅發票進項與出項嚴重不符即出現只出不進或者只進不出的企業;

(1)、將zzsfpzzsfp_hwmx、nsrxx三個表根據連線在一起,zzsfp和zzsfp_hwmx考fp_nid連線,連線好之後和nsrxx連線,靠xf_id進行連線。

關聯語句:select  zzsfp.fp_nid,zzsfp.xf_id,zzsfp.gf_id,zzsfp.je,zzsfp_hwmx.hwmc,zzsfp_hwmx.je,nsrxx.nsr_id join zzsfp on zzsfp_hwmx on zzsfp.fp_nid = zzsfp_hwmx.fp_nid join nsrxx on zzsfp.xs_id = nsrxx.nsr_id;

(2)、處理的是金額和貨物明細中相同fp_nid中相同id的貨物累加在一起的差值,進行排序

(3)、在第二步基礎上篩選只進不出的或是只出不進的,只出不進或者只進不出的je就 會等於出和進的差價

sql語句:select * from nsrxx where je = ljje;

(4)、前期的標準均是定死的會篩選出大概4600家廠家,最後再根據中位數進行篩選。

3處理結果入庫

上述異常標準的結果分別匯**計,並將結果資料匯出到mysql資料庫中。

最終

最終給出的資料情況

企業總數:33,829

非正常企業總數:318

學習進度(1)

10.01 10.10 抽空學習了hadoop和虛擬機器的一些知識,hadoop的安裝真的十分繁瑣,一些配置不細心就會出錯 附上常用hadoop認為重要的命令的總結 初始化namenode的元資料目錄 hadoop namenode format 檢視hdfs的目錄資訊 hadoop fs ls h...

BLEND學習進度1

工具欄 布局控制項 grid 最外層,最常用的布局。專案初始既包含它。canvas 常用,部署在grid裡,可以控制內部控制項位置,可以巢狀canvas。stackpanel 只能水平或者垂直排列內部的控制項,沒有zindex軸。scrollviewer 有滾動條的容器,裡面只能放乙個控制項。比如s...

2023年1月28日學習進度

今天,勵志努力學習,以期在這個時候把收穫大篇幅地寫出來,安撫一下心靈,離就業更近一步。然而完成得不盡人意。首先,為了夯實基礎,撿起了放假前沒有學完的計算機網路,看到當時在書上做的筆記,燃起了新的鬥志,要努力找到當時的充實感。首先,複習了前兩章的概論 應用層相關知識,心裡進一步加深了對知識的理解。又努...