題目:
1、資料組成
(1)增值稅發票資料,檔名zzsfp
(2)發票對應貨物明細資料,檔名zzsfp_hwmx
(3)企業資訊,檔名nsrxx
2、資料字段說明
(1)zzsfp表字典
字段含義
資料型別
備註fp_nid
發票id
string
發票唯一標識
xf_id
銷方識別號
string
企業唯一身份標識
gf_id
購方識別號
string
企業唯一身份標識
je金額
double
se稅額
double
jshj
價稅合計
double
kpyf
開票月份
string
kprq
開票日期
string
zfbz
作廢標誌
string
『y』代表作廢
(2)zzsfp_hwmx表
字段含義
資料型別
備註fp_nid
發票id
string
發票唯一標識
date_key
開票月份
string
hwmc
貨物名稱
string
ggxh
規格型號
string
dw單位
string
sl數量
double
dj單價
double
je金額
double
se稅額
double
spbm
商品編碼
string
(3)nsrxx表
字段含義
資料型別
備註hydm
行業**
string
nsr_id
納稅人id
string
企業唯一身份標識
djzclx_dm
登記註冊型別**
string
網上可查閱相關**含義
kydjrq
開業登記日期
string
xgrq
修改日期
string
給企業打標籤的時間
label
標籤string
『0』代表正常企業
『1』代表問題企業
3、關聯資料的必要說明
(1)zzsfp錶可通過fp_nid進行關聯
(2)zzsfp錶可通過xf_id或者gf_id與nsrxx中的nsr_id進行關聯,分離出銷項發票表和進項發票表
一、測試要求:
1、資料匯入:
要求將三個樣表檔案中的資料匯入hive資料倉儲中。
2、資料分析:
企業異常的判斷標準參考:
(1)、企業增值稅發票進項與出項嚴重不符即出現只出不進或者只進不出的企業;
(2)企業發票資料與詳細流水資訊不符;
(3)個人上網查閱企業異常資訊資料標準;
**:發票資料分析1 - 第釐 - (cnblogs.com)
1 資料分析
資料分析 1.資料分析定義 2.資料分析的作用 3.資料分析的基本步驟 3.1明確分析目的和思路 3.2資料收集 3.3資料處理 3.4資料分析 過程中的重點,必須確保正確 3.5資料展現 3.6報告撰寫 4.資料分析行業前景 4.1蓬勃發展的趨勢 4.2資料分析師職業要求 5.隨著科技發展帶來的挑...
資料分析 1
獲取瀏覽器標識 useragent 谷歌 開啟瀏覽器頁面,右擊檢查,開啟頁面,點選network開啟頁面,單擊第乙個網頁資訊index.html,頁面拉至底部可找到useragent,複製即可 2.設定響應時間 偽裝使用者瀏覽,爬蟲會被電腦發現啟動反爬蟲,所以要偽裝成使用者 新建查詢 從其他源 從w...
1 資料分析流程
進入公司後發現公司內主要遵循了以下圖中的資料分析流程,名為crisp dm cross industry standard process for data mining。此為業界認可的用於指導資料探勘工作的方法。在具體實踐中,業務理解,資料理解是十分重要的部分,間接決定了資料準備的複雜度。建立模型...