自然劃分的3-4-5規則常被用來將數值資料(連續型資料)劃分為相對一致、更自然的區間, 規則的劃分步驟:
(1) 如果乙個區間最高有效位上包含3,6,7或9個 不同的值,就將該區間劃分為3個等寬子區間; (為7的話,劃分成 2,3,2的寬度比例) ;
(2) 如果乙個區間最高有效位上包含2,4,或8個不 同的值,就將該區間劃分為4個等寬子區間;
(3) 如果乙個區間最高有效位上包含1,5,或10個不同的值,就將該區間劃分為5個等寬子區間;
將該規則遞迴的應用於每個子區間,產生給定數值屬性的概念分層
對於資料集**現的最大值和最小值的極端分布,為了避免上述方法出現的結果扭曲,可以在頂層分段時,選用乙個大部分的概率空間。 如 選擇5%-95%的資料,再進行以上規則的劃分。
例項1:如某公司的銷售增量在 -180~383之間,採用該規則進行劃分如下,首先取定乙個整的左閉右開的區間
向下取整-180 是 -200 ,向上取整383是400
[-200,400)。最高位是百分位,最高有效位有-2、-1、1、2、3,4一共6個,分成3個等寬區間 (注意0的情況)
a1 [-200,0) a2 [0,200) a3[200,400)
再劃分每個區間的最高有效位是2個,子區間劃分4個
a1 [-200,0) a2 [0,200) a3[200,400)
a11[-200,-150) a21[0,50) a31[200,250)
a12[-150,-100) a22[50,100) a32[250,300)
a13[-100,-50) a23[100,150) a33[300,350)
a14[-50,0) a24[150,200) a34[350,400)
a14[-50,0) a24[150,200) a34[350,400)
自然對齊規則
基本型別的長度計算 sizeof char 的長度為 1 sizeof short 的長度為 2 sizeof int 的長度為 4 sizeof long 的長度為 4 win x86和x64都為4,linux x86為4,x64為8 sizeof float 的長度為 4 sizeof doub...
Spark中劃分stage的規則
常見的有map,flatmap,filter,sample 常見的有sortbykey,reducebykey,groupbykey,join 在spark中,每個任務對應乙個分割槽,通常不會跨分割槽運算元據。但如果遇到寬依賴的操作,spark必須從所有分割槽讀取資料,並查詢所有鍵的對應值,然後彙總...
自然數拆分(整數劃分一)
time limit 1 ms memory limit 128 mb difficulty 2 輸入自然數n,然後將其拆分成由若干數相加的形式,參與加法運算的數可以重複。輸入只有乙個整數n,表示待拆分的自然數n。n 80 輸出乙個數,即所有方案數 7 14解釋 輸入7,則7拆分的結果是 7 1 6...