資料預處理的過程包括幾何精校正、配準、影象鑲嵌與裁剪、去雲及陰影處理和光譜歸一化幾個環節
2、資料預處理的各個流程介紹
(一)幾何精校正與影像配準
引起影像幾何變形一般分為兩大類:系統性和非系統性。系統性一般有感測器本身引起的,有規律可循和可**性,可以用感測器模型來校正;非系統性幾何變形是不規律的,它可以是感測器平台本身的高度、姿態角不穩定,也可以是地球曲率及空氣折射的變化以及地形的變化等。
在做幾何校正前,先要知道幾個概念:
地理編碼:把影象矯正到一種統一標準的座標系。
地理參照:借助一組控制點,對一幅影象進行地理座標的校正。
影象配準:同一區域裡一幅影象(基準影象)對另一幅影象校準
影像幾何精校正,一般步驟如下,
這是幾何校正中最重要的一步。可以從地形圖()為參考進行控制選點,也可以野外
測量獲得,或者從校正好的影像中獲取。選取得控制點有以下特徵:
在影象上有明顯的、清晰的點位標誌,如道路交叉點、河流交叉點等;
地面控制點上的地物不隨時間而變化。
均勻分布在整幅影像內,且要有一定的數量保證,不同糾正模型對控制點個數的需求不相同。衛星提供的輔助資料可建立嚴密的物理模型,該模型只需個控制點即可;對於有理多項式模型,一般每景要求不少於
個控制點,困難地區適當增加點位;幾何多項式模型將根據地形情況確定,它要求控制點個數多於上述幾種模型,通常每景要求在
個左右,尤其對於山區應適當增加控制點。
()建立幾何校正模型
地面點確定之後,要在影象與影象或地圖上分別讀出各個控制點在影象上的像元座標(
,)及其參考影象或地圖上的座標(
,),這叫需要選擇乙個合理的座標變換函式式(即資料校正模型),
然後用公式計算每個地面控制點的均方根誤差(
)根據公式計算出每個控制點幾何校正的精度,計算出累積的總體均方差誤差,也叫殘餘誤差,一般控制在乙個像元之內,即
()影象重取樣
重新定位後的像元在原影象中分布是不均勻的
即輸出影象像元點在輸入影象中的行列號不是或不全是正數關係。因此需要根據輸出影象上的各像元在輸入影象中的位置,對原始影象按一定規則重新取樣,進行亮度值的插值計算,建立新的影象矩陣。常用的內插方法包括:
、最鄰近法是將最鄰近的像元值賦予新像元。該方法的優點是輸出影象仍然保持原來的像元值,簡單,處理速度快。但這種方法最大可產生半個像元的位置偏移,可能造成輸出影象中某些地物的不連貫。
、雙線性內插法是使用鄰近
個點的像元值,按照其距內插點的距離賦予不同的權重,進行線性內插。該方法具有平均化的濾波效果,邊緣受到平滑作用,而產生乙個比較連貫的輸出影象,其缺點是破壞了原來的像元值。
、三次卷積內插法較為複雜,它使用內插點周圍的
個像元值,用三次卷積函式進行內插。這種方法對邊緣有所增強,並具有均衡化和清晰化的效果,當它仍然破壞了原來的像元值,且計算量大。
一般認為最鄰近法有利於保持原始影象中的灰級,但對影象中的幾何結構損壞較大。後兩種方法雖然對像元值有所近似,但也在很大程度上保留影象原有的幾何結構,如道路網、水系、地物邊界等。
數字影象鑲嵌與裁剪
(三)大氣校正
遙感影象在獲取過程中,受到如大氣吸收與散射、感測器定標、地形等因素的影響,且它們會隨時間的不同而有所差異。因此,在多時相遙感影象中,除了地物的變化會引起影象中輻射值的變化外,不變的地物在不同時相影象中的輻射值也會有差異。利用多時相遙感影象的光譜資訊來檢測地物變化狀況的動態監測,其重要前提是要消除不變地物的輻射值差異。
輻射校正是消除非地物變化所造成的影象輻射值改變的有效方法,按照校正後的結果可以分為
種,絕對輻射校正方法和相對輻射校正方法。絕對輻射校正方法是將遙感影象的
值轉換為真實地表反射率的方法,它需要獲取影像過境時的地表測量資料,並考慮地形起伏等因素來校正大氣和感測器的影響,因此這類方法一般都很複雜,目前大多數遙感影象都無法滿足上述條件。相對輻射校正是將一影象作為參考(或基準)影象,調整另一影象的
值,使得兩時相影像上同名的地物具有相同的
值,這個過程也叫多時相遙感影象的光譜歸一化。這樣我們就可以通過分析不同時相遙感影象上的輻射值差異來實現變化監測。因此,相對輻射校正就是要使相對穩定的同名地物的輻射值在不同時相遙感影象上一致,從而完成地物動態變化的遙感動態監測。
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...
資料預處理
常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...
資料預處理
用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...