今天做資料抽取的時候一直在用select,但是後來發現有的不能抽取出來,後來發現xpath更快速
首先給pom.xml加入依賴
cn.wanghaomiao
jsoupxpath
2.2
這裡面可以用copy path來代替要抽取的資料
public static string rules7(string html)
// system.out.println(o.tostring());
result = o.tostring();
}if(result.contains("一、採購人:"))catch (exception e)
}else
return result;
}
Hive進行資料抽樣 隨機抽取
3.hive隨機抽取 4.mysql隨機抽樣 原來的50 select from liyang tablesample 50percent 30m select from liyang tablesample 30m 200行 每個map200行 select from liyang tablesa...
SQLOAD進行資料匯入
在使用文字進行大資料量匯入的時候,很容易導致記憶體溢位的問題。sqlload作為oracle官方提供的大資料量的匯入放大,在效率上具有很大的優勢 sqlload存在的不足 只支援文字型別 txt,csv 的匯入,不支援excel等的檔案的匯入 對於伺服器環境的要求較高 需要至少安裝oracle的cl...
LINQ 進行資料轉換
可以使用 linq 查詢建立包含元素的輸出序列,這些元素來自多個輸入序列。以下示例演示如何組合兩個記憶體中資料結構,但相同的原則可應用於組合來自 xml 或 sql 或資料集源的資料。假設以下兩種類型別 class student public string last public int id p...