快速進行資料抽取

2021-10-03 14:36:17 字數 435 閱讀 3703

今天做資料抽取的時候一直在用select,但是後來發現有的不能抽取出來,後來發現xpath更快速

首先給pom.xml加入依賴

cn.wanghaomiao

jsoupxpath

2.2

這裡面可以用copy path來代替要抽取的資料

public static string rules7(string html)

// system.out.println(o.tostring());

result = o.tostring();

}if(result.contains("一、採購人:"))catch (exception e)

}else

return result;

}

Hive進行資料抽樣 隨機抽取

3.hive隨機抽取 4.mysql隨機抽樣 原來的50 select from liyang tablesample 50percent 30m select from liyang tablesample 30m 200行 每個map200行 select from liyang tablesa...

SQLOAD進行資料匯入

在使用文字進行大資料量匯入的時候,很容易導致記憶體溢位的問題。sqlload作為oracle官方提供的大資料量的匯入放大,在效率上具有很大的優勢 sqlload存在的不足 只支援文字型別 txt,csv 的匯入,不支援excel等的檔案的匯入 對於伺服器環境的要求較高 需要至少安裝oracle的cl...

LINQ 進行資料轉換

可以使用 linq 查詢建立包含元素的輸出序列,這些元素來自多個輸入序列。以下示例演示如何組合兩個記憶體中資料結構,但相同的原則可應用於組合來自 xml 或 sql 或資料集源的資料。假設以下兩種類型別 class student public string last public int id p...