ubuntu14.04 安裝
pip install xgboost
報錯
sudo apt-get update
結果一樣的錯
解決方法:
sudo -h pip install --pre xgboost
successfully installed xgboost
cleaning up...
成功了!
過擬合
當你觀察訓練精度高,但檢測精度低,很可能你遇到過度擬合問題。
xgboost是速度快效果好的boosting模型。
boosting分類器屬於整合學習模型,基本思想是把成百上千個分類準確率較低的樹模型組合起來,成為乙個準確率很高的模型。這個模型會不斷地迭代,每次迭代就生成一顆新的樹。對於如何在每一步生成合理的樹,大家提出了很多的方法,我們這裡簡要介紹由friedman提出的gradient boosting machine。它在生成每一棵樹的時候採用梯度下降的思想,以之前生成的所有樹為基礎,向著最小化給定目標函式的方向多走一步。在合理的引數設定下,我們往往要生成一定數量的樹才能達到令人滿意的準確率。在資料集較大較複雜的時候,我們可能需要幾千次迭代運算,如果生成乙個樹模型需要幾秒鐘,那麼這麼多迭代的運算耗時,應該能讓你專心地想靜靜……
現在,我們希望能通過xgboost工具更好地解決這個問題。xgboost的全稱是extreme gradient boosting。正如其名,它是gradient boosting machine的乙個c++實現,作者為正在華盛頓大學研究機器學習的大牛陳天奇。他在研究中深感自己受制於現有庫的計算速度和精度,因此在一年前開始著手搭建xgboost專案,並在去年夏天逐漸成型。xgboost最大的特點在於,它能夠自動利用cpu的多執行緒進行並行,同時在演算法上加以改進提高了精度。它的**秀是kaggle的希格斯子訊號識別競賽,因為出眾的效率與較高的**準確度在比賽論壇中引起了參賽選手的廣泛關注,在1700多支隊伍的激烈競爭中占有一席之地。隨著它在kaggle社群知名度的提高,最近也有隊伍借助xgboost在比賽中奪得第一。
為了方便大家使用,陳天奇將xgboost封裝成了python庫。我有幸和他合作,製作了xgboost工具的r語言介面,並將其提交到了cran上。也有使用者將其封裝成了julia庫。python和r介面的功能一直在不斷更新,大家可以通過下文了解大致的功能,然後選擇自己最熟悉的語言進行學習。
命令列直接輸入
ipython notebook
一些python模組的安裝
開始接觸python程式設計,先前一直用的是標準庫,但平常還是要用到很多非標準庫的模組。下面記錄一下安裝一些模組的過程 目前用的是win7x64 beautifulsoup是一款優秀的html xml標籤解析工具,這裡有bs官方中文教程。安裝過程 用cmd切換到解壓檔案目錄 python setup...
vs10安裝之後一些列問題
記住 這時候08安裝的時候要自定義乙個例項 比如 mysql2008 不能在使用預設例項了 sql server 2008 express 安裝的時提示 重啟計算機失敗 刪除登錄檔鍵hkey local machine system currentcontrolset control session...
Kb,KB,Kbps,Mb,Mbps等一些列概念
先普及一下kb,kb,kbps,mb,mbps等一些列概念 1byte 8bit 1kb kilobyte 千位元組 1024byte 1mb megabyte,兆位元組,簡稱 兆 1024kb 1gb gigabyte,吉位元組,又稱 千兆 1024mb 1tb terabyte,太位元組,或百萬...