字王看:大資料和高頻量化交易
這個原本是和國內一家做高頻量化公司boss溝通時的寫的,修改了一下,作為blog和zwpython的大資料資料,發布了:
關於大資料、高頻交易和人工智慧,我的基本觀點:
凡是無法通過「足彩資料」進行實盤測試的方案、演算法,都是在耍流氓。
高頻量化交易個人觀點
1、採用2-3個維度作為資料分析座標,
::維度越多,可供單一維度的資料量就也少,反而會影響分析結果.
2、策略方面,有分析和統計兩種模式,各有優劣,個人建議採用統計作為匹配模型。
這個也是目前大資料分析的乙個趨勢,人工智慧領域的外語翻譯專案,六十年代開始,一直採用分析模型,始終無法商業化。2023年後,網際網路的興起,派生海量語義庫,短短幾年時間,人機外語翻譯已經初步實用化。
傳統技術平台,首製於pc運算速度,偏重與分析,近年,伴隨cuda並行運算的崛起,pc也可達到以往巨型機10g以上的運算速度,分析建模,逐漸被統計建庫(資料庫)取代。
統計模型的建立、選擇,實際上也融合了不同團隊的策略。
模型建立後,匯入歷史資料,進行歸一化處理、統計分析、聚類分析,可生成2-3個維度的資料庫,便有了2d、3d的資料節點。
執行時,獲取實際交易資料,按資料節點進行匹配,就可以獲得實時的:盈利概率(引數v)
引數v,根據預設的交易閥值k,便可進行買、賣、忽略等預設操作。
3、實際**,採用群組交易,測試表明,針對單一物件的分析**,遠低於多個物件的群組分析。
經驗表明,對整個資料級,5-8%左右的篩選結果,盈利概率(引數v)相對較高
通過一年的盤前資料分析,相關模型不斷優化,目前,盈利概率(引數v)已經超過95%
這個指標,應該是目前行業最高的
以上是個人的一家之言,僅供參考。
技術部落格:
【補充】 基於大資料的量化投資、**系統,驗收標準,
摘自qq對話
注意下盈利引數v,其他都是技術細節
目前**整體波動大,要和**平均指數比,不然沒有意義
另外,注意穩定性,取2-3個月的周平均指數,看看系統模型有沒有bug
MySql 大資料量快速插入和語句優化
insert語句的速度插入乙個記錄需要的時間由下列因素組成,其中的數字表示大約比例 連線 3 傳送查詢給伺服器 2 分析查詢 2 插入記錄 1x記錄大小 插入索引 1x索引 關閉 1 這不考慮開啟表的初始開銷,每個併發執行的查詢開啟。表的大小以logn b樹 的速度減慢索引的插入。加快插入的一些方法...
王堅 雲計算和大資料,你們都理解錯了
王堅,阿里巴巴最富爭議性的人物之一,愛者極愛,恨者極恨。5月12日,我和mtc的朋友,在杭州發起並主持了一場關於雲計算的沙龍,蝦公尺的思踐聊了雲 快的打車陳偉星聊了雲時代的產品設計,短趣網王強宇聊了雲時代的創業,當然少不了王堅聊一聊他對雲計算的看法。一 無人機是大資料的典型 我熱愛和平,但一講到雲計...
從還有乙個角度看大資料量處理利器 布隆過濾器
思路 從簡單的排序談到bitmap演算法。再談到資料去重問題,談到大資料量處理利器 布隆過濾器。情景1 對無反覆的資料進行排序 給定資料 2,4。1,12。9,7,6 怎樣對它排序?方法1 主要的排序方法包含冒泡,快排等。方法2 使用bitmap演算法 方法1就不介紹了。方法2中所謂的bitmap是...