1.基本方法
1.1.正確設計索引;
1.2.避免全表掃瞄;
1.3.避免limit 100000000,20這樣的查詢
1.4.避免left join之類的查詢,不要將這樣的邏輯處理交給資料庫
1.5.每個表的鍵不要太多,大資料時會增加資料庫的壓力;
2.資料表優化
2.1.採用分表技術(大表分小表)
(1)、垂直分表
將部分字段分離出來,設計成分表,與主表的主鍵關聯;
(2)、水平分表
將相同欄位表中的記錄按照某種hash演算法進行拆分;
2.2.分割槽技術
與水平分表類似,是在邏輯層進行的水平分表;
3.伺服器方面採取的方法
3.1.採用memcached之類快取系統,減少資料庫讀取操作;
3.2.採用主從資料庫設計,分離資料庫的讀寫壓力;
3.3.採用squid之類的**伺服器和web快取伺服器技術
mysql億級資料遷移
背景 mysql5.6 分庫分表 跨資料庫例項,要求線上遷移 切換功能 檢視各資料庫占用磁碟空間大小 select table schema,concat truncate sum data length 1024 1024,2 mb as data size,concat truncate sum...
使用Python Pandas處理億級資料
在資料分析領域,最熱門的莫過於python和r語言,此前有一篇文章 別老扯什麼hadoop了,你的資料根本不夠大 指出 只有在超過5tb資料量的規模下,hadoop才是乙個合理的技術選擇。這次拿到近億條日誌資料,千萬級資料已經是關係型資料庫的查詢分析瓶頸,之前使用過hadoop對大量文字進行分類,這...
使用Python Pandas處理億級資料
在資料分析領域,最熱門的莫過於python和r語言,此前有一篇文章 別老扯什麼hadoop了,你的資料根本不夠大 指出 只有在超過5tb資料量的規模下,hadoop才是乙個合理的技術選擇。這次拿到近億條日誌資料,千萬級資料已經是關係型資料庫的查詢分析瓶頸,之前使用過hadoop對大量文字進行分類,這...