微博使用者關係經驗總結

2021-10-19 05:19:29 字數 802 閱讀 7994

產生1000萬條資料

eg:格式user1:user2,user3,user4

1.在產生使用者的資訊的時候,我們一般會用數字來表示,對於遍歷使用者,或者排序,都會比較方便

2.當生產資料,和寫入資料的速度不匹配的時候,我們可以採用多執行緒寫入不同的檔案,我們可以使用生產者消費者模式

3.當我們的檔案是一行是固定的,想要快速的定位檔案,我們可以把檔案轉化為二進位制檔案,直接隨機讀寫,會很快

4.有的時候載入到記憶體不一定比一行一行的讀寫快

5.當資料量大的時候,調整資料結構,並不能解決問題,必須要拆分,合併

6.在**規範中,包名小寫,類名首字母大寫,變數,方法駝峰命名

7.在寫**的時候,每寫乙個方法就要進行測試,如果要多執行緒進行處理的時候,先單執行緒進行測試

8.對檔案進行排序,總能簡化一些處理邏輯

9.我們初次產生的結果,可以持久化到檔案,再次訪問,速度會更快

10.對大檔案進行排序的時候,可以使用歸併排序

11.當資料過大的時候,放在記憶體,並不是乙個好主意,可以在檔案中設定標記位,比如當廣度優先遍歷的時候,我們標記節點的狀態,我們可以使用marked,但是有的時候,陣列太大,記憶體放不下,我們可以在檔案的格式上下手,在一行資料中,加入一位,來表示狀態是否被標記

12.有的時候,問題和**不是想的那麼複雜

13.當檔案過大,我們可以簡單的根據分割槽規則(盡量使檔案平均)來分割檔案,得到我們可以處理的檔案大小

經驗總結 資料預處理經驗總結1

1.對於特徵較多的df,進行資料預處理時需要對每個特徵變數進行相關處理,為了避免混亂,可以df.info 後將輸出複製到sublime,然後在sublime中針對每個特徵變數進行處理方式標註 非python 只是為了展示在sublime中的效果 action type 30697 non null ...

C 經驗總結

1.標準庫的使用過程中,自己一定要注意,不能使用迭代器保留,因為新的stl中,加入了迭代器新的檢測機制,就是為了怕使用者使用的過程中自己將迭代器有意無意的引用了不存在的物件,因此這就要求我們的迭代器物件一定要在訪問的物件之前進行析購,否則你的程式將出錯。這個是c v8.0 中ms 加入新的安全機制,...

面試經驗總結

我從事技術工作,這幾年的面試與被面試總結 先說我去被面試的經驗吧。回答清楚了2個問題,就能順利過關了。1。為什麼要離開上一家公司。2。公司為什麼要僱傭你。問第乙個問題的是hr 或老闆 呵呵 即使你技術過關,hr那裡沒有好的影響,結果是乙個字,難!如何回答呢?hr想推論出你在他的公司能呆多久。這個時候...