生物資訊處理一些經過人工輸入的資料,往往有少量的錯誤。但是這些元資料往往要與結果資料統一分析,且非常之重要。資料量小,那就乙個乙個改吧,如果太多了,杯具了, 怎麼辦?
工作需要寫了乙個python小函式,用fuzzywuzzy模糊匹配技巧解決人工資料和標準資料的匹配問題。基本原理是先精確匹配,如果沒有,採用模糊匹配遍歷目標空間,選取打分最大的提交使用者檢查,最後輸出結果。
分享給大家,也許有用。
fuzzywuzzy: fuzzywuzzy 0.16.0
這裡用了fuzzy.ratio,大家也可以根據需要選其它的,參看文件。
Python處理資料匹配問題
參考部落格 python做資料匹配 最近做了乙個資料匹配的小任務,記錄一下實現的過程以便以後用到的時候能夠檢視 簡單來說,資料匹配就是對資料庫做join操作,將幾個資料庫做inner join 基本的操作學習可以參考上面的部落格鏈結,對pandas這個第三方庫有很好的介紹。更加詳細的資料可以參考pa...
用棧實現括號匹配 python
python資料結構與演算法分析 第二版 用python實現棧,檔名為pystack.py user bin env python coding utf 8 假設列表尾部是棧頂端o 1 class stack def init self self.items defisempty self 判棧空 ...
Python使用正則匹配處理文字
文字內容處理 import re pattern re.compile xmin n.xmax n.text pattern1 re.compile xmax pattern2 re.compile xmin with open 041.textgrid as lines 一次性讀入txt檔案,並把...