2020/06/03 -
其實一開始的時候,我是想看看,他們都是使用什麼特徵來進行比較。。。
首先是工具的安裝,然後通過自己編寫的幾個c原始碼,編譯之後進行比較。
他的結果說明,能夠有相似度出來;然後又對比了這個影象的相似度,發現這個工具並不支援。我估計是因為他是使用線性滑動視窗來進行比較的吧。
ssdeep的使用過程,
ssdeep -s * > sample.ssd
這個是生成每個檔案的雜湊數值
ssdeep -m sig_file -s *
這個是將要比對的檔案匹配之前的指紋。
-s是遮蔽錯誤。
下面來說一下,我的實踐結果。
主要測試是當時在github上找到的ioc列表。
然後有乙個樣本.i,數量比較多,就拿他做例子。
通過上面的命令,的卻能發現有很大的相似程度,也說明了這種方法的有效性。
但是我再測試其他的內容的時候,發現了乙個問題,很多樣本他們都不匹配。大部分都不能匹配上。
這個結果可能,真的是因為這些樣本不相似吧,當然也能找到一些相似的。但是比較少。
而且,他的結果輸出過程是這樣的,如果他們不相似,就不輸出結果。
這裡呢,產生了一些疑問。
這種相似度的可解釋性有多少高,在我這裡就是說,這東西是**相似呢?
對於系統**的部分,是不是也會被認定為相似,這種應該會有干擾吧。
對於這個聚類的結果,我不是清楚怎麼聚類這個過程。。這裡github上有幾個相關的。、
[1]fuzzy-hashing-ssdeep
語義相似度 實踐篇
這篇文章,專門講語義相似度問題。先看場景 scene 二 kb qa的兩個問題 獲取question的語義表示 把語義表示轉換成知識圖譜的能夠理解的語言邏輯形式。無論是核心推導鏈還是向量建模,核心都是question和answer的語義相似度問題。雖然學術界對於語義相似度問題,都說是熱點和難點,但是...
大文字相似度比較
這個月一直在做文字匹配研究,大到一篇文章,現在小到乙個字段。處於自由散漫的探索,而且時間較短,所以可能較為膚淺,感興趣的可以一起交流。1.查詢一篇重複文字。前一段時間做過測試,google的simhash演算法效果還是不錯的,文字長度與一篇 長度差不多。步驟為 a.給整篇文件分詞 term 分詞用的...
Python TF IDF 比較文字相似度
部分 coding utf 8 import codecs import jieba.posseg as pseg from gensim import corpora,models,similarities from hotelmatcher.constant import class tfidf...