令人頭疼的科技短語處理

2021-04-02 05:15:19 字數 934 閱讀 3850

現在的搜尋專案中使用了以前短語處理的研究成果,以之來分析標題並進行索引與搜尋.但由於處理物件中包含大量科技新詞,且部分短語也不太規範,使得測試過程中發現了較多問題.其中最頭疼的是,100萬條短語的測試語料中,有如下語料使得短語分析軟體陷入死鎖.嗚呼悲慘~如何修正演算法?

院裡的分詞演算法太簡單,沒有未登入詞與新詞識別的模組,這對短語處理軟體造成的壓力實在太大.

由乙個充電電池和乙個顯示器組成的裝置,在顯示器上,電池的乙個使用週期內出現的顯示符號以一種加速方式在一種示範模式中顯示

3-(2-(4-(4-(氨基-亞氨基-甲基)苯基)-4-甲基-2,5-二氧代咪唑烷-1-基)乙醯氨基)-3-苯丙酸乙酯的鹽

用於製備n-(2-(r)-羥基-1-(s)-2,3-二氫化茚基)-2(r)-苯甲基-4(s)-羥基-5-(1-(4-(3-吡啶甲基)-2(s)-n′-(叔丁基甲醯氨基)哌嗪基))戊醯

胺(二化合物j或l-735,524)的還原性烷基化方法

(有機基)((σ-烯基)環戊二烯並二基)(矽烷橋連的)金屬茂化合物

(r-(r,r)-2-(4-氟苯基)-β-δ-二羥基-5-(1-甲基-乙基)-3-苯基-4-[(苯基氨基)羰基]-1h-吡咯-1-庚酸半鈣鹽的iii型結晶

2-(3,5-二氟苯基)-3-(4-(甲磺醯)苯基)-2-環戊烯-1-酮用作cox-2的一種抑制劑

n-(4-氧代-2-(1h-四唑-5-基)-4h-1-苯並吡喃-8-基)-4-(4-苯基丁氧基)苯甲醯胺的鹽

製備1-苄基-4-((5,6-二甲氧基-1-二氫化茚酮)-2-基)甲基哌啶的方法和中間體

中華雪蛤精(活取的哈士蟆油(中國林蛙)及卵)製劑

一種在切削加工過程中用於潤滑和冷卻切削刃和/或工件的方法和裝置及其在鋸床上的應用

4,4』-亞甲基-雙(異氰酸(3-氯-2,6-二烷基苯)酯)及其聚氨酯

從1,4-丁二醇脫除生成有色物質的方法及其在製備聚四亞甲基醚二醇(ptmeg)中的應用

令人頭疼的不相容問題

1 正在編譯.1 dd.cpp 1 c users zrq documents visual studio 2008 projects w w dd.cpp error c4335 檢測到 mac 檔案格式 請將原始檔轉換為 dos 格式或 unix 格式 1 c users zrq documen...

2020 4 29 一場令人頭疼的cf。。。

今天是被安排的cf。我真的是太菜了啊。又雙叒叕被機房的一群dalao吊打了。這就是我與6年級的dalao的區別嗎。我裂開了 t1 a exercising walk 簡單題。就是把移動距離加起來就好了。我居然能寫錯。真的是應該去開一道豬國殺寫寫。鍛鍊鍛鍊碼力。唉t2 b composite colo...

記 Hbase一次令人頭疼的宕機

宕機前日誌 分析集群在做什麼 圖一 上圖是hbase節點掛掉之前1秒的日誌,由日誌可以看出系統是在做compaction,也就是hbase底層資料原檔案的合併,包括無效資料檔案的刪除,新增資料檔案合併 圖二 從上邊這幅圖可以看出,同時在做合併刪除的錶不只一張,compaction是非常耗時切工作時很...