論場景在研發中的重要性

2021-09-12 09:44:20 字數 1613 閱讀 3317

隨著中國改革開放程度的加深,網際網路行業也逐漸出現變革,典型的變化就是由原來的低端重複性造輪子,逐步轉向高階,以技術創新為主導。乙個有力的證明就是近年來以技術驅動的創業公司越來越多,這在10年前是不可想象的。在人才要求上,對工作經驗不再那麼看重,而更加重視求職者的學歷,專業,背景。

在這樣的背景下,一些原來傳統的網際網路大公司,將逐步失去競爭優勢。當然事實上也沒這麼邪火,這個變化是緩慢的,也有許多公司不願意接受應屆碩士,嫌棄他們沒有ai經驗。因為他們認為學術界和工業界有鴻溝。但是一些真正以技術創新驅動的ai公司,更加青睞於高學歷,有研發背景的海歸。說句實話,目前國內的ai,能夠搞的起來的,也就那麼幾家而已,其餘的都是炒作。一些新興的ai創業公司,除了商湯,依圖,雲從,曠視外,nlp領域並沒有出現獨角獸。所以重點談一下nlp。

3月10號北理工舉辦了一場知識圖譜研討會,與會邀請了9位學術界和工業界的專家。在最後1個小時的問答環節裡,有聽眾向專家提出了這麼乙個問題:招聘**要做求職者和jd的匹配度,如何解決這樣的問題?專家搗鼓了半天,最後也沒給出令人滿意的答案來。其實我認為,真正能解決問題的人,還不一定就是這些學術界的專家。都說場景是ai第一要素,如果乙個人整天指望著**文活著,那麼他的思維裡,對場景的概念應該是淡化的。迄今為止,見到過的最務實的研發應該數阿里的達摩院了。阿里有真實海量的資料,有明確的落地場景,在這樣的背景下砸1000億搞研發,是比較靠譜的。

之前我有乙個觀點,那就是研發ai方案之前,一定要把人類自身對於特定場景的邏輯搞明白了,從中抽象出數學模型出來。然後做現有演算法模型與場景的匹配度,如果全都匹配不上,那就在原來的基礎上重新整合出的模型出來。但是很遺憾,很多任務業界的程式設計師並沒有意識到這個問題,對於乙個演算法,他的核心從來不是公式推導,而是這個演算法是如何產生的,能解決哪些問題,不能解決哪些問題,以及演算法的缺陷和改進的方向。說白了,研發就是把握好大的方向,比如深度學習在語義理解中承擔什麼樣的角色?很多學者追捧如何改進seq2seq,**滿天飛,從我的角度來看,這些工作是沒有太大的實際意義的。包括機器翻譯,單純依靠nmt也是不切實際的。當然,seq2seq對於描述性的文字,是很好的。對於描述性的文字,深度學習都會發揮很好的效果。原因就是描述性的文字,規則不是很強,更需要向量這種語義表示來做語義相似度運算,這就是場景的問題了。而對於規則性強的場景,翻譯就得靠規則和語義相似度替換了,而對於商品標題這類問題,由於大部分標題都是拼湊的,並不是很符合語法,所以用seq2seq效果會很差的,這個時候統計建模就會發揮作用了。

具體方案如上圖所示:其中u為根據規則得到的相似度分數,最後求總分的時候引入平滑係數,是因為兩部分的比重在實際中是不同的,需要手動調節。採用mse作為損失函式。另外在jd中,有的描述,比如能夠修改lucene源**等,如果採用規則,效果會非常差,因為大部分程式設計師都是僅僅會使用lucene而已。所以簡歷**現了lucene,並不代表就合適。

之前有人問過我,他們公司做的抽取,要求抽取出高管,基於規則非常差,準確率只有70%多,不知道怎麼解決。一句話,知識圖譜是良方。

學會case by case,遠比死學演算法知識重要,還是那個觀點,對於ai演算法,推導不是核心。

posted @

2018-04-17 12:55

佟學強 閱讀(

...)

編輯收藏

論安全的重要性

論安全的重要性 安全 是乙個永不過時的話題。在我們的現實生活中,無數的事實告訴我們,凡是無視安全的行為必將付出慘痛的代價。世界上每天都在發生著安全事故,汽車超載,超速行駛,闖紅燈 生產單位偷工減料,違規操作 公共服務場所無視安全規範 種種無視安全的情況造成了一起又一起的安全事故。慘痛的教訓告訴我們任...

論溝通的重要性

溝通,是建立人際關係的橋梁,如果這個世界缺少了溝通,那將是乙個不可想象的世界。可以這樣說,沒有溝通就沒有人際的互動關係,人與人之間關係,就會處在僵硬 隔閡 冷漠的狀態,會出現誤解 扭曲的局面,給工作和生活帶來極大的害處。資訊時代的到來,工作 生活節奏越來越快,人與人之間的思想需要加強交流 社會分工越...

論特徵的重要性

特徵工程有多重要,可以引用一句話來表達 資料和特徵決定了模型的上限,演算法只是在幫忙逼近這個上限。好的特徵是決定乙個模型準確率的關鍵,那問題來了?什麼是特徵呢,特徵就是資料對於結果的一種描述。比如我們形容乙個人是否漂亮,那她的眼睛大小 鼻子的形狀 臉型都是特徵。通常,當獲得乙份結構化資料的時候,如果...