簡歷專案的梳理和面試準備

2022-04-22 13:16:24 字數 2769 閱讀 6352

簡歷的目的是拿到面試機會,所以要

1、簡歷專案

一、投資人使用者畫像,給新的專案推薦投資機構,文字的處理,文字相似問題,用tfidf和淺語義模型解決,文字檢索技術,可以歸類為文字檢索的問題

文字預處理:中文分詞,然後去除停用詞、刪除低頻詞、進行word ->id轉換

可選的優化:比如用tf-idf為詞彙加上區域性權重,構建tf_idf向量

將訓練文字用dictionary轉換成id表現的形式,這就得到了term-document矩陣a

降維,將奇異值s減少為k個(topic值),當然k是個經驗數字,比如200-500,然後u選前k列,v選前k列;s選左上角k行k列對角方陣,其實v的

新的查詢文字q,其查詢向量為q上公式;兩個向量的相似度計算常常使用consine余弦相似度

gensim庫的實現:

lsi模組

similarities模組

二、發現創投新概念,文字分類,打標籤問題,文字分類有傳統的 tfidf + lr 或者svm;深度學習中詞嵌入+lstm,詞嵌入的是通過公司內部收集關於**的資料,

三、搜狗大資料使用者畫像:特徵:搜尋文字,label:年齡、性別、學歷

三個子任務、任務查詢詞、

使用者畫像:

研究準備與資料收集  -> 親和圖  ->  人物原型框架  -> 優先順序排序 -> 完善人物原型 ->

使用者畫像構建流程:

基礎資料收集  ->  行為建模  -> 構建畫像

網路行為資料                文字挖掘             基本屬性

服務內行為資料    自然語言處理         購買能力

使用者內容偏好資料    機器學習             行為特徵

使用者交易資料                **演算法    興趣愛好

聚類演算法    心理特徵

社交網路

1、資料預處理

停用詞:教育高:空格留下,教育低,用之的概率大,

分詞處理:jieba分詞

2、特徵表示:

(2)詞嵌入:使用google的word2vec工具在搜狗新聞語聊上訓練得到了常用詞的詞向量,應用到使用者的歷史查詢詞中,該方法得到的詞向量可以有效計算出兩個詞之間的相似度,從而表示出不同使用者查詢歷史的差異

word2vec詞向量可以較好地表達不同詞之間的相似和模擬關係

(3)主題詞嵌入:

該任務中,每個使用者具有多組查詢詞,其中有些查詢相關性較強,有些則完全不相關,使用主題模型來抽取使用者的多個查詢主題,更有利於刻畫使用者的查詢習慣,基於lda的結果,使用topical word 

embedding模型訓練得到每個查詢詞的詞向量。twe模型與常見的word2vec不同在於,其計算出的詞向量同時考慮詞的上下文及該詞的所在主題的資訊。使用tfidf特徵值對使用者查詢歷史中的詞向量進行加權平均,可以得到表示整體查詢的向量值,可以將其直接作為多個分類模型的輸入,完成使用者層級的分類任務

(4)  doc2vec特徵表示:

為了將文件直接表示成乙個固定長度的向量,採用doc2vec方法,它通過直接構造文件向量,並將該向量加入到該文件中詞向量的訓練過程,進行共同訓練,從而得到能直接體現該文件語義特徵的向量

根據訓練文件向量的網路結構不同,可分為dm分布式記憶體模型和dbow 分布式詞袋 dm是更具上下文和文件id**中心詞,dbow是以文件id去**文件中的詞

(5) 人工構建的特徵:

查詢詞的個數、查詢詞的平均長度、查詢詞的最大長度、有空格的query佔總查詢的比例、

3、模型結構

基於tfidf的傳統機器學習模型

第一層模型:嘗試了sklearn中的lr、knn、svc、rf和xgboost中的gliear和gbtree。其中,由於tfidf特徵過於稀疏、維度過高、樹形模型表現結果很差,由於資料量太大,knn和svc演算法都不能訓練出結果

gliear線下測試要高於邏輯回歸,但是線下成績不如邏輯回歸

基於分布式向量的神經網路模型

第二層融合模型(stacking):

融合的優點:

三個子任務上訓練,模型輸出的概率值作為下一層模型的輸入,由於三個子任務分別是6分類、6分類、2分類,所以第一層特徵維度是6+6+2=

xgboost 引數調節

(2)調節

4、資料後處理---錯誤分析

補充缺失值,含有缺失值的樣本剔除

5、總結和展望

深度學習方法

四、深度學習:

lstm在

五、反欺詐建模中的資料科學

資料獲取與清洗    ->    特徵獲取   ->    高階特徵獲取  ->  建模  -> 風控決策

企業的金融資料        統計學習                gbdt 梯度提公升樹       消費能力評級

消費資料           資料分析                 svm 支撐向量機        使用者風險評級

信用資料           社交網路分析           rf  隨機森林             社交關聯評級

行為資料                                       使用者屬性評級

社交資料

其他六、分詞、標註、命名實體識別 

結巴分詞的原理

面試 努力方向和面試準備

1.面試官看重什麼 就兩點 現在的能力,未來的潛力。公司需要的是t字形的人才,其中 一 代表的是全面的計算機體系基礎知識,包括計算機原理 作業系統 計算機網路 演算法等,也就是計算機專業的相關課程 其中 代表了專業深度,這部分在社招的時候更是考察的重點,包括技術深度 專案經歷 團隊貢獻 實際解決問題...

讀書有益 》談談簡歷和面試

對於應聘者來說,都希望在面試的時候全方位展示自己,把自己會的東西都講出來。對於面試官來說,他所希望的是在較短的時間內形成乙個對應聘者的初步判斷,確定應聘者是否能夠勝任這份工作,能夠給企業創造價值。因此,應聘者需要轉化角度,把面試官特別關注的地方,用簡練的語言,具體的案例重點呈現出來。應聘者怎麼面對以...

針對簡歷寫得面試準備

1.軟體工程 軟體工程 software engineering,簡稱為se 是一門研究用工程化方法構建和維護有效的 實用的和高質量的軟體的學科。它涉及到程式語言,資料庫,軟體開發工具,系統平台,標準,設計模式等方面。為了解決軟體危機,追求最大復用和可維護性。2.ooa ood 物件導向分析方法 o...