簡歷的目的是拿到面試機會,所以要
1、簡歷專案
一、投資人使用者畫像,給新的專案推薦投資機構,文字的處理,文字相似問題,用tfidf和淺語義模型解決,文字檢索技術,可以歸類為文字檢索的問題
文字預處理:中文分詞,然後去除停用詞、刪除低頻詞、進行word ->id轉換
可選的優化:比如用tf-idf為詞彙加上區域性權重,構建tf_idf向量
將訓練文字用dictionary轉換成id表現的形式,這就得到了term-document矩陣a
降維,將奇異值s減少為k個(topic值),當然k是個經驗數字,比如200-500,然後u選前k列,v選前k列;s選左上角k行k列對角方陣,其實v的
新的查詢文字q,其查詢向量為q上公式;兩個向量的相似度計算常常使用consine余弦相似度
gensim庫的實現:
lsi模組
similarities模組
二、發現創投新概念,文字分類,打標籤問題,文字分類有傳統的 tfidf + lr 或者svm;深度學習中詞嵌入+lstm,詞嵌入的是通過公司內部收集關於**的資料,
三、搜狗大資料使用者畫像:特徵:搜尋文字,label:年齡、性別、學歷
三個子任務、任務查詢詞、
使用者畫像:
研究準備與資料收集 -> 親和圖 -> 人物原型框架 -> 優先順序排序 -> 完善人物原型 ->
使用者畫像構建流程:
基礎資料收集 -> 行為建模 -> 構建畫像
網路行為資料 文字挖掘 基本屬性
服務內行為資料 自然語言處理 購買能力
使用者內容偏好資料 機器學習 行為特徵
使用者交易資料 **演算法 興趣愛好
聚類演算法 心理特徵
社交網路
1、資料預處理
停用詞:教育高:空格留下,教育低,用之的概率大,
分詞處理:jieba分詞
2、特徵表示:
(2)詞嵌入:使用google的word2vec工具在搜狗新聞語聊上訓練得到了常用詞的詞向量,應用到使用者的歷史查詢詞中,該方法得到的詞向量可以有效計算出兩個詞之間的相似度,從而表示出不同使用者查詢歷史的差異
word2vec詞向量可以較好地表達不同詞之間的相似和模擬關係
(3)主題詞嵌入:
該任務中,每個使用者具有多組查詢詞,其中有些查詢相關性較強,有些則完全不相關,使用主題模型來抽取使用者的多個查詢主題,更有利於刻畫使用者的查詢習慣,基於lda的結果,使用topical word
embedding模型訓練得到每個查詢詞的詞向量。twe模型與常見的word2vec不同在於,其計算出的詞向量同時考慮詞的上下文及該詞的所在主題的資訊。使用tfidf特徵值對使用者查詢歷史中的詞向量進行加權平均,可以得到表示整體查詢的向量值,可以將其直接作為多個分類模型的輸入,完成使用者層級的分類任務
(4) doc2vec特徵表示:
為了將文件直接表示成乙個固定長度的向量,採用doc2vec方法,它通過直接構造文件向量,並將該向量加入到該文件中詞向量的訓練過程,進行共同訓練,從而得到能直接體現該文件語義特徵的向量
根據訓練文件向量的網路結構不同,可分為dm分布式記憶體模型和dbow 分布式詞袋 dm是更具上下文和文件id**中心詞,dbow是以文件id去**文件中的詞
(5) 人工構建的特徵:
查詢詞的個數、查詢詞的平均長度、查詢詞的最大長度、有空格的query佔總查詢的比例、
3、模型結構
基於tfidf的傳統機器學習模型
第一層模型:嘗試了sklearn中的lr、knn、svc、rf和xgboost中的gliear和gbtree。其中,由於tfidf特徵過於稀疏、維度過高、樹形模型表現結果很差,由於資料量太大,knn和svc演算法都不能訓練出結果
gliear線下測試要高於邏輯回歸,但是線下成績不如邏輯回歸
基於分布式向量的神經網路模型
第二層融合模型(stacking):
融合的優點:
三個子任務上訓練,模型輸出的概率值作為下一層模型的輸入,由於三個子任務分別是6分類、6分類、2分類,所以第一層特徵維度是6+6+2=
xgboost 引數調節
(2)調節
4、資料後處理---錯誤分析
補充缺失值,含有缺失值的樣本剔除
5、總結和展望
深度學習方法
四、深度學習:
lstm在
五、反欺詐建模中的資料科學
資料獲取與清洗 -> 特徵獲取 -> 高階特徵獲取 -> 建模 -> 風控決策
企業的金融資料 統計學習 gbdt 梯度提公升樹 消費能力評級
消費資料 資料分析 svm 支撐向量機 使用者風險評級
信用資料 社交網路分析 rf 隨機森林 社交關聯評級
行為資料 使用者屬性評級
社交資料
其他六、分詞、標註、命名實體識別
結巴分詞的原理
面試 努力方向和面試準備
1.面試官看重什麼 就兩點 現在的能力,未來的潛力。公司需要的是t字形的人才,其中 一 代表的是全面的計算機體系基礎知識,包括計算機原理 作業系統 計算機網路 演算法等,也就是計算機專業的相關課程 其中 代表了專業深度,這部分在社招的時候更是考察的重點,包括技術深度 專案經歷 團隊貢獻 實際解決問題...
讀書有益 》談談簡歷和面試
對於應聘者來說,都希望在面試的時候全方位展示自己,把自己會的東西都講出來。對於面試官來說,他所希望的是在較短的時間內形成乙個對應聘者的初步判斷,確定應聘者是否能夠勝任這份工作,能夠給企業創造價值。因此,應聘者需要轉化角度,把面試官特別關注的地方,用簡練的語言,具體的案例重點呈現出來。應聘者怎麼面對以...
針對簡歷寫得面試準備
1.軟體工程 軟體工程 software engineering,簡稱為se 是一門研究用工程化方法構建和維護有效的 實用的和高質量的軟體的學科。它涉及到程式語言,資料庫,軟體開發工具,系統平台,標準,設計模式等方面。為了解決軟體危機,追求最大復用和可維護性。2.ooa ood 物件導向分析方法 o...