1. 賽題理解 :
零基礎入門nlp - 新聞文字分類:
本文共有13個類別,是個多分類問題;
2. 資料讀取與eda:
進行了簡單的資料探索,能夠發現一些關聯性;在想,是否能夠進行更加細節的分析,挖掘深入的特徵;
3.簡單的文字分類
接觸了tf-idf對於詞的表示方法,以及n-grams;這些都是簡單的處理文字的方法
4.使用簡單的深度學習模型進行訓練 - fasttext
anaconda安裝fasttext比較麻煩,但是可以直接安裝gensim,裡面有fasttext的包;
from gensim.models import fasttext
5.使用word2vec進行詞向量訓練
Datawhale組隊學習 Task01 分治
分治在倒排索引 pagerank 計算 網頁分析等搜尋引擎相關的技術中都有大量的應用。分治演算法的主要思想是將原問題遞迴地分成若干個子問題,直到子問題滿足邊界條件,停止遞迴。將子問題逐個擊破 一般是同種方法 將已經解決的子問題合併,最後,演算法會層層合併得到原問題的答案。def divide con...
組隊學習 DCIC2021演算法分析題學習分享
資料預處理 方法一 基於geohash的停車點匹配潮汐點計算 方法二 基於距離匹配計算潮汐點 本次主要針對學習baseline過程中未曾想到的方法與 技巧進行分享 通過共享單車訂單資料與共享單車停車點資料進行匹配,可以獲得不同時間共享單車在何處開啟與關閉的資料。針對二者計算差值可以獲得不同停車點的潮...
Leetcode組隊學習任務
設計乙個支援 push,pop,top 操作,並能在常數時間內檢索到最小元素的棧。push x 將元素 x 推入棧中。pop 刪除棧頂的元素。top 獲取棧頂元素。getmin 檢索棧中的最小元素 class minstack def init self initialize your data s...