吉姆·霍恩薩爾:探索你的基因
毫無疑問,我們如今淹沒在一片網路資訊的海洋中。
谷歌(goog,577.32,+0.14%)
總裁埃里克·施密特(eric schmidt)說:「從遠古時代到2023年,人類活動總共產生了5艾位元組(相當於500億億位元組)的資訊。而現在,我們每兩天就要產出這個數量。」
根據facebook
(prefaceboo,,%)資料,每月通過該**被分享的網路內容超過300億條。
(twitter,,%)上每天發布超過9,500萬條微博。
那麼在如此海量的資料面前,要如何來發掘出其中的真知灼見呢?怎麼才能調高網路內容的訊雜比,獲取其中有用的見解和知識呢?
搜尋還是發現
只要我們知道要找的是什麼,而且正確答案只有乙個,那麼使用現有的搜尋方法就很好辦。好比你要搜尋2023年棒球世界冠軍老虎隊的二壘手是誰,答案很清楚:迪克·麥考利夫(dick mcauliffe)。
但發現比搜尋難得多。在你希望發現新內容的時候,你不知道你要找的是什麼,而且可能還不止乙個「正確」答案。要使用現有的網路搜尋工具來尋求有價值的發現,就好比大海撈針,結果將令人非常沮喪。
乙個可替代的搜尋選擇是建立一套具有模式識別功能的系統。該系統將借助專家對某個學科領域深厚翔實的知識功底來進行資訊的挖掘。
在這些專家系統的外表之下,隱藏著乙個組織資訊的結構核心(本體);在核心之上的是屬性和資源的命名(相關性分類);基於這些分類再發展出一套穩健的公式或演算法,用以從資料中攫取有用的知識和見解。
基因工程無處不在
以人類基因組計畫為開端的基因測序工程始於2023年。生物化學家們花費14年之久,分離出了dna序列中的25,000條基因,和造成個體差異的1,400萬種變化形式(即單核苷酸多型性,snps),從這些資料中尋找某種規律,以期由此改進醫療保健的質量,同時降低成本。
基因解析方法可以應用到個性化醫療服務上。基因保健公司(genomic health)為我們提供了乙個成功的例子。該公司數年來成功分析了數千份活體組織切片。通過觀察組織切片,進而分析生成的結果和資料,他們可以識別出21個與疾病**風險有關的基因,還可以了解某個病人是否有望經過化療改善病情。現在,患病女性如果知道自己的發病風險較低,就可以根據自身情況調整**,從而避免昂貴、痛苦且毫無必要的化療。
實現個性化**搜尋是另乙個大挑戰,**搜尋**pandora已經用他們的**基因組計畫(music genome project)直面這個挑戰。該**的數十名**理論專家從80萬首歌曲中分離出400種**元素,其中包括每分鐘的節拍數,是否存在八度平行或塊狀和弦,以及不同和聲形式的出現頻度,等等。通過解析使用者提交的**,發現構成這首歌的「基因」模式的微妙個性,pandora**會給使用者推薦其他風格類似的歌曲。
另乙個因資料過載而苦惱的領域是尋偶。單身男女們怎麼才能找到合適的另一半呢?基因工程在這裡也有應用,或許你可以把它叫做「事兒媽基因組計畫」(yenta genome)。約會交友**perfectmatch已經建立了乙個這樣的資料探勘系統,該系統採用由行為科學和心理學博士們設計的50多個特徵元素(包括生活方式,戀愛風格,價值取向和理念等等)來進行配對。只要填寫乙份個人檔案,使用者就可以獲得系統為其推薦天造地設另一半的候選名單。
同樣的方法也可以用來為消費者尋找最理想的度假去處,這就是目的地基因組計畫(destination genome project)。我參與創立的旅遊**triporati通過分析世界各地的兩千多處旅遊點,拆解出了62項特徵,比如當地有沒有高爾夫或網球設施,有什麼建築古蹟和歷史名勝等等。使用者只需告訴我們其偏好,乙份專為他定製的推薦行程地圖就生成了。這套系統的核心是77名專業遊記作者的經驗積累,他們為frommer』s、rough guid和lonely planet等旅遊**撰寫了超過650本旅行指南。同時,使用者也可以很方便地從站上好友那裡聽取他們的出行經驗。
未來的趨勢在**?
各種新的類基因工程的例子無處不在。電影**netflix
(nflx,221.39,+4.02%)
就開發了一套挖掘電影資料的引擎。同樣還有挖掘藝術、啤酒和金融資訊的引擎。基因工程思想的每乙個應用都遵循了模式識別的原理,針對各自領域的問題發掘有用的資訊。
如果一項決定要耗費大量的時間和金錢,或者這項決定事關重大(比如有關你的健康),有證據表明,每當這時,聽取專家的意見是最好不過了(我得的什麼病才有了這些症狀啊?),也可以通過朋友智慧型(wisdom of friends)這一「確認引擎」作為補充(有誰去過馬達加斯加?)。
我們產出的資料越多,如何讓這些資料有意義,以及如何讓它們變成有用的資訊,就變得愈加重要。這樣我們才能獲得更多的知識甚至可能獲得更多的智慧型。演算法讓生活更美好!
薩爾曼·汗(salman khan)的可汗學院(the khan academy)引領著教育基因組計畫的發展。另一些人則致力於尋找「創業基因」(startup genome)來**乙個人能否獲得商業上的成功。其他還有一些很有趣的類基因方法的運用,在政治,藝術,時尚甚至宗教領域(慧根基因)都有表現。
類基因方法的要點,是去發現重要的見解;改變**疾病方式見解、找到愛聽的**、確定度假地點,或者找尋婚姻伴侶的見解。只要運用了模式識別的原理和規則,就可以用各種系統化的方法來梳理井噴的資料。
隨著我們構建專家系統的技術越來越成熟,我們就能夠把從大海浬撈針變成為手握大把的針了。
搜尋引擎演算法最新趨勢揭秘
搜尋引擎一直在尋找新的排名演算法以便能夠改善搜尋質量並能更好的服務網路使用者。事實上,使用者滿意度是增加搜尋引擎市場份額的最重要的因素,這也是驅使搜尋引擎不斷改進,取悅使用者的原動力。讓我們來探索和揭秘一下今後搜尋引擎的演算法趨勢。曾幾何時,搜尋引xbnhw擎是以關鍵字為中心的。大量的關鍵字堆砌和 ...
DDoS攻擊新趨勢 海量移動裝置成為新一代肉雞
近期,阿里雲安全團隊觀察到數十起大規模的應用層資源耗盡式ddos攻擊 應用層cc攻擊 阿里雲ddos高防實現智慧型防護全程自動化檢測並清洗,未對使用者側業務產生任何影響,這類攻擊存在一些共同的特徵,阿里雲安全團隊對此做了跟蹤分析。通過監測到的資料發現,這類攻擊有以下幾個特點 移動端裝置系統分布均勻 ...
DDoS攻擊新趨勢 海量移動裝置成為新一代肉雞
近期,阿里雲安全團隊觀察到數十起大規模的應用層資源耗盡式ddos攻擊 應用層cc攻擊 阿里雲ddos高防實現智慧型防護全程自動化檢測並清洗,未對使用者側業務產生任何影響,這類攻擊存在一些共同的特徵,阿里雲安全團隊對此做了跟蹤分析。通過監測到的資料發現,這類攻擊有以下幾個特點 移動端裝置系統分布均勻 ...