近十幾年來,隨著大資料給各行各業帶來的變化,以及資料時代不斷強調的資料就是燃料,誰掌握資料誰就掌握未來的各種論調,大家紛紛開始收集資料,挖掘資料,轉賣資料。而個人,作為資料真正擁有者的利益早就在商業利益之爭中棄於角落。各種有關資料的醜聞新聞也屢見不鮮。最著名的臉書資料醜聞,facebook的資料洩漏給」劍橋分析」,後者據說用來政治意圖,比如說分析選民。
個人資料報含些什麼內容呢。看看谷歌都收集了些什麼。
在這些資料裡,個人根本沒有任何隱私可言。再想想利用這些資料可以做什麼,回憶一下那些煩人的推送廣告,那都是小case。還記得我在《人工智慧中的哲學問題》一文中提到的winston,策劃幾個**dacase那是相當輕鬆啊。警察要有這些資料,還需要破案嗎,直接乙個演算法算出某人是不是**。
乙個很有名的段子,講乙個女學生的搜尋記錄,這裡擷取一段。
還有隱私嗎,嘿嘿。
steven pink的中提到,terrorist現在已經沒有那麼活躍了,資料支撐就是google的researcher提供的。
如何保護個人資料。歐盟在2023年5月25號的時候開始實行gdpr(global data protection regulation),規範了企業對於個人收據的收集和使用。其實gdpr早在2023年就被提出,之後n次討論修正,2023年通過,然後讓企業們有兩年的時間來執行。雖然,gdpr在2023年的時候給人的感覺是一夜之間吹遍各個角落。還記得,每次進商店購物,出示會員卡後,都會被提醒確認一下,同意我們的個人資料被登記在他們的系統當中。郵箱裡也是塞滿了各個**的確認同意書,就連幼兒園,小區物業也一樣。公司也火速的催促大家完成培訓,保證大家明白gdpr, 嚴格執行。我們這些一線資料工程師,當然是火速上報手頭那些有個人資料的資料該怎麼辦。各個conference, meetup大家也是火熱的討論該咋辦。
那gdpr到底是什麼呢?
任何的法律條款都是晦澀難懂的,需要深刻全面了解的需諮詢律師。
作為資料工程師,我們應該也需要有基本的了解。
企業必須有顯式的條款告訴使用者個人資料將怎麼被使用,並得到使用者的同意。
使用者隨時可以取消同意書,隨時要求review自己被儲存的資料,隨時要求更改資料,企業必須在規定時間內回覆實施。大家有興趣的話拉一下谷歌的資料吧,不過先得清一下儲存空間。
企業必須文件化其怎麼收集資料,怎麼使用資料。對於較大型公司,需要有專門職責的部門來規範資料使用。
如果企業把個人資料用來做**,必須能夠解釋**是怎麼做的。想起幾年前,申請房貸,銀行說這個數目不行,問為什麼,業務人員說不知道,說輸入我的資料,結果就是這個數目不行。放在現在,可以直接告他們違反gdpr了。
gdpr把資料分成普通個人資料和敏感資料,比如說膚色,宗教,性取向,政治傾向等都屬於敏感資料,企業沒有特殊情況是不得收集的。
如果違反了怎麼半,據說是可能遭受到最高可達企業年收入百分之四的罰款。
想想對個人隱私的保護,必須點讚gdpr。
關於UGC的資料隱私和所有權
ug程式設計客棧c user generated content 所謂使用者產生內容,這也是很多網際網路巨頭成功的基礎。這不算熱點新聞了,大概幾周前的一則新聞,很有趣,在國內這個事情談論的人不多,今天才想起來,其程式設計客棧實值得分享一下。美國一家初創企業,叫做hiq labs,是一家從事獵頭相關的...
大資料洩露你的行蹤?隱私不再是隱私
雖然大資料是大勢所趨,也能為我們的生活帶來很多便利與進步,但是,當自己的生活有可能完全暴露在別人眼前,甚至受到監控。我們是否應該認真看待這件事情的重要性,在享受科技帶來的進步與方便之餘,也能同時保護自己的個人隱私?文章摘編如下 當大資料時代在幾年前剛剛興起時,曾經一度衍生出許多關於大資料對於個人隱私...
聯邦學習 資料安全和使用者隱私的簡要概述
2.1 加密樣本對齊階段 由於三家企業的使用者群體並非完全重合,模型採用基於加密的使用者樣本對齊技術,目的是為了在 a b和d 不公開各自資料的前提下確認各方的共同擁有的使用者,而且不暴露不互相重疊的使用者,最終以便聯合這些使用者的特徵進行模型的建立。2.2 加密模型訓練階段在確定共有使用者群體後,...