2020年,疫情的爆發使健康碼在各大城市相繼使用,健康碼是以真實數據為基準,識別人員是不是直接或間接接觸過一些感染者,從而判斷人員是否需要隔離排查。 杭州市委副書記在接受新聞采訪時表示,健康碼的評判來源于三個維度:空間維度、時間維度和人際關系維度。這說明了健康碼的生成充分利用了用戶的數據,雖官方暫未公開數據使用的詳情,但猜測健康碼會結合用戶的人際關系數據、GPS定位數據、電信運營商數據、消費記錄數據、線下掃碼位置數據等相關信息,進而判斷人員是否出入高危場地。 健康碼的應用,屬于大數據技術的典型案例,網絡服務提供者利用收集到的用戶數據,預測用戶的健康情況,使疫情防控更加高效、精準。 人們在享受大數據帶來便利的同時,若網絡服務提供者不按照規定使用用戶數據,也將對用戶造成騷擾,威脅到用戶的隱私信息。 一、到底什么是大數據
李笑來曾經提及過,在寫《韭菜的自我修養》這本書之前從來不會使用“韭菜”一詞,因為沒有弄清“韭菜”一詞的定義,在沒有弄清一個詞的定義之前,不應該隨便使用。 自從大數據概念被提出,我們已經廣泛使用了這么多年的“大數據”,那么“大數據”的具體概念應該是什么? 現實世界中,有很多詞匯是沒有官方定義的,比如“人工智能”,沒有哪個機構說他們定義的就是正確的“人工智能”概念。在不同的時代里人們對人工智能的定義也是不同的,上個世紀60年代,人們認為可以下跳棋的計算機就是人工智能,但現在看來這個說法顯然是無法被人們接受的。 相同的,大數據的定義,也沒有一個官方機構明確地說明什么就是“大數據”。早些年對于政府機構來說,數據匯集也叫做大數據,而后出現了一些數字辦、大數據局等新成立的單位,把各地方、各單位的數據匯聚起來,以發揮后續政府數據的價值。對于金融機構來說,可以通過用戶的行為進行用戶畫像就是大數據,通過用戶的行為數據,判斷用戶的償還能力及償還意愿,識別用戶貸款的風險。 麥肯錫對大數據給出的定義是:“一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。”在《大數據時代》中,大數據指“不用隨機分析法,而是采用所有數據進行分析處理。”IBM提出,“大數據是具備5V的特性數據,5V包括:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。”在上述基礎上,業內人士已將大數據拓展成了“十字特性”,即:一“大”,二“雜”,三“全”,四“多”,五“快”,六“久”,七“活”,八“簡”,九“稀”,十“聯”。 大數據的定義如此之多,致使每個人心中都有對大數據的不同理解。如今多數情況下,人們提到大數據,都是在特指通過數據分析,可以得到數據中的價值,具體價值可以是協助人們進行決策判斷,預測未來事情的變化,發現事務中的關聯性等價值體現。本文所說的大數據,就是在遵循這樣的描述。 二、大數據的“利”1. 預測預測是自古人們都在向往的活動,生活中的預測無處不在,比如通過概率分析法預測彩票的中獎號碼,通過價值分析法預測股價的走勢。 古代人們利用占卜進行預測,就是通過多年觀察到的事務變化,結合歷史數據總結出來規律,應用在后續的占卜活動中。占卜并沒有科學依據,但實際上占卜就體驗了人們的大數據思維,利用對過往數據的總結,不必非得知道現象背后的因果,只要知道相關性就可以預測未來。 古代的中醫從業者,并沒有能力提煉出草藥中的成分,哪種草藥可以抑制哪種疾病,完全是在結合大量的實際案例,根據經驗從數百種種草藥中挑選出不同的組合,從而醫治不同的疾病。 預測從古代發展到近代,出現了利用數學模型預測的方法,比如利用過往數據和數學模型的結合,預測未來幾年的人口增長情況。 數學模型是用數學符號、公式、方程等對現實世界規律的抽象描述。如今的氣象預報,還在應用數學模型的方法來預測未來的天氣,氣象局會根據氣象圖的變化趨勢,結合溫度,壓力,濕度,風向,風速,陽光照射情況等,應用數學模型預測天氣的變化趨勢。 當今的大數據分析,就是在結合了占卜和天氣預報的方法,利用歷史數據,結合數學模型,預測未來、預測結果。健康碼應用,通過我們的電信運營商數據、交通出行數據、交易記錄數據等信息,預測我們是否為高危感染人群,判斷是否需要進行隔離觀察,這就是在預測結果。搜索引擎,通過用戶的搜索喜好,預測美國總統的未來人選,這就是在預測未來。 預測是大數據最典型直觀的價值體現,有時預測也被看作人工智能的范疇。在未來,利用大數據預測,將給人們帶來更多的便利。利用數據預測可能的疾病,以便提早做出預防;利用數據預測學習的缺陷,以便精準教育及練習;利用數據預測用戶的真實需求,從而不需要產品經理來瞎猜(估計到時候我也就下崗了)…… 2. 發現相關性2004年,沃爾瑪從以往數據中發現,在季節性颶風來臨之前,不僅僅颶風用品的銷量會增加,而且蛋撻的銷量也會大幅增加。因此每當季節性颶風來臨之前,沃爾瑪就會把蛋撻商品擺放到颶風用品旁邊,以便讓快速購買颶風用品的顧客留意到蛋撻,增加蛋撻商品的銷售量。沃爾瑪的人也并不知道為什么蛋撻就成了颶風來臨時的暢銷產品,但是他們只需要知道颶風來臨時沃爾瑪的蛋撻會暢銷就可以了,找到了這個相關性之后即使不用找到背后的原因,也可以提升銷量。 大數據時代,我們不必非得知道現象背后的因果,只需要發現相關性,應用到后續的活動中,就可以創造巨大的經濟或社會價值。利用大數據發現相關性,可以加快社會的進步,加快人們的決策,避免了找到“因”,在想清“果”的繁瑣過程。 三、大數據的“弊”1. 威脅用戶隱私在大數據時代,人們偶然間發現自己的隱私受到了威脅,我們的隱私被互聯網服務提供商監視著,購物應用監視著我們購物習慣,搜索引擎監視著我們網頁瀏覽習慣,社交軟件監視著我們的社會關系,理財產品監視著我們的財富…… 互聯網服務提供商監控著我們的數據,利用我們的數據搞“大數據殺熟”,形成“千人千價”,從而提高自身的利潤,受害的卻是我們消費者。美國國家安全局2007年發起的棱鏡計劃,通過互聯網服務器中的數據監聽著我們每一個人的一舉一動,在其面前我們沒有隱私可言,擁有大量數據的機構,知道我們的每一個真實行為,有時甚至比我們自己都了解我們。 互聯網服務提供商不合規利用數據對我們造成的影響尚可原諒,一旦數據被泄露或非法交易,將造成不可預知的后果。當今泄露事件層出不窮,臉書把用戶的點贊數據非法供給了劍橋分析公司,間接性對美國大選結果造成一定影響;雅虎2016年泄露15億人次的用戶信息,使廣大互聯網用戶的生日,電話號碼,賬戶密碼在暗網流傳,隨時有可能流入不法分子之手。 2. 強者愈強未來將是人工智能的時代,從人工智能的歷史發展中觀察,人工智能算法的優化,用程序員主動去寫算法,算法的精準度不如利用大量數據去訓練算法的效果好。因而數據在人工智能的發展中,將會起到至關重要的作用。 企業擁有的數據量越大,其算法的訓練越充分;算法訓練越充分,產品將越趨于完善;產品越完善,用戶越多;用戶越多,企業的數據量越大。這樣就走到了一種無限的循環之中,形成強者愈強的馬太效應,使小企業更難趕超大企業。 四、大數據將會帶來的機遇1. 商業模式創新未來可能會存在部分企業,不在以向用戶收費或廣告商收費的方式盈利,而是以產生數據,售賣數據服務的方式來達到盈利的目的。 例如智能冰箱制造企業,免費提供智能冰箱給用戶使用,但冰箱中的貨物情況制造企業需要進行監控。企業將監控到的數據售賣給商超形式的貨物提供企業,貨物提供企業自動對冰箱中的缺貨情況進行補貨,從而承包用戶的全家食材。 同時智能冰箱制造企業還可以將用電數據賣給電力供應商,告知電力供應商每戶家庭的冰箱使用及耗電情況。電力供應商通過購買全部智能家電的用電情況,從而實現精準生產電能,避免造成電能的浪費。 2. 數據連接企業當前企業間、政府間的數據,無法做到互聯互通,形成了一個又一個的數據孤島,但是一些企業可能又需要其他機構的數據,來實現自身業務的優化。例如銀行就需要用戶的房產數據、車輛數據來判斷用戶的財富;保險機構需要用戶的醫療數據來判斷用戶的以往病史。 在數據互聯需求的驅動下,未來將會催化數據連接平臺產品的誕生。平臺連接數據的供需雙方,成為“數據淘寶”,為供需雙方提供數據的信息流和資金流。 由于受到法律的制約,直接進行數據售賣顯然將存在法律風險。因而數據連接平臺的發展可能會朝著授權流通、畫像流通、去標識化流通的方向發展。 授權流通就是在用戶的合法授權之下,把數據從供應方轉移到需求方;畫像流通就是將需求方的用戶畫像模型運行于供應方的系統之中,從而在供應方的系統中只輸出畫像結果,不輸出原始數據;去標識化流通就是將用戶的隱私信息去標識化,只流通無隱私的數據,例如流通某地區的用戶購買數據,分析購買喜好,但不能對應到具體個人。 3. 數據思維企業未來將會有越來越多的企業需要進行數據的價值挖掘,但由于每個企業都有自身的業務,企業內部的員工重點關注自身業務的發展,對數據價值挖掘的具體方法不會特別了解,因此將會有公司專門提供數據價值挖掘思維的業務。如麥肯錫,波士頓,貝恩,四大等,都具備天然的優勢開展此類業務。
|