Facebook Pixel Facebook Pixel

新書搶先看》Google數據科學家:大數據應用,先從縮小數據量開始

2017-12-22
賽斯・史蒂芬斯-大衛德維茲
新書搶先看》Google數據科學家:大數據應用,先從縮小數據量開始
在過去四年內,我幾乎每天都在分析Google數據,這包括Google在得知我所進行的種族主義研究後,聘請我擔任數據科學家。而我也繼續探索這類數據,並在《紐約時報》撰寫評論及擔任數據新聞記者。這些研究中持續揭露意想不到的真相,精神疾病、人類性行為、虐待兒童、墮胎、廣告、宗教、健康等方面都包含在內。幾十年前不存在的數據集,為這些非同小可的問題提供令人驚訝的新觀點。經濟學家和其他社會科學家總是在尋找新的數據來源,所以容我直截了當地說:現在,我相信Google搜尋是有史以來針對人類心靈所能蒐集到的最重要數據集。
喜歡閱讀,卻又時間不夠?讓SmartM與你一起在一年內看完100本書!三位名師聯手,每本書18分鐘直播領讀,把整本書精華以觀點、重點、系統方式,快速升級認知和開啟全新視野。平均每本不到25元、不限次數回看影片,歡迎加入:「許景泰x貴婦奈奈x謝文憲・100本商戰直播讀書會」(立即點擊報名

各種數位金礦裡的數據

然而這個數據集,並不是網路提供了解人類世界的唯一工具。我很快就明白,還有其他數位金礦。我下載維基百科(Wikipedia)的所有資料,鑽研臉書個人檔案,也擷取風暴前線網站的數據。此外,網路最大色情網站之一的PornHub提供我關於世界各地匿名人士搜尋與觀看影片的完整數據。換句話說,我已經深入了解現在所說的大數據。此外,我採訪數十位學者、數據新聞記者和企業家,這群人也正在探索這些新領域,本書中也會討論他們所做的許多研究。
但我先招認一下:我不會對大數據做出一個精準定義。為什麼?因為大數據本身就是一個籠統的概念,究竟多大才算大?18,462項觀察是小數據,而18,463項觀察就是大數據嗎?我寧可對於大數據的特性採用涵蓋性更廣的看法:雖然我提到的大部分數據來自網路,但我也會討論其他來源的數據。我們生活於各種可用資訊在數量與質量上都屬爆炸等級的時代。Google和社群媒體上就出現許多新資訊,其中一些是先前隱藏在檔案櫃和文件中的資訊,經過數位化後的產物;其中一些是投入市場研究日漸增加的資源。
那麼,為何大數據如此強大?想想看一天之內分散在網路上的資訊有多少。其實我們握有數字顯示,人們一天內在網路上可以產生多少資訊。在21世紀初期,人類一天平均產生250萬兆位元組的數據。
這些位元組就是線索。

網路上的位元組,就是線索

事實上,我冒著被說成誇大不實的風險,開始相信數位時代日漸可得的新數據,將會大大擴展我們對人類的認識。顯微鏡顯示出池塘裡的一滴水中,有我們肉眼無法辨識的事物存在。望遠鏡顯示出夜空中有遠比我們所想還更加豐富的星系存在。而現在,新的數位資料顯示出,人類社會遠比我們所認定的更加錯綜複雜。數位資料可能是我們這個時代的顯微鏡或望遠鏡,可能產生重要,甚至具有革命性的見解。
做出這樣的聲明還有另一個風險,這種聲明不僅聽起來誇大不實,也像在趕流行。許多人對大數據的威力提出重大主張,但他們一直缺乏證據。
這一點驅使對大數據抱持懷疑的許多人士,對更大數據集的搜尋嗤之以鼻。評論家暨統計學家納西姆.塔雷伯(Nassim Taleb)寫道:「我並不是說大數據裡沒有資訊,大數據裡有很多資訊。最核心的問題是,在大數據裡搜尋資訊,猶如在日漸龐大的乾草堆裡撈針。」
然而,我想做的,是提供先前缺失的證據,說明大數據可以做什麼。如果我們願意善用大數據,那麼我們如何在那些日漸龐大的乾草堆中,找到我們所要的細針。我希望提供足夠的大數據實例,為人類的心理與行為提出新的見解,讓大家開始看到某種真正具革命性事物的大致輪廓。 

真實世界與我們臆測相反

有時,我承認新數據只是證實原本顯而易見的事情。我認為證實人們曾經懷疑卻苦無證據的事情,這樣做是有一些價值的。懷疑某件事是一回事,證明則是另一回事。但是如果大數據所能做到的,只是確認你的懷疑,那麼大數據就沒有革命性。幸運的是,大數據可以做的更多,數據一次又一次地顯示出,我們所處世界的運作正好跟我的臆測相反,這裡先提出一些可能讓你更為驚訝的例子。
你可能認為在教育程度普遍較高的大城市裡,人們最感焦慮。認為都市人比較焦慮不安又神經質,這是常見的刻板印象,但是反映焦慮的Google搜尋,如「焦慮症狀」或「焦慮協助」,反而較常出現在教育水準較低、平均收入較低的地區,而且搜尋者大多居住在農村地區。紐約州北部農村地區有關焦慮的Google搜尋量,就比紐約市來得高。
你或許認為,人們悲傷時會更頻繁地搜尋笑話。歷史上許多最偉大的思想家都聲稱,我們能借助幽默讓痛苦得到釋放。長久以來,幽默一直被當成是對付挫折、痛苦、無可避免的失望的一種方式,正如默劇演員查理.卓別林(Charlie Chaplin)所說:「笑是補藥,是緩解和終止痛苦的靈藥。」
然而,人們在週一搜尋笑話的頻率卻最低,大家都說人們在週一上班時最不快樂,不是嗎?而且在陰天和雨天,搜尋笑話的頻率也最低。在一場重大悲劇發生後,譬如2013年波士頓馬拉松比賽,兩枚炸彈造成三人喪命和數百人受傷時,搜尋笑話的頻率也暴跌。和生活不順遂時相比,人們在生活一切順遂時,反而更可能搜尋笑話。
有時,一個新的數據集揭露出我從來沒有考慮到的行為、慾望或關切事項。無數的性癖好就屬於這個類別,例如,你可知道在印度,以「我老公想要.......」起頭的關鍵句裡,最常見的搜尋是「我老公想要吸我的奶」?這種事情在印度比在其他國家更為常見。此外,印度和孟加拉針對女性哺乳的色情片搜尋率20是其他國家的四倍。我在看到這項數據前,從來不曾料想到這兩個國家的情況是這樣。

對數據革命懷抱熱情,卻用錯地方

人們對於數據革命的潛力所抱持的一些熱情,一直用錯地方。大多數迷戀大數據的人,滔滔不絕地談論這些數據集可能變得多麼龐大,這種對數據集大小的痴迷並不是什麼新鮮事,在Google、亞馬遜(Amazon)和臉書等網路巨擘出現前,在「大數據」一詞存在前,德州達拉斯就舉行過跟「大型複雜數據集」有關的會議。史丹佛大學(Stanford University)統計學教授傑瑞.弗里德曼(Jerry Friedman)是我在Google工作時的同事。弗里德曼回想起1977年那次會議,一位傑出統計學家起身發言,並解釋自己已經累積50億位元組的驚人數據。下一位傑出統計學家就起身發言說:「之前那位發言者有幾十億位元組,根本沒什麼大不了。我有幾萬億位元組的數據。」換句話說,談話的重點是你可以累積多少資訊,而不是你希望利用資訊做些什麼,或是你打算利用資訊回答什麼問題。「當時我發現,這種情況實在很有趣」弗里德曼說,「這種討論會讓你留下的印象是,他們的數據集有多大,而這種情況仍舊持續至今」。
現在,有太多數據科學家正在累積龐大的數據集,但他們卻鮮少告訴我們數據集的重要性,譬如,尼克隊為何在紐約大受歡迎。太多企業被淹沒在數據裡,坐擁幾萬億位元組的眾多數據,卻很少做出重要的見解。我相信數據集的大小常被高估,對此,有一個微妙卻重要的解釋:效果愈大,所需觀察的次數就愈少。一個熱騰騰的爐子,你只需要碰觸過一次,就明白熱爐子很危險,但你可能需要喝幾千杯咖啡,才能確定喝咖啡是否會讓你頭痛。哪一種教訓更重要?顯然,由於本身的效果強度使然,熱爐子只要一項數據,就能迅速顯現結果。
事實上,最聰明的大數據公司往往會縮減本身所用的數據。在Google,主要決策是以對所有數據進行小量抽樣為依據。你未必總是需要大量數據,才能找出重要見解,你需要正確的數據。Google搜尋會如此有價值的一個主要原因不在於數據量的龐大,而在於人們進行這類搜尋時都誠實以對。人們會對朋友、戀人、醫生、調查和自己說謊。但是在Google搜尋時,他們可能會分享尷尬的資訊,其中包括自己的無性婚姻、個人精神健康問題、不安全感和對黑人的憎惡。
最重要的是,為了從大數據中取得洞察力,你必須提出正確的問題。正如你不能用望遠鏡漫無目標地觀察夜空,就想找到冥王星;你不能下載一大堆數據,就指望能從數據中發現人性的祕密。你必須從有希望的地方著手,比方說,從印度以「我老公想要.......」開頭的Google搜尋開始著手。(本文摘錄自《數據、謊言與真相》前言,商周出版)
書籍介紹
作者:賽斯・史蒂芬斯-大衛德維茲
出版社:商周出版
出版日期:2017年12月
賽斯・史蒂芬斯-大衛德維茲(Seth Stephens-Davidowitz)
《紐約時報》撰稿人暨華頓商學院客座講師,曾為Google數據科學家。史丹佛大學哲學系畢,哈佛大學優等生榮譽學會(Phi Beta Kappa)成員暨經濟學博士,目前定居紐約市。史蒂芬斯—大衛德維茲的研究使用新的大數據來源,揭露人們潛藏的行為和態度,並已刊登在《公共經濟學期刊》(Journal of Public Economics)等聲望卓著的出版物。
 
延伸閱讀
【超過300本影音說書陪你成就更好的自己】讓大大學院與你共讀,幫助「沒時間讀書」、「讀書速度很慢」、「讀完就忘記」、「抓不到重點」的你,利用18分鐘領略閱讀的樂趣,吸收並帶走鮮明觀點,真正讓知識內涵融會於日常生活。立即點擊加入
大大讀書|全台最大線上影音說書
本網站內容未經允許,不得轉載。歡迎來信投稿、洽談文章授權。

關注職場最新趨勢,為知識學習創造最佳環境

大大學院「全台最大影音說書.知識學習平台」,致力於推廣終生學習、培養職場人士的閱讀習慣。

按讚、追蹤「大大學院」Facebook粉絲團,每天更新最新職場趨勢文章,帶你掌握關鍵資訊。

加入「大大學院|職場趨勢新觀點」,最新、最實用的職場課程都在這,學習資訊不漏接!請用手機點擊「加入Line好友」連結,或是掃描QR Code加入。

處理中