我們活在巨量資料的世界,資料的數量與多樣化的程度,每日都以前所未有的規模撲向人類。無論你是不是在相關產業工作,都不可能逃離被大數據「圍攻」的現實。自哈佛大學電腦科學系畢業、Cambridge Semantics 共同創辦人 Lee Feigenbaum 撰寫的〈Turnning Big Data into Smart Data〉一文,告訴我們橫亙企業眼前的「大數據挑戰」。讓我們先來看看,大數據到底有多大?
除了嚇人以外,光有這些「大數據」,其實沒有什麼意義,唯有人類能夠從中發掘價值,大數據才產生意義。所幸,已有很多應用實例,讓大數據發出應有的光芒,也讓我們看到各行各業有無窮盡的機會,等待數據科學家的探勘。
儘管有這麼多成功的案例,對很多企業來說,大數據仍像一座無法翻越的山嶺,難以將數據完美的融入決策過程。通常公司在運用大數據時,會遇到下列五個挑戰:
大數據時代的其中一個關鍵特徵是,我們很難知道我們需要的答案,有時甚至連想要解決的問題都很模糊。有一部分原因是,大數據的價值在於模式(pattern)與相關性(relationship),但這些過去隱藏在大量資料中的模式與相關性,經常都是意外發現的。我們不能期待專家為每一行資料都特製 MapReduce(Google 提出的軟體架構,用於大規模數據的並行運算),其他大數據分析框架也一樣有很高的進入壁壘,阻礙簡單的資料探索與分析。
擁有深度分析、數學、統計與程式技能的數據科學家,無疑是現階段最炙手可熱的人才,不過人才養成的速度遠遠不及市場需求。
就現實面來說,大數據其實就等於「非結構化」的數據,也就是從文本分析到未經梳理的文字、聲音與影片導出的數據。這些文本分析景觀,有著幾乎堆積成山的問題,讓我們難以利用非結構化的數據幫助日常的企業營運決策。這些問題包括:
一般而言,數據的蒐集、貯存、使用,都是針對單一目的,像是投資銀行蒐集 10-K 文件(美國上市公司年度報表),協助買方從事權益分析,生技公司在資料庫中儲存臨床實驗的結果,向 FDA(美國食品藥品監督管理局)提交報告,電商從製造商擷取庫存滋料庫,與他們自己的網站內容管理系統整合在一起。這些數據既然只為特定目的服務,自然很難再被利用到其他使用情境上。因此,風險管理人員無法從 10-K 文件的分析獲取與自己職務相關的資訊,生技公司的資深科學家沒辦法自臨床數據滋料庫預測早期藥物的成功機率,電商從業者也沒辦法重複利用庫存資料庫,辨識不同商品的戰略性差距。
從前幾項挑戰看下來,想要促成一家真正由數據驅動、且由數據決策的公司,光有大數據是遠遠不足的。大數據得跟傳統的企業資料來源(如交易與營運資料庫或 ERP 儲存系統),或者雲端 SaaS 應用(如 Salesforce 的 CRM 資料)、無數的影子 IT(shadow IT)數據來源(包括試算表、簡報、文件、SharePoint),整合的工作極端昂貴而且曠日費時,但是如果不做,那也甭想利用大數據解決企業的問題了。
大數據時代的普遍心態與工具,總是鼓舞著我們蒐集愈多數據愈好。不過數據要有價值,在準備的階段就需考量整合、散佈與利用。大數據的「準備」可能代表三種情況:
普遍來說,數據的準備,幾乎完全是純手工作業,因此非常冗長乏味,消耗很多時間,而且還很容易出錯。
延伸閱讀:艾倫‧圖靈二戰就在找大數據,如今對手從敵軍變成一群消費者
大大學院「全台最大影音說書.知識學習平台」,致力於推廣終生學習、培養職場人士的閱讀習慣。
按讚、追蹤「大大學院」Facebook粉絲團,每天更新最新職場趨勢文章,帶你掌握關鍵資訊。
加入「大大學院|職場趨勢新觀點」,最新、最實用的職場課程都在這,學習資訊不漏接!請用手機點擊「加入Line好友」連結,或是掃描QR Code加入。