Facebook Pixel Facebook Pixel

美國數據科學家在白宮內做了哪些事?

2015-03-30
TechOrange
美國數據科學家在白宮內做了哪些事?

我們之前就曾跟大家介紹過白宮延攬到了美國國家等級的數據科學家 DJ Patil 加入;同時他們還招聘了數位來自 Google、Facebook 的資深工程師。由此可見他們對於「科技」、「人才」的注重,以及數位化的決心。

這中間,我們對於新任首席數據科學家感到十分好奇,因此幫大家整理了外媒的訪問片段;幫助大家更了解這位了不起的工程師。

白宮在最近任命了 DJ Patil 為數據政策的副科技官及首席數據科學家,他也是第一個當上國家等級的數據科學家。

DJ Patil 甚至是「數據科學家」這個名稱的創造者。提到他之前的經歷,他最近的一項職務是 RelateIQ 的產品副總,更曾是 LinkedIn 的數據產品總經理與首席科學家。

以下整理《FiveThirtyEight》專訪,為該站記者 Andrew Flowers 第一人稱簡述。

在 3/16 的電話訪問中,我有機會和 DJ Patil 談到許多話題如:開放資料 (Open data)、他從私人機構到政府部門的職涯轉換過程、以及歐巴馬政府對大數據的注重與透明化的行政紀錄等等。

  • 專訪內容

AF:就你目前作為美國首席數據科學家的位置來說,是作為一種政府和數據科學族群間的外交活動(比如說:宣傳政府開放資料)?還是更像從數據科學族群中引進技術到政府部門中(比如:幫助政府部門更有效率地使用數據)呢?

DJP:我算是學術下的產品,從前待過政府部門以及產業界。如今機會出現了,而且必須開始埋頭苦幹的時刻,我們自問:這個角色的任務會是什麼?

這個問題代表著:我們如何發揮數據的最大效用來造福美國大眾,並最大化政府投入數據所得到的回收效益?幾乎所有的事情都必須以此為考量。

這當中包含了三大領域。

第一,

精準醫療計劃(Precision Medicine Initiative)。也就是我們如何把多年來的生物信息學與數據科學結合,藉此提供在下一個世代的醫療照護、針對癌症有更多研究、或各種慢性疾病。

第二,

則是我們如何開啟這些數據。總統在執行上希望這些數據是機器能夠讀取的,而我們的反應則是:「那當然啊,我們現在就是這麼操作的!」

現在的全國氣象服務不只是提供紙上的數據,更會產出netCDF檔案,但你要如何開啟呢?又該如何建造一個大眾能夠輕易找到這樣的資料的地方呢?

第三,

聯邦政府與數據科學的交叉點。你該如何地用這些數據去做一件有所助益的事?如何將之轉變為「數據產品」?

有趣的是,其實政府內有相當多的「數據科學家」,但我們稱他們為統計學家,像是做人口普查的那些人。你想像看看這些人為了得到精確的數據,每十年就必須做一次調查,多麼驚人啊!

但數據科學家能帶來什麼有別於統計學家的影響呢?

我們其實不用忽略這些統計學家以及其調查的數據。人口普查資料就像造房的磚頭,而數據科學家就可以開始思考要「如何轉變這樣的磚頭成為能夠造福大眾的東西」。

擁有數據產品的意義是什麼?就代表著你不用真的看這些數據,而是藉著這些數據的使用來達到最終目標。

AF:有別於身在私人企業的處境,在政府部門當中你預期會遇到怎麼樣的挑戰與限制?

DJP:幾乎可以說是完全不一樣方向的道路。因為在政府部門當中,有太多的機會能讓數據科學有所貢獻,有所建樹。

所以實際上,是這個問題的反面—我們該如何讓產業界以我們手上的數據為基礎來創造更多東西?我們有氣象數據、人口普查數據?產業界以我們手上的數據來、醫療數據。我們該怎麼開始利用這些數據?

AF:你已經建立了網站data.gov,以及超過十萬組的可用數據。但哪些數據是政府應該在之後要公布的?以及哪些數據是未被充分利用的,以及人們不知道的或資料量不夠的?

DJP:這正是其中之一我們目前很努力要做到的!

第一步就是要開放資料,而公開資料的問題就是要求我們不是在揭露任何人的隱密資訊,而這正是關鍵所在,因為這項任務的敘述就是要「負責任的」釋出資料的力量。我們必須以一個聰明、並設想周到的方式來做到。

另外,什麼資料應該被打開,也取決於整個數據科學產業生態的技術面。當你篩選資料的時候,想必不會想要最原始的資料,而是希望是乾淨、重點的資料,如果不是以這樣的思考來取得,那這些數據也就白費了。

一個完美的例子就是你取用所有的衛星影像,並且將確切的波形都放進紅外線光譜,如此並不實用。你希望的應該是紅外線光譜轉化為影像,並且是你能夠組合起來的影像,如此一來你就能夠將這些影像覆蓋在天氣圖上來製造出如 Google Earth 那樣的寫實影像。

AF:在開放數據的前提下,必須要政府部門的數據產出。但我們看到了許多國會上減少調查數據部門的預算,甚至刪除人口調查局的資金等狀況。這些計畫重要嗎?而你對於他們資金上的問題感到憂慮嗎?

DJP:當數據是開放的,就提供了透明性,讓我們有機會看進政府內部,看它是如何運作。而這也給了我們一種檢查與平衡的形式,來確保我們有適當的操作。這是美國公共數據,他們對之有權利。

藉著產生這些數據,我們保持著競爭力。我最喜歡的例子就是國家氣象服務—去看世界上任何一個研究報告,基本上所有人都是以美國國家氣象模型做分析。以我為例子,作為一個碩士生的話,我會在沒有人使用時佔領數學系的許多電腦來做運算,可以理解到天氣其實並不像我們想像的混亂,接著就能夠轉換為預測天氣的好處。

而現在誰會因此而受益?我們是聯邦資金所資助的,必須寫一大堆的報告。而真正受益的是整個國家,這些進步回到了國家氣象服務的原點。開放資料基本上就是讓我們所依賴的系統更進步。

AF:你提到了數據是以何種方式、在什麼時機下開放的,他更提供了透明性,我也認為相當正確。數據科學正是依賴透明度的。但是行政單位對於透明度的承諾反倒成了激進的調查以及機密資料的洩漏。

在你接下這份工作之前你對於行政單位透明度的忍受度是?而你之後會擁護這樣的揭露嗎?

DJP這件事讓我感興趣的是追蹤紀錄

總統是第一個思考需要發展能夠讓民眾追蹤政府在 IT 產業上花費的工具的;此外還有建立www.data.gov,以及將資訊集中的概念。

有了上述兩項,最後再藉著執行命令、駭客鬆等等來加強開放數據的承諾與前兩項的作用。

除了這些,我們接著還有精準醫療計劃(Precision Medicine Initiative),也就是作為下一個健康保險轉型的基礎 —— 數據科學與生物信息學。

AF:你提到了在政府部門裡建立數據科學的文化。在政府內部作用的下個世代的數據科學有什麼事需要知道的?有什麼特定的統計上的知識或軟體工具的能力是在招募人力上所需的?

DJP:首先,最重要的當然是你必須要有熱忱,一種不斷追尋問題答案、並且在智力上能夠找出自己能接受的答案的那種熱忱。

第二個部分當然就是必須要能夠極度聰明的處理數據。而我的意思是:你面臨的東西將會意義不明,非常多時候你會無法深入問題的核心,而唯一的方法就是要聰明一點—以一種不同的角度來找尋答案。

至於軟體工具方面,Excel 在 R 語言編寫上會發揮很大的功用。我就不再贅述各種工具了,我要強調的是:你所使用的工具能有效的讓你創造出你的敘事體嗎?這個工具真的讓你在問困難的問題嗎?

 

 

延伸閱讀:Facebook推出支付功能,好友之間可以互相轉帳

原文出處:轉載自合作媒體 Tech Orange 科技報橘

 

嚴禁抄襲,若欲轉載,敬請註明出處「SmartM」並附上原文連結。
歡迎各大媒體交換文章連結。
圖片來源:主圖、縮圖:  Tech Orange 科技報橘(C.C. Licensed)
加入SmartM粉絲團,更多電商訊息等你關注 https://www.facebook.com/smartm.tw
【超過300本影音說書陪你成就更好的自己】讓大大學院與你共讀,幫助「沒時間讀書」、「讀書速度很慢」、「讀完就忘記」、「抓不到重點」的你,利用18分鐘領略閱讀的樂趣,吸收並帶走鮮明觀點,真正讓知識內涵融會於日常生活。立即點擊加入
大大讀書|全台最大線上影音說書
本網站內容未經允許,不得轉載。歡迎來信投稿、洽談文章授權。

關注職場最新趨勢,為知識學習創造最佳環境

大大學院「全台最大影音說書.知識學習平台」,致力於推廣終生學習、培養職場人士的閱讀習慣。

按讚、追蹤「大大學院」Facebook粉絲團,每天更新最新職場趨勢文章,帶你掌握關鍵資訊。

加入「大大學院|職場趨勢新觀點」,最新、最實用的職場課程都在這,學習資訊不漏接!請用手機點擊「加入Line好友」連結,或是掃描QR Code加入。

處理中