Facebook Pixel Facebook Pixel

大數據:談資料管理平台(DMP )與廣告聯播網間的關係(上)

2015-11-12
Inside 硬塞的網路趨勢觀察
大數據:談資料管理平台(DMP )與廣告聯播網間的關係(上)

光從字面意義來解釋的話,DMP (Data Management Platform) 資料管理平台,白話點就是管理資料用的平台。只不過,管理什麼資料,這些資料從輸入到輸出,又能做到何種應用,可有各種不同的變形或變化。如果拿到許多大氣資料來,那就能用來作為天氣預測;如果拿到很多網站使用者足跡,那就能用來判斷他的興趣、嗜好。

 

如果拿到廣告聯播網來用,那就是所謂的廣告受眾。

 

開始談 DMP 之前,我必須先講,此技術應用要做到派得上用場,要做到能夠替廣告平台帶來穩定收入,其難度非常之高,涉及的專業與技術領域也很深且廣。沒有實作之前,很難想像一套要能精確瞄準使用者的資料分析系統得耗費多少功夫。也因此,市面上真正喊出能弄 DMP 的公司,不外乎是 IBM、Oracle、Salesforce、Google 之流,一般企業要用來作廣告系統,得耗費龐大成本與資源。

 

接著進入正題,談談廣告系統的 DMP 到底是怎麼運作。說在前面,用文字來描述可能容易理解,但要實作到能正常商轉的程度,遠遠不及文字上所看到的百分之一。為了要讓後面的解釋容易理解,先描述其中一種資料應用的情境,再來說明:

 

  • 資料怎麼來?
  • 資料怎麼去?
  • 資料怎麼用?

 

資料怎麼來?

「使用者經搜尋引擎或直接連結點入某網站,該網站屬於某個聯播網裡的一個網站。使用者進入該網站後,點擊 A 頁面,然後看了 A 頁面某個內容後,被引導到點擊廣告 B,而後在 B 的到達頁面上連續點擊 C、D、E 至各個不同頁面。」同上,該使用者以類似但不規則的方式造訪其他網站,不論出自於什麼動機或是理由。

 

一般來說,廣告聯播網的技術提供者,會提供一段 code 給網站主 (publisher) 定版,請他放在網站要置放廣告版位的地方,其作法因人而異,不細談各自差異。又或者有些廣告主,為了要追蹤廣告轉換成效,會放廣告聯播網所提供的 code 在指定到達頁或全站。兩個 code 都會做一樣的事情,都是用來存取使用者瀏覽器 (browser) 端的 cookie。cookie 則是使用者造訪該網站時,會被存放在瀏覽器本機端的暫存檔,該檔案簡單記錄了一些資本資料、到訪網址等。

 

一個網站就在一個瀏覽器存取一個 cookie,然而一個網站每天有數十萬個瀏覽器到訪,cookie 就存取數十萬個下來。有的網站更甚者會儲存一個以上的 cookie,特別像是某些網站用了五、六個廣告聯播網的廣告 code 之後,使用者一造訪該網站,可能就在瞬間被立刻儲存五、六個以上的 cookie。在此,純粹就廣告聯播網會用到的 cookie 做探討,不說明一般網站存取 cookie 的目的。

 

廣告聯播網技術提供者,靠著提供給網站主的 code,蒐集大量 cookie 回來,運用 ocokie 進行使用者的興趣與行為分析。在此,我們稱這類資料來源類型為 cookie based,其他還有 API based,經資料庫串 API 的方式把資料傳送出來供第三方使用。通常會用到 API basd,大多網站本身必須稍具規模或具足夠技術力,不然額外要請技術人員開 API 出來給第三方接,倒不如直接讓對方放 code 要來得直接。這兩者資料精準度差異很大,願意給 API 接的網站佔少數。

 

3568941103_be384d334b_z

 
(Photo Credit: Neil Conway)
 

資料怎麼去?

擁有大量 cookie 後,接著就是進資料清洗,或稱數據清洗。首先要洗掉無效值、空值、不合法值,再做異常檢測、重複處理等,就想像成一道又一道處理工法,目的是要篩選掉那些沒有意義的資料。資料量小的時候就算了,資料量要是很大的話,每次資料進來都得花不少時間去清洗。靠電腦依照某些規則、條件去清洗資料,盡量讓有用的資料留下來。麻煩點,資料又特別複雜的狀況,還得特別靠演算法來計算,要加速每次清洗的速度,這又得靠機器學習來做。

 

清洗完之後,則進行資料歸納、歸類,將各不同資料分門別類存好,數據工程師面對的可能是每天數百 G 至數百 T 的資料量。這些資料有的有用,有的是垃圾,在還沒開始用之前,沒人知道這麼龐大的資料背後到底代表什麼。這就好比要在龐大亞馬遜森林裡面,找到某個特定顏色或味道的果實,得從數都數不清的樹林裡,慢慢翻慢慢找。怎麼正確找出果實,靠著一條又一條去嘗試設計出來的路徑來翻找。

 

有的廣告聯播網想要提供廣告主優質流量,會再針對清洗過的資料做二次篩選。篩選掉垃圾流量來的資料,包含點擊機器人、資料爬蟲、網路攻擊等,各種非正常人為資料,清洗過後,留下真正造訪網站的使用者,再針對該群使用者進行資料加工與校準。是不是每個廣告聯播網都願意這麼做,一樣因人而異,因為真要這麼洗下去,可能有些網站的使用者從報表來看會直接少掉一半左右。

 

2282603905_45b1205139_z
 
 
(Photo Credit: kreezzalee)
 
 
 
 
 
 
 
【超過300本影音說書陪你成就更好的自己】讓大大學院與你共讀,幫助「沒時間讀書」、「讀書速度很慢」、「讀完就忘記」、「抓不到重點」的你,利用18分鐘領略閱讀的樂趣,吸收並帶走鮮明觀點,真正讓知識內涵融會於日常生活。立即點擊加入
大大讀書|全台最大線上影音說書
本網站內容未經允許,不得轉載。歡迎來信投稿、洽談文章授權。

關注職場最新趨勢,為知識學習創造最佳環境

大大學院「全台最大影音說書.知識學習平台」,致力於推廣終生學習、培養職場人士的閱讀習慣。

按讚、追蹤「大大學院」Facebook粉絲團,每天更新最新職場趨勢文章,帶你掌握關鍵資訊。

加入「大大學院|職場趨勢新觀點」,最新、最實用的職場課程都在這,學習資訊不漏接!請用手機點擊「加入Line好友」連結,或是掃描QR Code加入。

處理中