大數據：談資料管理平台（DMP ）與廣告聯播網間的關係（下）

2015-11-12

Inside 硬塞的網路趨勢觀察

在上篇講到了廣告系統的 DMP 到底是怎麼運作，該資料到底是怎麼來?怎麼去? 這裡開始談怎麼運用。

資料怎麼用？

前面提過 cookie 會存取使用者瀏覽過的網址以及各頁面上的點擊資訊。基本上，廣告聯播網拿到的 cookie 無法辨識出該使用者是誰，更不清楚這個人是男生還是女生，因為 cookie 存取的資料有限，除非網站主願意分享自己站上該使用者登入後的資料，再把該使用者上站時的資料與登入後的狀態資料交集在一起，這才有可能比較準確知道該使用者是誰，不然的話，大多 cookie 取回來的資料都是遠遠猜測使用者是誰。

既然用猜的，那就有一套猜測方法。辨識方式才是所有資料分析之中最困難、最麻煩的地方。大致上可以分成三個面相：

1. 使用者瀏覽過後的內容比對

2. 使用者瀏覽行為與路徑記錄

3. 使用者被標籤反覆不斷標記

簡單來講，當使用者瀏覽過某個網頁後，會在 cookie 上存下瀏覽的 URL，然後廣告聯播平台，不論是用資料爬蟲或是快照的方式，將該 URL 上的內容儲存下來，進行內容標籤化的工作。這段工作又可分成兩段，一段是人工、一段是機器。當廣告聯播網面臨的網站不多以及頁面內容數量較少時，採取人工作法去分類每個 URL 裡的內容，並對該 URL 下標記會比較容易。可是當網站數量一多，各網站的內容頁面數量一大，人工處理就顯得非常無力，這時透過機器去分會比較適當，可是要用到機器去分，又得扯到自然語義分析。

我們稱這類工作叫做內容比對，透過將內容比對產出的標籤，標記到使用者上。這邊指的使用者，指的是來瀏覽網站的人，實際上並不是真的知道他(她)是誰，而是透過每個存取的 cookie 賦予一個 ID，每個 ID 都會在資料庫端存取一份，然後將這些 ID，貼上各式各樣的標記。貼標記的作用在於定義出使用者輪廓，例如該使用者看的各網頁內容有刮鬍刀、刮鬍泡泡、柔膚水、古龍水等，這些關鍵字一貼到使用者上，資料分析人員會很粗淺的劃分該使用者或許為男性。

上述這段的解釋，就是我們用來定義使用者之前，會先針對網站進行內容分析的使用者demography 定義。這是一種假設，很不精確但卻提供一種可能性，我們不知道使用者到底是不是如我們所想，可是與其在茫然模糊的大海裡，連辨識都不知道怎麼做起，倒不如先用該使用者接觸到的內容作為定義之中心。從中，工程師訓練機器開始學習並改善使用者之於 demography 的精確性。能找出來的 demography 可能有性別、年齡、消費水平、居住地、學歷等，資料準確性不高，但這只是其中一個面相。

(Photo Credit: Scott Cresswell)

從內容比對，還可比對出使用者的興趣。一樣用標記的方式，將各網站上的內容分析置入到 interest 類別裡。這類別，主要看的是使用者對哪些事物有興趣，以及接觸這些內容的頻率。興趣類別中，又有所謂的精準興趣、相似興趣、模糊興趣等類別，每個類別底下的興趣分支其實都差不多，差別只在於精準，是用來判定使用者有在網站上產生過具體交易行為或是某些行動，會把使用行為分析交叉寫入到興趣資料之中。至於相似則是從中找到該使用者與其他使用者，可能類似相近的興趣。模糊則是推測具有同樣 demography 的使用者，以及相似但頻率不高的興趣，採取基礎資料交集。

Demography 有了，interest 有了，再來就是 behavior。使用者到每個不同網站的行為都不大一樣，例如瀏覽新聞類型的網站，可能有很大一部分都是靠著臉書或搜尋連過去，但電子商務的網站，則有可能是靠著廣告宣傳。不同的網站類型，所牽動的使用者行為也都不同，因此分析者得先針對不同的網站做不同類型的行為脈絡定義。這定義並不難，也就是一個網站的瀏覽行為，到底需不需要登入，有沒有購買，會不會結帳，有無其他必要行動才可以到下一個單元，在 GA 裡面，我們稱作工作階段。

所以，從 cookie 來的資料，被加工處理過後，會被 demography、interest、behavior 這三者資料，像是金字塔般的以使用者為中心，圍繞著使用者，不斷增長並且豐富其資料。請注意，這邊談的是豐富其資料，不代表資料會變得更精準，要讓使用者資料變得更準確，嚴格來講，不是真實世界的準確，而是網路世界裡的人格與行為相似於我們所描述輪廓的那一群人，那就得反覆重新的進行 tagging。Tagging 的目的有兩個，一個是將使用者定義的更精確，另一個則是讓機器學習，從網站中間接辨別使用者。

到此，資料怎麼來、怎麼去、怎麼用，不過就只是一套 DMP 開發基礎，然後廣告聯播網的 DMP 設計又不只面向使用者，還有另外一端是代表著廣告主的廣告操作人員。廣告操作人員在操作廣告時，將廣告投放到各大網站，使用者有無點擊，攸關廣告操作人員依據什麼樣的資料來投放。廣告操作人員之於投放準的使用者，使用者對於網站內容以及廣告素材，這之間是屬於隨時都在動態改變的資料模式，難以被輕易找出固定脈絡，也因此廣告成效要準確做到某種程度，數據沒有大到某種量級，分析能力沒有強到某種程度，可以說是完全做不來。

(Photo Credit: Matthew Hutchinson)

最後，回到第一段，廣告聯播網之於 DMP 所對準的廣告受眾，就是整篇文章在講造訪網站的使用者。使用者能不能依循著廣告主的意圖、意念，接觸到廣告之後進而採取行動，是每個廣告聯播網面臨的最大挑戰，因為這背後處理的是極為龐大又難以理解的資料，資料的正確性低，而為了要加強資料正確性，在系統尚未成熟的早期，都得透過大量人工辨識的方式來輔助或標記，直到機器的行為到達一定準確度，例如機器做的跟人做的相似度達 70% 以上，此時某些資料就可以交由機器自動判斷處理。

由人與機器之間反覆的協作，提昇資料可用性，最後能成為可以轉換為營運資金的廣告平台基礎是DMP 設計時的原始核心要素，而這段路隨著越發展越深，則會進入到人工智慧的領域，那處理資料與運算的速度、規模跟量級，又是另外一個完全不同世界的事情了。以上，說的容易做得難，特別這例子僅包括網站，其他還有行動裝置裡的 app、其他數位裝置等，每種不同平台能獲取的資料都不同，再加上現在使用者不會僅用一台電腦上網，有可能在公司一台、在家一台，然後明明就是同一個人，可在兩台電腦上的使用行為卻大不同，導致在系統端的解讀也有可能會是完全獨立的兩個人。

大數據談了好幾年，落實到應用層面的情境，比較能為人所見的就算數位廣告聯播為顯學，另一則是網路口碑分析及輿情預測，其他運用大數據的領域，舉凡像是醫療、農業、金融等，較難為一般人所接觸，反倒數位廣告因 Google、Facebook 等平台出現，還有越來越普遍的 AD Exchange，才讓 DMP 這類存在已久的應用，伴隨著大數據一起熱鬧浮上檯面。