Facebook Pixel Facebook Pixel

大數據:談資料管理平台(DMP )與廣告聯播網間的關係(下)

2015-11-12
Inside 硬塞的網路趨勢觀察
大數據:談資料管理平台(DMP )與廣告聯播網間的關係(下)

上篇講到了廣告系統的 DMP 到底是怎麼運作,該資料到底是怎麼來?怎麼去? 這裡開始談怎麼運用。

 

資料怎麼用?

前面提過 cookie 會存取使用者瀏覽過的網址以及各頁面上的點擊資訊。基本上,廣告聯播網拿到的 cookie 無法辨識出該使用者是誰,更不清楚這個人是男生還是女生,因為 cookie 存取的資料有限,除非網站主願意分享自己站上該使用者登入後的資料,再把該使用者上站時的資料與登入後的狀態資料交集在一起,這才有可能比較準確知道該使用者是誰,不然的話,大多 cookie 取回來的資料都是遠遠猜測使用者是誰。

 

既然用猜的,那就有一套猜測方法。辨識方式才是所有資料分析之中最困難、最麻煩的地方。大致上可以分成三個面相:

 

1. 使用者瀏覽過後的內容比對

2. 使用者瀏覽行為與路徑記錄

3. 使用者被標籤反覆不斷標記

 

簡單來講,當使用者瀏覽過某個網頁後,會在 cookie 上存下瀏覽的 URL,然後廣告聯播平台,不論是用資料爬蟲或是快照的方式,將該 URL 上的內容儲存下來,進行內容標籤化的工作。這段工作又可分成兩段,一段是人工、一段是機器。當廣告聯播網面臨的網站不多以及頁面內容數量較少時,採取人工作法去分類每個 URL 裡的內容,並對該 URL 下標記會比較容易。可是當網站數量一多,各網站的內容頁面數量一大,人工處理就顯得非常無力,這時透過機器去分會比較適當,可是要用到機器去分,又得扯到自然語義分析。

 

我們稱這類工作叫做內容比對,透過將內容比對產出的標籤,標記到使用者上。這邊指的使用者,指的是來瀏覽網站的人,實際上並不是真的知道他(她)是誰,而是透過每個存取的 cookie 賦予一個 ID,每個 ID 都會在資料庫端存取一份,然後將這些 ID,貼上各式各樣的標記。貼標記的作用在於定義出使用者輪廓,例如該使用者看的各網頁內容有刮鬍刀、刮鬍泡泡、柔膚水、古龍水等,這些關鍵字一貼到使用者上,資料分析人員會很粗淺的劃分該使用者或許為男性。

 

上述這段的解釋,就是我們用來定義使用者之前,會先針對網站進行內容分析的使用者demography 定義。這是一種假設,很不精確但卻提供一種可能性,我們不知道使用者到底是不是如我們所想,可是與其在茫然模糊的大海裡,連辨識都不知道怎麼做起,倒不如先用該使用者接觸到的內容作為定義之中心。從中,工程師訓練機器開始學習並改善使用者之於 demography 的精確性。能找出來的 demography 可能有性別、年齡、消費水平、居住地、學歷等,資料準確性不高,但這只是其中一個面相。

 

12712204375_0846b25dc7_z

 
(Photo Credit: Scott Cresswell)

 

從內容比對,還可比對出使用者的興趣。一樣用標記的方式,將各網站上的內容分析置入到 interest 類別裡。這類別,主要看的是使用者對哪些事物有興趣,以及接觸這些內容的頻率。興趣類別中,又有所謂的精準興趣、相似興趣、模糊興趣等類別,每個類別底下的興趣分支其實都差不多,差別只在於精準,是用來判定使用者有在網站上產生過具體交易行為或是某些行動,會把使用行為分析交叉寫入到興趣資料之中。至於相似則是從中找到該使用者與其他使用者,可能類似相近的興趣。模糊則是推測具有同樣 demography 的使用者,以及相似但頻率不高的興趣,採取基礎資料交集。

 

Demography 有了,interest 有了,再來就是 behavior。使用者到每個不同網站的行為都不大一樣,例如瀏覽新聞類型的網站,可能有很大一部分都是靠著臉書或搜尋連過去,但電子商務的網站,則有可能是靠著廣告宣傳。不同的網站類型,所牽動的使用者行為也都不同,因此分析者得先針對不同的網站做不同類型的行為脈絡定義。這定義並不難,也就是一個網站的瀏覽行為,到底需不需要登入,有沒有購買,會不會結帳,有無其他必要行動才可以到下一個單元,在 GA 裡面,我們稱作工作階段。

 

所以,從 cookie 來的資料,被加工處理過後,會被 demography、interest、behavior 這三者資料,像是金字塔般的以使用者為中心,圍繞著使用者,不斷增長並且豐富其資料。請注意,這邊談的是豐富其資料,不代表資料會變得更精準,要讓使用者資料變得更準確,嚴格來講,不是真實世界的準確,而是網路世界裡的人格與行為相似於我們所描述輪廓的那一群人,那就得反覆重新的進行 tagging。Tagging 的目的有兩個,一個是將使用者定義的更精確,另一個則是讓機器學習,從網站中間接辨別使用者。

 

到此,資料怎麼來、怎麼去、怎麼用,不過就只是一套 DMP 開發基礎,然後廣告聯播網的 DMP 設計又不只面向使用者,還有另外一端是代表著廣告主的廣告操作人員。廣告操作人員在操作廣告時,將廣告投放到各大網站,使用者有無點擊,攸關廣告操作人員依據什麼樣的資料來投放。廣告操作人員之於投放準的使用者,使用者對於網站內容以及廣告素材,這之間是屬於隨時都在動態改變的資料模式,難以被輕易找出固定脈絡,也因此廣告成效要準確做到某種程度,數據沒有大到某種量級,分析能力沒有強到某種程度,可以說是完全做不來。

4541195635_41249924f6_z

 
(Photo Credit: Matthew Hutchinson)

 

最後,回到第一段,廣告聯播網之於 DMP 所對準的廣告受眾,就是整篇文章在講造訪網站的使用者。使用者能不能依循著廣告主的意圖、意念,接觸到廣告之後進而採取行動,是每個廣告聯播網面臨的最大挑戰,因為這背後處理的是極為龐大又難以理解的資料,資料的正確性低,而為了要加強資料正確性,在系統尚未成熟的早期,都得透過大量人工辨識的方式來輔助或標記,直到機器的行為到達一定準確度,例如機器做的跟人做的相似度達 70% 以上,此時某些資料就可以交由機器自動判斷處理。

 

由人與機器之間反覆的協作,提昇資料可用性,最後能成為可以轉換為營運資金的廣告平台基礎是DMP 設計時的原始核心要素,而這段路隨著越發展越深,則會進入到人工智慧的領域,那處理資料與運算的速度、規模跟量級,又是另外一個完全不同世界的事情了。以上,說的容易做得難,特別這例子僅包括網站,其他還有行動裝置裡的 app、其他數位裝置等,每種不同平台能獲取的資料都不同,再加上現在使用者不會僅用一台電腦上網,有可能在公司一台、在家一台,然後明明就是同一個人,可在兩台電腦上的使用行為卻大不同,導致在系統端的解讀也有可能會是完全獨立的兩個人。

 

大數據談了好幾年,落實到應用層面的情境,比較能為人所見的就算數位廣告聯播為顯學,另一則是網路口碑分析及輿情預測,其他運用大數據的領域,舉凡像是醫療、農業、金融等,較難為一般人所接觸,反倒數位廣告因 Google、Facebook 等平台出現,還有越來越普遍的 AD Exchange,才讓 DMP 這類存在已久的應用,伴隨著大數據一起熱鬧浮上檯面。

 

 

 

 

 

延伸閱讀

大數據:談資料管理平台(DMP )與廣告聯播網間的關係(上)

原文出處

轉載自合作媒體 Inside 硬塞的網路趨勢觀察

【超過300本影音說書陪你成就更好的自己】讓大大學院與你共讀,幫助「沒時間讀書」、「讀書速度很慢」、「讀完就忘記」、「抓不到重點」的你,利用18分鐘領略閱讀的樂趣,吸收並帶走鮮明觀點,真正讓知識內涵融會於日常生活。立即點擊加入
大大讀書|全台最大線上影音說書
本網站內容未經允許,不得轉載。歡迎來信投稿、洽談文章授權。

關注職場最新趨勢,為知識學習創造最佳環境

大大學院「全台最大影音說書.知識學習平台」,致力於推廣終生學習、培養職場人士的閱讀習慣。

按讚、追蹤「大大學院」Facebook粉絲團,每天更新最新職場趨勢文章,帶你掌握關鍵資訊。

加入「大大學院|職場趨勢新觀點」,最新、最實用的職場課程都在這,學習資訊不漏接!請用手機點擊「加入Line好友」連結,或是掃描QR Code加入。

處理中