以太坊交易所 以太坊交易所
Ctrl+D 以太坊交易所
ads

決策智能浪潮襲來,數智商業領域如何變革?來聽聽三位專家怎么說_Graph:GSP幣是什么幣

Author:

Time:1900/1/1 0:00:00

機器之心報道

機器之心編輯部

近年來,伴隨著廣告主的需求變化和相關技術發展,計算經濟學理論、博弈論和人工智能技術被越來越多地應用到廣告拍賣機制、投放策略中。

決策智能在商業場景中的意義逐漸凸顯。用戶看到的每一次商品展現、商家的每一次廣告出價、平臺的每一次流量分配,背后都有龐大且復雜的決策智能做支撐。

這些動作的目標在于優化用戶購物體驗,讓廣告投放的決策過程更加智能,同時讓廣告主、媒體在平臺實現長期繁榮。廣告主希望在有限的資源投入下最大化營銷效果,平臺希望能夠建立更好的生態。然而流量環境、其他參競廣告形成的競爭環境的復雜性、以及廣告投放策略中出價、目標人群、資源位、投放時間等變量的巨大組合復雜度,使得最優廣告投放策略的計算與執行充滿了挑戰。

這些問題如何解決?效益最大化的目標具體如何分解?這些有關于決策智能的重要議題,也是領域內的研究者和從業者最關心的。

為了深入探討「數智商業場景中的決策智能」這一主題,近日,阿里媽媽博見社聯合機器之心,邀請到了北京大學鄧小鐵教授、中科院蔡少偉研究員和阿里媽媽CTO鄭波老師三位領域內的資深學者和專家,展開了一系列主題分享。

以下為鄧小鐵教授、蔡少偉研究員、鄭波老師的主題分享內容,機器之心在不改變原意的前提下進行了整理。

鄧小鐵教授:計算經濟學的幾個最新研究進展

我今天粗糙地介紹一下計算經濟學,這是一個很有歷史的研究領域,最早可以追溯到1930年。后來的計算經濟學從另外一個角度出發,將經濟學變成計算,之前的計算經濟學就是通過計算做經濟學研究,這次講一講其中的思路。

我們從計算的角度來考慮經濟學,有幾個主要關鍵問題:首先是優化,機器學習都是優化,從中可以看到很多優化體系。優化之后,還有一個問題叫做均衡,以前我們做計算經濟學是從計劃經濟的思路去做的,但當時也有一派是從世界銀行做發展中國家的發展,他們給發展中國家定計劃,從優化投入產出的思路展開。從計算角度算均衡會是很困難的問題,所以出現了一個概念,叫做可計算的一般均衡。

最近,我們也越來越多可以看到動力學系統,因為這個世界很多東西并不是均衡的狀態,特別突出看到均衡的場景是在數字經濟活動中,其中包括經濟學層面的東西,比如定價。在數字經濟中,每時每秒都可以看到交易數據和價格波動。我們可以清清楚楚看得數據的變化,而不是一年過去之后再把經濟數據統計出來。

計算經濟學的整個框架下還有很多東西。每一個經濟主體都要優化,它們共同博弈的不動點即是均衡。平臺也會博弈均衡這件事情,特別是互聯網廣告平臺,做廣告的人到平臺上來,將廣告要通過平臺、媒體發放出去。對于媒體,要把廣告位置提供出來,利用自身對某一類人群的吸引力。對于平臺,要想的是如何將大家的興趣更好地匹配。阿里媽媽作為國內最大的廣告平臺,同樣面臨著博弈均衡的問題,需要安排好各方面利益,以實現社會效益最大化,同時也實現機制設計最大收益。

我們可以從三個角度來談優化。

首先是經濟智能體刻畫的問題。很多機器學習的東西都寫成優化的問題,比如怎樣用機器學習的方法算出來制約的約束條件,包括有些環境中的約束條件。

國家醫保局:深化區塊鏈等技術在宏觀決策分析、醫療電子票據等工作中的應用:10月2日消息,國家醫保局日前就醫療保障領域第一個五年規劃——《十四五全民醫療保障規劃》進行深度解讀,《規劃》提出加強信息基礎設施建設。建立健全物理安全、數據安全、網絡安全等安全管理體系和云平臺、業務系統、網絡等運行維護體系。深化大數據、區塊鏈等技術在宏觀決策分析、醫療電子票據等工作中的應用。(中國經濟網)[2021/10/3 17:21:40]

在非完全信息下,有很多條件是未知的,原來的經濟學考慮不了如此復雜的東西,比如博弈對手的效益函數是什么、博弈對手的策略空間是什么、博弈對手都有哪些,非完全信息也是非常重要的對經濟活動的刻畫。

很多假設可以刻畫非完全信息,比如經濟人知道對手的效益函數、約束以及其他各種信息。關于彼此的效益函數有一個commonknowledge:我們知道distribution。但這個distribution怎么來的呢?這就走進入機器學習范疇:為什么player要告訴彼此、告訴我們它知道什么?針對這些,在計算角度上就有一些很合理的問題。

博弈動力學,這是計算經濟學的第三步。從實體經濟的經濟學來講,很多活動是經過了6000年演化發展過來的,是大家慢慢地博弈,直到均衡。在數字經濟中,想一下子到達均衡會是很大的挑戰。

廣告平臺優化是阿里媽媽在做的事情。我們講了這么多難的計算任務,什么時候能夠做好呢?在單參數的情況下,已有的理論能夠支撐,但是多參數怎么做到,理論上還沒有現成的定義。

很重要的一點是,整個經濟學體系已經建好了,但經濟學用到互聯網中會產生一個很大的缺陷——它是靜態的。大家肯定知道,業界的事情不是靜態的,比如說「雙十一」大促會產生很多挑戰,如何設計紅包的價格,根據市場已知模型如何建立這些東西,這些成為了今天計算經濟學重要的挑戰:一是近似求解優化,一是均衡計劃,一是平臺競爭動力學。

近似計算的難度很大,我們最多知道的均衡的解可以算到三分之一,最多是33%的錯誤率,跟最優相差33%,所以均衡計算確實挺難的。自動設計方法論、隱藏對手模型學習,是這方面的框架,這里都是跟信息容量相關的東西。

另外就是與市場上的未知對手博弈。我們要考慮至少兩個company,建立一個模型來設計它們之間的博弈,這里都是單調的,并不知道所有的信息。根據已知的信息看市場的波動、價格設計變化,我們基于此設計一個隱函數的優化模型,用機器學習方法做分析。

多方認知次序的先后給我們帶來博弈的認知層次。近年來,一些研究討論了很多一價拍賣為什么比二價拍賣好。Myerson假設所有人知道所有人的價值分布,發展了一套最優拍賣理論,但我們實際上不知道公共知識。我們自己的研究是從另外一個角度來考慮的,出發點是沒有先驗的共同知識,把原來用的概率方法建立Myerson最優拍賣理論的假設放棄掉。

在沒有這套拍賣均衡的基礎假設的環境下,最優解可以如何實現均衡?可以發現,泛化一價拍賣收益是跟Myerson相等的。這里應對買家以最優效益為目標公布的價值分布,賣家設計的Myerson最優收益,等價于它已泛化一價拍賣的期望拍賣收益。

美聯儲經濟學家:決策者過分關注Libra可能帶來的不利影響:金色財經報道,美聯儲經濟學家Garth Baughman和Jean Flemming在周一發布的新報告中稱,人們對所謂的全球穩定幣(Libra)的恐懼被“夸大了”,他們認為決策者可能過分關注一籃子穩定幣不太可能帶來的不利影響。兩位經濟學家在一個假設的場景中進行了建模,評估了其對經濟的可能影響以及被采用的可能性。批評人士認為,Libra最初計劃通過多種貨幣儲備維持其穩定幣價值,這可能會破壞甚至取代這些法幣。然而美聯儲經濟學家的模型表明,盡管一籃子貨幣有可能變得重要并獲得全球需求,但法幣及貿易的定期起伏變化使得一攬子貨幣從未相對于任何一種組成貨幣處于優勢地位。但他們發現,如果許多賣家接受一攬子貨幣作為付款,世界福利將大幅度提高。[2020/6/23]

最終的結論是,Myerson和GFP是等價的,它們要比VCG要好,但是在IID情況下是相等的,SymmetricBNE和GSP也是等價的。

計算經濟學用到的另外一個概念是馬爾可夫博弈,一種在動態環境下的博弈,特別是無窮輪博弈求解的問題。我們對問題從三個方向進行了處理:一是為計算做了有理化的簡化,把目標限制在近似解;二是用時間折現率保證無窮輪收益的收斂性;三是數學上的分階段求以及將策略不同輪的變化局限在一輪的變化。如此,無窮求和的難點得以克服。

我們進一步在馬爾可夫博弈的應用方面簡化了計算的難度。對于比特幣的共識機制的設計,有清晰的馬爾可夫獎勵分析,而且講了一個很好的故事。按照機制設計規定,大多數人支持它就是對。但后面發現,大多數支持并不保證經濟學上的安全,有四分之一的人通過自私挖礦攻擊就可以推翻多數原則。

遠見挖礦策略:「螳螂捕蟬,黃雀在后」

對于數字經濟設計環節的問題,我們最新的工作是可以用InsightfulminingEquilibrium克服,用遠見挖礦的策略實現最優,最后是馬爾科夫博弈的構架,形成了馬爾科夫獎勵過程,增加一個認知層級,從誠實礦池、自私礦池,再越過一個層級,達到遠見礦池的結果。

同樣地,許多互聯網公司要處理動態的東西而非靜態的東西,如今世界經濟學不再是以前的經濟學,此外還通過數學使得機器學習方法論和博弈論緊密結合在了一起。我們因此克服了只能處理靜態經濟學的情形,演進到了能夠處理動態的情形。

蔡少偉研究員:一種求解大規模稀疏組合優化問題的高效方法

大家好,今天我分享的題目是大規模稀疏組合優化的高效方法。很多決策問題的核心都涉及組合優化問題,人們很關注如何選擇合適的組合方案來達到目標最優化。

求解組合優化主要有兩類方法:一類是啟發式方法,包括啟發式搜索和啟發式構造,比如大家經常用的貪心算法就可以看作啟發式構造的一種,貪心準則就是啟發式;另外一種是分支限界為代表的精確算法。

啟發式方法的好處是對規模不敏感,所以可以用近似求解大規模的問題,缺點是往往不知道求出的解離最優解有多大的差距,也可能已經找到最優解了,但是你不知道。BranchAndBound是完備性的,如果你給它充足時間算到停下來,可以求出最優解并且證明這是最優解。但這個方法是有代價的,會對規模比較敏感,因為這類算法是指數爆炸的,往往不適用于大規模問題。

不管是做搜索還是做構造,啟發式算法框架大多很簡單,主要是依賴于啟發式怎么設計,要根據哪個準則去做。分支限界方法主要在于怎么做「界」,大家看論文也會發現,很多BranchAndBound的論文在做bounding技術,怎么把這個界做得更緊,可以更好對解空間進行剪枝。

廣州將利用區塊鏈等“新基建”建設衛生應急指揮決策系統:廣州市委深改委印發《關于完善重大疫情防控體制機制健全公共衛生應急管理體系的實施意見》顯示,廣州將利用大數據、區塊鏈、人工智能等“新基建”,高標準建設市衛生應急指揮決策系統和突發事件緊急醫學救援指揮大廳,推動跨部門、跨層級、跨區域信息整合等。(經濟參考報)[2020/6/3]

后來我想,可不可以把這兩個結合一下?也就是說,既能夠保持對規模不敏感,又能把bounding技術加進去。大家很容易想到,可以用預處理的方法,或者先做Heuristics再做BranchAndBound,把Heuristics結果作為初始解等等。我們在這方面提出了一個新的方法——嵌套地在Heuristics和BranchAndBound中去迭代。

簡單來說,這個方法先粗糙地做一個Heuristicsolving,求一個初步結果。一般來說,做bounding需要上下界,Heuristics會粗糙得到一個下界,接下來通過設計上界的函數。假設這個問題規模比較大,包括很多元素,我們可以淘汰一些,使得問題縮小一圈。之后再精致一點,繼續做Heuristicsolving,這樣可能改進下界。在這個基礎上,算法可以再做一些bounding,一直嵌套地做下去。于是這個算法就變成半精確算法,有可能可以證明這是最優解的,因為在某一步發現問題空間足夠小,不需要Heuristicsolving而是可以直接精確求解。另外,如果沒有求出最優解,也可以知道最優解的區間在哪里。

接下來舉兩個例子解釋這個方法。

第一個是「最大團問題」。團是圖論里很經典的概念,在一個圖里,點和點之間都有邊相連的子圖,就稱為團,最大團問題是找到最大規模的團。如果給它一個加權,對每個頂點賦予一個權重,這樣的最大加權團問題是要找到總權重最大的團。下圖這個例子中,分別是四團、三團,三團的權重更大一些,也就是這個圖的最大加權團。

按照該框架來做這個事情,我們需要兩個子算法,一個做啟發式求解,在團里稱為FindClique,另外一個是化簡算法,稱為ReduceGraph。我們可以用FindClique找到一個團,這個團會比之前找到的要好。當這個更好的團走到ReduceGraph,我們知道的是:最大團至少有這么大。也是在這一步做化簡,如果圖經過化簡變為空,那么說明找到的團就是最優解;如果沒有變為空,那么可以減少一些點,再回去調整找團的算法。這里的算法不一定是固定的算法,可以動態地變化。

我們的一項工作選了「constructandcut」的方法,可以理解為多次貪心的算法。

多次貪心的作用在于,每一次貪心構造可以很快,可以從不同的起點出發,而且如果在某次構造過程中算出來,當前的團再怎么擴展都不可能超過之前找到的團,我們就可以停止。最終目的是希望找到比以前大一些的團,啟發式要不要做得更精致以及順序如何調整,依賴于圖的規模,就像剝洋蔥一樣,剝到某一層再精化,以便有更大精力把更好的團找出來。當圖不能再化簡的時候,我們可以采取精確的算法,比如BranchAndBound。找到一個團之后,根據我們的方法,我們要做bounding把一些點扔掉,方法在于估計點所能發展出來的團有多大,可以有不同方案去解決。

動態 | 光明日報評論:通過運用區塊鏈等技術建立較為精準的政府決策機制:光明日報今日發布評論文章稱,建設數字政府有利于政府改變傳統的決策方式,通過運用大數據、人工智能、區塊鏈等新一代信息技術來建立較為精準的決策機制,最大限度地掌握決策信息,不斷提高決策的精準性、科學性和預見性。此外,文章表示,樹立運用新一代信息技術創新行政方式,建設人民滿意的服務型政府的戰略思維,尤其是領導干部要不斷加強學習大數據、物聯網、云計算、區塊鏈等新一代信息技術相關知識,切實把握信息時代的歷史機遇,不斷提升治理現代化水平。[2019/12/9]

這兩個估界技術是作為例子,大家可以利用不同的技術去做。在實驗方面,可以參考下表,對比FastWClq、LSCC+BMS、MaxWClq這些方法,求解到相同精度的時間相差十幾倍甚至上百倍。

接下來看第二個問題:「圖著色問題」。所謂著色是給圖的每個點涂一個顏色,相鄰兩個點不能為同一個顏色,圖著色問題討論的是一個圖最少可以用多少種顏色來著色,最少顏色數叫做圖的色數。圖著色問題有很多應用,特別是在沒有沖突情況下分配資源。

這個問題大思路是一樣的——啟發式求解加一些bounding的技術。不同的是,圖著色問題并不要求子集合,由于要對整張圖進行著色,所以沒有「永遠扔掉」這個概念,每個點最后都要返回去,這個點一定要有一個顏色。這里的reduce是把圖分解為Kernel和Margin:

有一個很簡單的規則,還是與獨立集有關,我如果知道這個圖至少需要用多少種顏色,就是顏色下界,則可以找到?-degreebound的獨立集。這個獨立集的點的度數都比?小,所以叫做?-degreebound。如果找到這樣的獨立集,可以放心移到Margin里面。如果把kernel的solution找出來之后,我們可以很方便把Margin合并進來,如果kernel是最優解,合起來一定也是最優解,這個規則可以迭代地去使用。

我們看一個例子,這個例子里面灰色的四個點是kernel,可以看到至少需要4種顏色。旁邊的三個點放到邊緣上,因為三個點的度數都比4小,我們放心把這三個點挪到旁邊先不管。然后發現剩下這個子圖分解不動,已經很硬核了,可以直接求解出來。稀疏圖的硬核一般都不大,所以可以考慮精確算法求解。如果把核心找出來,因為已知核心至少用四個顏色,對于邊緣中的點,每個點的度數小于4,怎么樣都留有一個顏色給它,走一遍就可以了,線性的時間就可以了。

直到最后,每一次剝離的Margin都要保留下來,而且要標記清楚是第幾層,這是與第一個問題稍微不同的地方。我們要用額外數據結構把這些邊緣圖保留下來,最后一個剝不動的Kernel精確化解決之后,就可以用倒序的方法,先把最后一個Margin給合并進來,根據剛才的規則保留最優性,Kernel是最優的話,合并一個邊緣還會是最優,一路回溯上去,那原圖的解也一定是最優的。

動態 | 印度加密社區希望官方在作出決策前聽取更多行業意見:印度加密貨幣交易所Unocoin首席執行官Sathvik Vishwanath在接受采訪時就印度的加密禁令表示:“我們正在盡我們所能,確保政府能讓利益相關者參與進來。我相信政府首先會設立一個常務委員會(IMC的報告也建議這樣做)。如果成立常務委員會,我們將看到更多的行業參與,這將給印度帶來更全面、計劃更周密的加密監管。” 另一家交易所Coindcx的首席執行官Sumit Gupta也表示:“我們希望政府能夠考慮加密社區提出的問題,做出符合國家利益的明智決定。印度加密社區正在積極地與政府官員分享我們的觀點,以便做出明智的決策。”[2019/8/10]

當這個問題變成有框架的之后,就只剩下考慮如何找lowerbound和upperbound。算法的大致思路是:一開始kernel是原圖,需要用到最大團算法找一個lowerbound;剝掉邊緣之后,可以采取貪心圖著色算法,找一個upperbound。

這里其實用到了三種算法。實踐中比較常見組合拳打法,具體到做kernel著色,當這個圖比較大的時候,我們可能通過某種貪心或者比較快的方法去做,最后有可能變成精確算法去做。整個流程中,lowerbound和upperbound都是全局的,如果這兩個相等,就可以停下了。

上圖是實驗結果,可以看出在稀疏大圖上面的效果更好,144個中里有97個可以在一分鐘內證明最優解。跟同類算法相比,我們的算法對比時間也比較快,在比較稀疏大圖上面有特殊方法可以很快求解。大家以前認為,幾百萬頂點的NP難問題肯定要算很久,其實,如果這些圖很大但有一定特點的話,我們還是可以在秒級和分鐘級的時間內解決的。

阿里媽媽CTO鄭波:阿里媽媽持續升級的決策智能技術體系

大家好,作為阿里媽媽技術負責人,我將從業界視角分享一下過去幾年阿里媽媽在決策智能技術上的進展。

阿里媽媽創立于2007年,是阿里巴巴集團的核心商業化部門,也就是在線廣告部門。經過了十幾年的發展,阿里媽媽打造過「搜索廣告淘寶直通車」這樣有影響力的產品,2009年有了展示廣告、AdExchange廣告交易平臺,2014年又出現了數據管理平臺達摩盤,2016年開始做全域營銷。

從技術上看的話,在2015年、2016年前后,阿里媽媽全面擁抱深度學習,從智能營銷引擎OCPX到自研CTR預估核心算法MLR模型,都是隨著深度學習的方法不斷演進的。2018年,深度學習框架X-DeepLearning開源。2019年,Euler圖學習框架開源,信息流產品超級推薦也上線了,「人找貨」進化到了「貨找人」。2020年開始,阿里媽媽針對直播類型的廣告上線,同時開始推出互動激勵廣告,比如大家玩得比較多的互動游戲「雙十一」疊貓貓。曲率空間學習框架也在這一年開源。

2022年,阿里媽媽將整個廣告引擎做了重大升級。廣告引擎平臺EADS和多媒體生產與理解平臺MDL都上線了;在消費者隱私保護上,阿里媽媽的隱私計算技術能力獲得了中國信通院認證。回顧阿里媽媽過去十五年的發展,可以看出,我們是一家「根正苗紅」做計算廣告的公司。

阿里媽媽有什么優勢呢?在非常專業的電商場域,我們對用戶和電商理解是非常強的,業務場景也非常豐富,除了傳統的搜索推薦是傳統,在直播推廣、互動、新形態等數智業務場景上都有涉獵。此外我們的客戶規模屬于全球領先,幾百萬的商家都是阿里媽媽平臺的廣告客戶。這些客戶有非常多的需求,除了商家對經營的需求,還有各種各樣的生態角色涉及其中,比如主播、達人或者代理商、服務商,他們以不同角色在這個平臺里活躍。

我們在AI方面也有比較多的研究。這里介紹一下廣告場景算法技術的特色。如上圖,左邊的倒漏斗型結構,很多做搜索或者推薦同學非常熟悉,這一部分廣告和搜索推薦非常相似,包括廣告召回、粗排序、精排序到機制策略的打分,涉及到信息檢索等大量AI技術,特別是匹配上的TDM等召回模型都用了深度學習的技術。

其中包括決策智能,鑒于平臺包含非常多的角色,各有各的博弈的關系,在多方關系和優化平衡之間,決策智能就派上了用場。用戶體驗、流量成本、預期收益、預算控制、跨域的融合,這些都是需要去博弈平衡的。

在這里我講講典型三個博弈player。平臺上博弈方有非常多,主要有三類:媒體、廣告主、廣告平臺。

這三部分的核心技術可以總結為:從媒體角度,關注釋放哪些媒體資源能夠最好地平衡用戶體驗和商業化收入;從廣告主角度,要優化什么,如何用最小的代價實現營銷目標。那么,廣告平臺的最大目標是什么?長遠來說,廣告平臺更底層的追求目標是讓整個平臺更加地繁榮,賺錢只是短期的事情,讓這個平臺長期繁榮才是最終目標,所以平臺要平衡各方的關系,讓各方的player在平臺上很好地玩下去。

廣告平臺所要優化的目標涉及到很多機制設計。我今天會簡單講一下智能拍賣機制設計、智能出價策略、智能商業化策略三個方向,主要以科普的方式講一講阿里媽媽在這幾年這上面的工作,供大家探討。

智能拍賣機制設計。

先講講智能拍賣機制設計,這是很有趣的課題,已經好多位前輩、大牛得了諾貝爾經濟學獎。我們所談的經典拍賣機制,從時間來看都是上世紀70年代之前出現的,那時候在線廣告還沒有出現,大家研究了很多關于單次拍賣或者靜態拍賣的優化。這些機制通常都是單目標的,而且是針對單次拍賣。

無論是廣告平臺還是媒體,需要平衡用戶體驗和廣告收入,典型的業界問題都是多目標優化,如果平臺上涉及業務比較多,不同業務之間可能有平臺策略和意志在里面,這也是多目標的優化。

從最開始用經典拍賣理論,比如用GSP或者UGSP方式去做流量分發和定價,業界逐漸演進到深度學習去解決這個問題。這些經典算法通過公式去計算平臺對某個目標最優化的一些參數,有了深度學習的工具之后,拍賣機制設計本身也是一個可決策問題,其本身是解決決策問題的算法,但生產決策算法也是決策問題。

三年前,我們基于深度學習設計了一個DeepGSP拍賣機制,在滿足機制良好性質的前提下提升;餓平臺的效果,所謂機制性質良好是指激勵兼容,廣告主不用通過鉆牛角尖或者是黑灰產方式獲利,真實表達自己的意愿就能夠拿到符合出價的流量。保持了激勵兼容性質做的DeepGSP,把原來靜態公式換成了可學習的深度網絡,這是第一階段的工作。

到了第二階段,拍賣機制網絡里很多參數,我們通過訓練優化的方式算出來。但實際上在整個過程中,除了參數計算還有排序,以及廣告分配的過程,是整個系統完整的組成部分。部分模塊其實是不可微的,比如排序模塊,因此深度學習網絡很難模擬它,為了端到端進行拍賣機制設計,我們把拍賣流程可微部分建模到神經網絡,這樣可以有梯度的反向傳導,使得模型訓練更加方便。

智能出價策略。

接下來講一下智能出價策略,這是廣告主用來調節效果或者博弈最主要的工具。中心化的分發無法表達訴求,但是在廣告場景中這是有辦法表達的。出價產品分為三個發展階段:

最初的經典解法也是最古老的出價,希望預算花得比較平滑,讓效果比較有保障,最初的時候業界是通過類似PID的控制算法,這是非常簡單的算法,效果也比較有限。

等到了2014、2015年,再到AlphaGo打敗人類之后,我們看到了強化學習的強大力量。智能出價是一個非常典型的序列決策問題,在預算周期內,前面花的好不好會影響到后面的出價決策,而這正是強化學習的強項,因此第二階段我們用了基于強化學習的bidding,通過MDP建模,直接用強化學習做這個事情。

第三個階段就演進到了SORL這個平臺,它的特點是針對強化學習中離線仿真環境與在線環境不一致。我們直接在在線環境中進行可交互的學習,這是工程設計和算法設計聯合的例子。SORL上線之后,很大程度上解決了強化學習強依賴于仿真平臺的問題。

其他的技術特色還有工程基建部分,包括智能出價模型的訓練框架、流批一體調控系統以及多渠道的投放圖化在線引擎。工程體系和算法同樣重要,離交易中心越近、越實時,越能夠得到好的反饋,對于智能出價來說,工程基建部分越先進,越能幫助廣告主獲得更好的效果。

智能商業化策略。

最后講講與媒體相關的智能商業化策略部分。在商業化策略優化上,最初的嘗試是把廣告結果和自然結果進行加權融合,然后混合起來,根據不同的情況挑選去放。不合理的商業化機制對用戶體驗傷害很大,大家開始意識到這個問題。最近一兩年,動態展現的策略逐漸流行起來了,隨著深度學習等技術發展,我們可以通過優化決策算法做到平衡用戶體驗和商業化收入,在全域流量下去平衡用戶的體驗。

總體而言,在這三大方面,阿里媽媽形成了一張決策智能體系圖,分為三個層面,智能拍賣機制是中間的橋梁,智能商業化策略解決的問題是拿出什么樣的資源拍賣最高效,最能平衡好用戶體驗和商業化收入,智能出價策略是面向流量精細化出價的決策過程,通過出價參數的優化、基于真實環境的強化學習參數尋優,或TargetCPX、MaxReturn等建模的范式進行優化。

面對現在的多輪拍賣和高頻拍賣,很多基礎理論有待進一步突破。說到基礎機制理論突破,鄧老師是這方面的專家,我們期待與鄧老師一起在這方面做出前沿性的研究。從工程實際問題的挑戰角度來看,實際環境要求在200毫秒返回結果,因此效率和效果上需要通過一些平衡,在工業界做得比較久對這個都有感觸。

廣告生態的優化是相對獨立的,平臺的最終目標是希望生態欣欣向榮、和平發展,做好了這幾個,生態是否能達到預期呢?我想二者之間未必直接劃等號。對于生態優化,仍然有很多理論和實際問題需要解決,這也是希望業界朋友們未來能夠一起去探討和解決的。

過去三年,阿里媽媽決策智能方向在頂級國際會議共發表近20篇論文,并與北京大學、上海交大、中科院、浙江大學等多所高校及研究機構展開合作,相關成果得到了工業界和學術界的廣泛關注和跟進,在這個領域實現從跟隨到逐步引領行業的技術發展。

相對于深度學習,決策智能在業界和學術界受到關注并沒有那么多,所以借這個機會讓大家更多了解這個領域,這個領域是非常有趣且有前景的。以上是阿里媽媽在決策智能方面的思考和工作,希望跟業界和學術界朋友一起分享,未來能更多地討論,爭取在決策智能的理論研究和業界實際應用上能夠形成一些突破性的發展。

Tags:GSPGraphCPXGSP幣是什么幣Graph幣是什么幣CPX幣是什么幣

幣安app官網下載
火必:將上架FTX用戶債權代幣FUD,明日開放提幣服務_FTX:FUD幣FTX幣

火必已上線“FTX賬戶查詢服務”:據火必官方推特消息,火必已上線“FTX賬戶查詢服務”。火必表示,作為全球領先的數字資產交易平臺,始終肩負行業責任,將密切關注FTX事件處理進展,并盡己所能為用戶.

1900/1/1 0:00:00
BVB創世發行——幣位Web3.0敘事的開篇之作_DEX:NFT

11月3日,BVB創世發行直播從中午1點開啟,直至下午3點結束。短短兩個小時,給直播間觀眾,送去了7輪好禮:有盈利可提現的現金券,平臺幣BVB的空投,更有無門檻的大額贈金獎勵,在幣位的大水漫灌式.

1900/1/1 0:00:00
頭部交易所大戰 幣圈再地震_加密貨幣:SBFFTX幣

幣圈的世界總是不太平。當地時間11月8日,全球最大的加密貨幣交易所幣安與其競爭對手——加密數字貨幣交易所FTX.com達成收購協議。此前,FTX傳出財務危機,引發幣圈震動.

1900/1/1 0:00:00
人類成為神之后會就會迷失自我,且丟掉最重要的東西!_波塞冬:DNA幣

科學進步的最終目標是什么。隨著我們對宇宙的了解越來越多,科技使我們能夠從根本上改變我們的世界。像卡爾達肖夫指數這樣的措施有助于規劃我們可能發展的方向。今天我們要講一個不同尋常的問題.

1900/1/1 0:00:00
「泰國博士留學」泰國皇太后大學MFU博士招生簡章_EVT:EVT幣是什么幣

一、學校簡介 ?1.大學簡介 ?2.院校環境 ?3.院系結構 二、專業介紹及入學條件 ?1.博士專業列表 ?2.博士就讀費用 ?3.博士申請條件 一、學校簡介 大學簡介 泰國皇太后大學.

1900/1/1 0:00:00
凱迪拉克GT4申報圖曝光,上市要明年年中,卻放棄BBA等它!_LED:GLA價格LED價格

在SUV車型愈來愈火的當下,不少消費者卻也不再滿足于單純的SUV,他們還希望擁有更強的操控性和顏值。如果你也有這種想法,那么轎跑SUV顯然更符合你的心意.

1900/1/1 0:00:00
ads