中大新聞網(wǎng)訊(通訊員夏俐)近期,中山大學(xué)管理學(xué)院夏俐教授在管理學(xué)領(lǐng)域國(guó)際高水平期刊Production and Operations Management(簡(jiǎn)稱(chēng)POM)上發(fā)表了題為“Risk-Sensitive Markov Decision Processes with Long-Run CVaR Criterion”的研究論文,論文的其他作者還包括中山大學(xué)管理學(xué)院的博士生張璐瑤和斯坦福大學(xué)管理科學(xué)與工程系的Peter W. Glynn 教授。該研究針對(duì)隨機(jī)動(dòng)態(tài)系統(tǒng)中的過(guò)程中損失的CVaR優(yōu)化問(wèn)題進(jìn)行研究,完善了相應(yīng)的優(yōu)化理論及算法體系。
CVaR指標(biāo)是重要的風(fēng)險(xiǎn)刻畫(huà)指標(biāo),在應(yīng)用于多階段動(dòng)態(tài)決策時(shí),由于指標(biāo)函數(shù)的不可加性導(dǎo)致經(jīng)典動(dòng)態(tài)規(guī)劃原理失效,Bellman最優(yōu)性方程不成立,需要尋求新的優(yōu)化方法。本文基于靈敏度優(yōu)化方法對(duì)離散時(shí)間無(wú)窮階段穩(wěn)態(tài)CVaR 準(zhǔn)則下的馬氏決策過(guò)程(MDP)優(yōu)化問(wèn)題進(jìn)行研究。通過(guò)引入偽 CVaR 指標(biāo),將原問(wèn)題轉(zhuǎn)化為一個(gè)兩層MDP問(wèn)題,內(nèi)層為標(biāo)準(zhǔn)動(dòng)態(tài)規(guī)劃問(wèn)題,外層為偽CVaR的單參數(shù)優(yōu)化問(wèn)題,并給出了 CVaR性能差分公式用以刻畫(huà)不同策略對(duì)應(yīng)的穩(wěn)態(tài) CVaR 性能差。
論文證明了確定性平穩(wěn)策略的最優(yōu)性,基于CVaR差分公式和性能導(dǎo)數(shù)公式得到了CVaR Bellman局部最優(yōu)方程,從而給出了得到局部最優(yōu)策略的充要條件以及穩(wěn)態(tài)CVaR MDP的策略迭代型算法,證明了該算法可收斂至局部最優(yōu)策略。進(jìn)一步,論文基于兩層MDP問(wèn)題的靈敏度信息和臨界點(diǎn)分析,證明了偽CVaR函數(shù)的分片線(xiàn)性、分段凸的性質(zhì),在此基礎(chǔ)上給出了一種全局最優(yōu)算法,證明了算法可收斂至全局最優(yōu)策略。論文最后通過(guò)多個(gè)數(shù)值實(shí)驗(yàn)對(duì)比驗(yàn)證了本文優(yōu)化理論與算法的有效性。
論文的主要貢獻(xiàn)可分為以下三點(diǎn),第一,本文首次對(duì)衡量系統(tǒng)過(guò)程波動(dòng)性的穩(wěn)態(tài)CVaR準(zhǔn)則下的MDP優(yōu)化理論進(jìn)行研究,完善了現(xiàn)有文獻(xiàn)在該類(lèi)指標(biāo)的理論體系;第二,不同于經(jīng)典MDP理論,本文從靈敏度優(yōu)化的角度對(duì)穩(wěn)態(tài)CVaR MDP進(jìn)行研究,得到了CVaR 性能差分公式、性能導(dǎo)數(shù)公式以及 CVaR Bellman 局部最優(yōu)方程;第三,通過(guò)將原問(wèn)題轉(zhuǎn)化為兩層MDP問(wèn)題,本文首次提出了MDP的CVaR指標(biāo)的有效求解算法,分別得到了一種可快速收斂至局部最優(yōu)的策略迭代型算法以及一種基于靈敏度分析的全局最優(yōu)算法,填補(bǔ)了現(xiàn)有MDP文獻(xiàn)關(guān)于CVaR的有效求解算法的空白。
論文鏈接:https://doi.org/10.1111/poms.14077