Dialogue Policy Learning

A Unified View

这事Jianfeng Gao(Microsoft Research) 在多个场所提到的,将对话系统转化成一个Optimal Decision Making 问题 + Dialogue as a Markov Decision Process 1. Given state \(s\), select action \(a\) according to policy \(\pai\) 2. Receive reward \(r\), observe new state \(a'\) 3. Continue the cycle until the episode terminate

Task-oriented Dialogue System 的整体结构在Deep Learning, Reinforcement Learning 火爆之后，可以将 task-oriented 的对话系统看成是一个 Partially Observable Markov Decision Process(POMDP) 这里先介绍 Dialogue Policy Learning 的内容, 这里直接从论文讲起

Policy Based Method

代表论文 Wen 2016

基于Reinforcement Learning 方法

将Dialogue Management 视为一个决策问题，并采用Reinforcement Learning 方法来优化 dialogue policy. 其中的Reward 定义为最终的用户满意度减去对话轮数。其中用户满意度是为了达成服务目标，而对话轮数则是尽可能少的对话轮数达成沟通目的。

但是基于RL 的方法有一个很严重的问题: 严重依赖与用户的交互。为了解决这一问题可以使用真实对话数据构造一个 user simulator, 这个user simulator 可以用来优化 agent 的policy. 但是这个构造的user simulator 质量却不怎么样