multiarmedbandit原本是从赌场中的多臂老虎机的场景中提取出来的数学模型。是无状态(无记忆)的reinforcementlearning。目前应用在operationresearch,机器...