靚麗時尚館

位置:首頁 > 健康生活 > 心理

ddpg算法優缺點

心理1.96W
ddpg算法優缺點

ddpg算法優點:是sample efficiency,DDPG的actor crtic均可以off-policy,而gradient estimator由於deterministic policy也確實是無偏的,是可以continuous control。DPG的actor是透過SGD去解max-Q的(而不是遍歷),所以也能做continuous control。

缺點:第一點是deterministic policy,意味着不能很好的explore state Action space。

標籤:優缺點 算法 ddpg