OpenAI uses Q-ensembles for improved reinforcement learning exploration

By PulseAugur Editorial · [1 sources] · 2017-06-05 07:00

OpenAI researchers have developed a new exploration strategy for deep reinforcement learning, leveraging ensembles of Q-functions. This approach adapts upper-confidence bounds (UCB) from bandit problems to the Q-learning setting. Experiments demonstrated significant performance improvements on the Atari benchmark. AI

RANK_REASON Academic paper detailing a new method for reinforcement learning exploration.

Read on OpenAI News →

paper
other

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

OpenAI uses Q-ensembles for improved reinforcement learning exploration

COVERAGE [1]

OpenAI News TIER_1 English(EN) · 2017-06-05 07:00

UCB exploration via Q-ensembles

COVERAGE [1]

UCB exploration via Q-ensembles

RELATED TOPICS