O Aprendizado por Reforço (AR) é uma técnica baseada no aprendizado pelo sucesso e fracasso,e fundamentada nos processos de decisão de Markov. Em uma estrutura comum de AR, o aprendizado acontece a partir da interação direta de um agente com o ambiente. Assim, no AR o agente usa sensores para identificar o estado (s) atual do ambiente, em seguida executa a melhor a ação (a), e então recebe um retorno para o par estado-ação (s,a). Geralmente, reforços positivos indicam sucesso na tomada de decisão. Já os reforços negativos são as penalidades. Dessa forma, o agente armazena essas informações de sucesso e fracasso para auxiliar nas tomadas de decisões futuras.
APLICAÇÔES
Ao longo dos últimos anos, diversas foram as aplicações para o AR. Nesse aspecto, em seguida são levantados alguns trabalhos que tiveram como atuação primordial a aplicação do AR. Os trabalhos são exemplos de aplicações do AR na robótica móvel. Já os artigos levantam diversos estudos no campo de integração de robótica e aprendizado por reforço. Outra área que o AR tem relevante papel é a otimização combinatória . Nesse sentido, o AR é aplicado em importantes problemas, como: Problema do Caixeiro Viajante, Job-Shop Problem, Problema dos K-Servos e Problema da Mochila Multidimensional . A aplicação do AR em sistemas inteligentes com vários agentes também é muito comum na literatura . Uma aplicação importante é o Futebol de Robôs . Técnicas de AR tem sido empregadas na determinação de polı́ticas de controle ótimo para sistemas de complexidade elevada fazendo uso da teoria de Lyapunov e do emprego de desigualdades matriciais lineares. Pode-se citar também aplicações do AR em controle de elevadores , controle de tráfego aéreo, conformação de feixe em arranjo de antenas, otimização de venda de energia e roteamento.