Telefone/Ramal: | (98) 2016-8166/8942 |
ESTRATÉGIAS DE APRENDIZADO PORR REFORÇO PARA CONTROLE ÓTIMO ONLINE MANIPULADORES ROBÓTICOS.
Aprendizado por Reforço; Manipuladores Robóticos; Controle Ótimo;
Controle Adaptativo.
As imprecisões e incertezas nos parâmetros de um manipulador robótico, tais como variações
na carga de trabalho, medidas imprecisas da massa e/ou inércia dos elos, folgas ou atritos
desconhecidos nas engrenagens, entre outras, afetam, muitas vezes de forma significativa, o
desempenho do manipulador, ocasionando erros de regime e de seguimento de trajetória.
Controladores adaptativos apresentam-se como uma boa alternativa para esses sistemas, pois
possuem como principal característica a capacidade de aprenderem online usando estimação de
parâmetros em tempo real. No entanto, controladores adaptativos geralmente não são projetados
com a qualidade de serem ótimos no sentido de minimizarem funções de custo, conforme
definido no contexto de controle ótimo, e, desta forma, não são viáveis para aplicações onde o
uso de estratégias ótimas de controle é requerido. Neste trabalho, propõe-se uma abordagem
unificada de controle adaptativo e controle ótimo que tem por base conceitos e métodos de
aprendizado por reforço, tendo em vista o desenvolvimento de algoritmos para o projeto de
sistemas de controle ótimo online com aplicações em controle de manipuladores robóticos.
Uma estrutura paramétrica é utilizada para aproximar a função valor a fim de contornar o
problema da maldição da dimensionalidade. A estimação desses parâmetros será realizada
através do estimador dos Mínimos Quadrados Recursivos (Recursive Least Squares - RLS) a
cada passo de tempo. Já em relação a política de controle, duas abordagens serão implementadas
na etapa de atualização: a melhoria de política aproximada, em que uma representação via
aproximadores de funções é utilizada, e a melhoria de política exata, onde as ações de controle
são calculadas exatamente através da função valor. A principal vantagem da metodologia de
controle proposta é que, para sua implementação, não é necessária nenhuma informação prévia
dos parâmetros do manipulador, somente as medições dos estados e do sinal de controle são
usadas. A avaliação dos esquemas de controle é feita em um modelo robótico UR10 do
simulador V-REP para as tarefas de regulação, rastreamento e variações na carga de trabalho.