7.1.13

Reforços, carros e facebook ou como não é preciso recompensar toda vez

Um dos maiores mitos do treino de cães com reforço positivo é o de que se formos treinar com petiscos ou brinquedos, teremos que recompensar nossos cães toda vez que eles fizerem um dado comportamento.

Como já coloquei, isso não passa de um mito. Se vocês ligam a tevê e não tem nada de legal passando, vocês vão parar de ver tevê pra sempre? Ao entrar no facebook e não ter nenhum atualização interessante e nenhuma mensagem de amigos, vocês vão parar de acessar essa rede social? É muito provável que não.

A verdade é que nem sempre as coisas que gostamos de fazer nos providenciarão reforços, ás vezes teremos de tentar um pouco mais antes de conseguir aquilo que queremos. E se nós somos capazes de aprender que na vida é preciso continuar tentando, por que não nossos cães? 

Mas não é só isso.

A forma e a frequência com que recebemos reforços para uma dada atividade (o chamado de esquema de reforçamento) modifica o nosso comportamento e o de nossos cães. Um exemplo clássico ilustra isso muito bem: suponhamos dois homens e seus respectivos carros. O primeiro possui uma Ferrari novinha e o segundo tem um fusca '68. Um belo dia o dono da Ferrari sai para trabalhar e o seu carro não pega... Ele tenta uma, duas, três vezes e aí desiste e liga para o seguro. No mesmo dia, o dono do fusca sai para trabalhar e seu carro também não liga mas diferente do outro homem, ele tenta muito mais vezes antes de desistir. Qual a diferença entre esses dois indivíduos? A diferença está no esquema de reforçamento do comportamento de ligar o carro. 

Vou destrinchar isso um pouco mais descrevendo os três esquemas mais presentes nos treinos de animais. 

O primeiro esquema é o de reforço contínuo, nele todas as respostas do organismo são reforçadas, sem exceção. Esse é o melhor esquema para se ensinar algum comportamento novo pois permite uma aquisição mais rápida. No entanto, se o reforço for interrompido por qualquer motivo, o comportamento se perderá rapidamente.

É o caso do dono da Ferrari. Toda vez que ele decide ligar o carro, o carro liga. Se por qualquer motivo, o carro não ligar, esse homem tentará poucas vezes antes de desistir.

O próximo esquema é o de razão variável, que é provavelmente o mais comum em nossas vidas. Nesse esquema não sabemos quando seremos reforçados, pois o reforço vem após um número variável de respostas, e continuamos tentando até conseguir. É o esquema predominante no Facebook, por exemplo, em que o feed de notícias nem sempre mostra algo interessante, mas continuamos procurando até achar alguma postagem que nos reforce.

E é o caso do dono do fusca que persiste por muito tempo antes de desistir de ligar seu carro. Alguns dias seu carro ligará de primeira, em outros vai ter que de tentar 5 ou 10 vezes antes de conseguir ligá-lo. Logo, quando seu carro não liga facilmente, ele continua tentando na esperança de conseguir na próxima, ou na próxima...

Esse é o melhor esquema para se evitar que o comportamento entre em extinção, mas esse é o tópico para outro post. 

Por fim, temos o reforço diferencial em que não se reforça a partir de um número de tentativas, mas sim, quando o comportamento atinge um dado critério. Por exemplo, podemos reforçar toda vez que o cão acerta um comportamento numa situação difícil,  como quando faz os truques em meio a distrações. 

Ou então, podemos reforçar a partir da qualidade da performance. Hoje estou retreinando os saltos da Dory e toda vez que ela faz um salto muito curto em uma sequência, eu paro para reforçá-la. A ideia é que ela se esforce para saltar cada vez mais curto pois é isso que produz mais brincadeiras e petiscos :)

Dessa forma, fica claro que recompensar todas as vezes não é necessário, mas também é contraprodutivo no treino de nossos cães. O reforço contínuo é vital para ensinar coisas novas, mas a partir do momento que o cão já sabe, o melhor é adotar outros esquemas que permitam tornar o comportamento mais duradouro ou melhorar sua performance.


3 comentários:

  1. Excelente post! Adorei o uso do facebook como exemplo de reforço variável. Você tem uma maneira muito clara de explicar os assuntos que aborda, parabéns!!

    ResponderExcluir

Área livre para resmungos. A gente até libera, mas odeia anônimos.