Для обучения блока поведения применялся вариант алгоритма обратного распространения ошибки, названный «комплементарным методом обратного распространения ошибки». Ошибка на выходе каждого нейрона блока поведения определяется по выходу данного нейрона и сигналу обучения от блока оценки действий. Этот сигнал обучения может быть как положительным (если блок оценки решает, что команда с блока поведения улучшает жизнь агента), так и отрицательным (в противном случае). В соответствии с ошибками на выходах нейронов корректируются веса синапсов нейронов, аналогично тому, как это происходит в обычном методе обратного распространения ошибок.
В результате моделирования было показано, что одна эволюция без обучения плохо обеспечивает адаптацию популяции агентов. Обучение приводит к лучшей адаптации, но наиболее эффективная адаптация наблюдается в случае совместной работы эволюции и обучения. В последнем случае находились агенты, которые не вымирали на протяжении миллиона тактов жизни агентов.