Jump to content

Стратегия естественной эволюции

Стратегии естественной эволюции ( NES ) — это семейство алгоритмов численной оптимизации для черного ящика задач . Подобно стратегиям эволюции , они итеративно обновляют (непрерывные) параметры поискового распределения , следуя естественному градиенту в сторону более высокой ожидаемой приспособленности.

Метод [ править ]

Общая процедура следующая: параметризованное распределение поиска используется для создания пакета точек поиска, и функция приспособленности оценивается в каждой такой точке. Параметры распределения (включая параметры стратегии ) ​​позволяют алгоритму адаптивно фиксировать (локальную) структуру функции приспособленности. Например, в случае распределения Гаусса оно включает в себя среднее значение и ковариационную матрицу . По выборкам NES оценивает градиент поиска по параметрам в сторону более высокой ожидаемой пригодности. Затем NES выполняет шаг подъема градиента вдоль естественного градиента — метода второго порядка, который, в отличие от простого градиента, перенормирует обновление с учетом неопределенности. Этот шаг имеет решающее значение, поскольку он предотвращает колебания, преждевременную сходимость и нежелательные эффекты, возникающие из-за заданной параметризации. Весь процесс повторяется до тех пор, пока не будет достигнут критерий остановки.

Все члены семейства РЭШ работают по одним и тем же принципам. Они различаются типом распределения вероятностей и используемым методом градиентной аппроксимации . Разные пространства поиска требуют разных распределений поиска; например, в случае низкой размерности может быть очень полезно смоделировать полную ковариационную матрицу. С другой стороны, в больших размерностях более масштабируемой альтернативой является ограничение ковариации только диагональю . Кроме того, многомодальные пространства поиска могут выиграть от распределения с более тяжелым хвостом (например, Коши , в отличие от распределения Гаусса). Последнее различие возникает между распределениями, в которых мы можем аналитически вычислить естественный градиент, и более общими распределениями, в которых нам необходимо оценить его на основе выборок.

Поиск градиентов [ править ]

Позволять обозначаем параметры поискового распределения и функция приспособленности, оцененная в . Затем NES преследует цель максимизировать ожидаемую пригодность при поисковом распределении.

через градиентный подъем . Градиент можно переписать как

то есть ожидаемое значение умножить логарифмические производные на . На практике можно использовать приближение Монте-Карло , основанное на конечном числе образцы

.

Наконец, параметры поискового распределения можно обновлять итеративно.

подъем градиентный Естественный

Вместо использования простого стохастического градиента для обновлений NES следует естественному градиенту , который, как было показано, обладают многочисленными преимуществами по сравнению с простым ( ванильным ) градиентом, например:

  • направление градиента не зависит от параметризации поискового распределения
  • Величины обновлений автоматически корректируются в зависимости от неопределенности, что, в свою очередь, ускоряет сближение на плато и хребтах.

Таким образом, обновление для NES

,

где информационная матрица Фишера . Матрицу Фишера иногда можно вычислить точно, в противном случае она оценивается на основе выборок с повторным использованием логарифмических производных. .

Фитнес-шейпинг [ править ]

NES использует ранговое формирование фитнес-формы для визуализации алгоритм более устойчив и инвариантен относительно монотонно возрастающие преобразования фитнес-функции. Для этого приспособленность популяции преобразуется в набор полезности значений . . Позволять обозначаю я й лучший индивидуум. Заменяя приспособленность полезностью, оценка градиента становится

.

Выбор функции полезности является свободным параметром алгоритма.

Псевдокод [ править ]

input: 

1  repeat
   
2     for   do                                              // λ is the population size
       
3         draw sample 
       
4         evaluate fitness 
       
5         calculate log-derivatives 
       
6     end
   
7     assign the utilities                                           // based on rank
   
8     estimate the gradient 
   
9     estimate            // or compute it exactly 
   
10    update parameters                         // η is the learning rate

11 until stopping criterion is met

См. также [ править ]

Библиография [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d51d30f73fc415c08dc75890534869fd__1657724760
URL1:https://arc.ask3.ru/arc/aa/d5/fd/d51d30f73fc415c08dc75890534869fd.html
Заголовок, (Title) документа по адресу, URL1:
Natural evolution strategy - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)