Области нейронного моделирования
Область нейронного моделирования ( NMF ) — это математическая основа машинного обучения , которая сочетает в себе идеи нейронных сетей , нечеткой логики и распознавания на основе моделей . Его также называют полями моделирования , теорией модельных полей (MFT), искусственными нейронными сетями максимального правдоподобия (MLANS). [1] [2] [3] [4] [5] [6] Эта концепция была разработана Леонидом Перловским в АФРЛ . NMF интерпретируется как математическое описание механизмов разума, включая понятия , эмоции , инстинкты , воображение , мышление и понимание . НМФ представляет собой многоуровневую гетероиерархическую систему. На каждом уровне НМФ существуют концептуальные модели, инкапсулирующие знания; они генерируют так называемые нисходящие сигналы, взаимодействуя с входными, восходящими сигналами. Эти взаимодействия управляются динамическими уравнениями, которые управляют обучением, адаптацией и формированием новых концептуальных моделей для лучшего соответствия входным восходящим сигналам.
Концептуальные модели и меры сходства
[ редактировать ]В общем случае система NMF состоит из нескольких уровней обработки. На каждом уровне выходные сигналы представляют собой концепции, распознаваемые (или сформированные) на входных восходящих сигналах. Входные сигналы связываются (или распознаются, или группируются) с концептами в соответствии с моделями и на этом уровне. В процессе обучения концепт-модели адаптируются для лучшего представления входных сигналов, в результате чего сходство между концепт-моделями и сигналами увеличивается. Это увеличение сходства можно интерпретировать как удовлетворение инстинкта познания и ощущается как эстетические эмоции .
Каждый уровень иерархии состоит из N «нейронов», пронумерованных индексом n=1,2..N. Эти нейроны получают входные восходящие сигналы X(n) с нижних уровней иерархии обработки. X (n) — поле восходящих нейрональных синаптических активаций, исходящих от нейронов более низкого уровня. Каждый нейрон имеет несколько синапсов; для обобщения каждая активация нейрона описывается как набор чисел,
, где D — число или размеры, необходимые для описания активации отдельного нейрона.
Сверху вниз, или стартовые сигналы, посылаются этим нейронам концептуальными моделями M m ( S m ,n)
, где M — количество моделей. Каждая модель характеризуется своими параметрами S m ; в нейронной структуре мозга они закодированы силой синаптических связей, математически они задаются набором чисел,
, где A — количество измерений, необходимых для описания отдельной модели.
Модели представляют сигналы следующим образом. Предположим, что сигнал X( n ) поступает от сенсорных нейронов n, активированных объектом m, который характеризуется параметрами S m . Эти параметры могут включать положение, ориентацию или освещение объекта m. Модель M m ( S m ,n) предсказывает значение X (n) сигнала в нейроне n. Например, во время зрительного восприятия нейрон n в зрительной коре получает сигнал X (n) от сетчатки и пусковой сигнал M m ( S m ,n) от объектно-понятийной модели m . Нейрон n активируется, если как восходящий сигнал от входа нижнего уровня, так и нисходящий сигнал прайминга являются сильными. Различные модели конкурируют за доказательства в восходящих сигналах, одновременно адаптируя свои параметры для лучшего соответствия, как описано ниже. Это упрощенное описание восприятия. Наиболее мягкое повседневное зрительное восприятие использует множество уровней — от сетчатки до восприятия объектов. Предпосылка NMF заключается в том, что одни и те же законы описывают основную динамику взаимодействия на каждом уровне. Восприятие мельчайших особенностей, предметов быта или познание сложных абстрактных понятий происходит за счет того же механизма, который описан ниже. Восприятие и познание включают концептуальные модели и обучение. В восприятии понятия-модели соответствуют объектам; в моделях познания соответствуют отношениям и ситуациям.
Обучение является важной частью восприятия и познания, и в теории NMF оно обусловлено динамикой, которая увеличивает степень сходства между наборами моделей и сигналов L({ X },{ M }). Мера сходства является функцией параметров модели и ассоциаций между входными восходящими сигналами и нисходящими сигналами концептуальной модели. При построении математического описания меры сходства важно учитывать два принципа:
- Во-первых , содержимое поля зрения неизвестно до того, как произошло восприятие.
- Во-вторых , он может содержать любой из множества объектов. Важная информация может содержаться в любом восходящем сигнале;
Следовательно, мера сходства строится так, чтобы она учитывала все восходящие сигналы, X ( n ),
- (1)
Это выражение содержит произведение частичного сходства l( X (n)) по всем восходящим сигналам; следовательно, это заставляет систему NMF учитывать каждый сигнал (даже если один термин в продукте равен нулю, продукт равен нулю, сходство низкое и инстинкт знания не удовлетворен); это отражение первого принципа. Во-вторых, до того, как произойдет восприятие, разум не знает, какой объект вызвал сигнал от конкретного нейрона сетчатки. Следовательно, мера частичного сходства строится так, что она рассматривает каждую модель как альтернативу (сумму по концептуальным моделям) для каждого входного сигнала нейрона. Его составляющими элементами являются условные частичные подобия между сигналом X (n) и моделью M m , l( X (n)|m). Эта мера «условна» при наличии объекта m, поэтому при объединении этих величин в общую меру сходства L они умножаются на r(m), которые представляют собой вероятностную меру фактического присутствия объекта m. Объединив эти элементы с двумя отмеченными выше принципами, мера сходства строится следующим образом:
- (2)
Структура приведенного выше выражения соответствует стандартным принципам теории вероятностей: производится суммирование альтернатив m и умножаются различные фрагменты свидетельств n. Это выражение не обязательно является вероятностью, но оно имеет вероятностную структуру. Если обучение успешно, оно приближается к вероятностному описанию и приводит к почти оптимальным байесовским решениям. Название «условное частичное подобие» для l( X (n)|m) (или просто l(n|m)) соответствует вероятностной терминологии. Если обучение прошло успешно, l(n|m) становится условной функцией плотности вероятности, вероятностной мерой того, что сигнал в нейроне n исходит от объекта m. Тогда L — полная вероятность наблюдения сигналов { X (n)}, исходящих от объектов, описываемых концепт-моделью { M m }. Коэффициенты r(m), называемые априорами в теории вероятностей, содержат предварительные отклонения или ожидания; ожидаемые объекты m имеют относительно высокие значения r(m); их истинные значения обычно неизвестны и их следует изучать, как и другие параметры. См .
Обратите внимание, что в теории вероятностей произведение вероятностей обычно предполагает независимость доказательств. Выражение для L содержит произведение по n, но не предполагает независимости различных сигналов X (n). Существует зависимость между сигналами, обусловленная концептуальными моделями: каждая модель M m ( S m ,n) предсказывает ожидаемые значения сигнала во многих нейронах n.
В процессе обучения концепт-модели постоянно модифицируются. Обычно все функциональные формы моделей M m ( S m ,n) фиксированы, а адаптация к обучению включает только параметры модели S m . Время от времени система формирует новую концепцию, сохраняя при этом и старую; альтернативно, старые концепции иногда объединяются или устраняются. Это требует модификации меры сходства L; Причина в том, что большее количество моделей всегда приводит к лучшему согласованию между моделями и данными. Это хорошо известная проблема, ее решают путем уменьшения сходства L с использованием «скептической штрафной функции» ( метода штрафа ) p(N,M), которая растет с увеличением числа моделей M, и этот рост становится более крутым для меньшего количества. данных N. Например, асимптотически несмещенная оценка максимального правдоподобия приводит к мультипликативному p(N,M) = exp(-N par /2), где N par — общее количество адаптивных параметров во всех моделях (эта штрафная функция равна известный как информационный критерий Акаике , см. (Перловский 2001) для дальнейшего обсуждения и ссылок).
Обучение в NMF с использованием алгоритма динамической логики
[ редактировать ]Процесс обучения состоит из оценки параметров модели S и связывания сигналов с понятиями путем максимизации сходства L. Обратите внимание, что в выражении (2) для L учитываются все возможные комбинации сигналов и моделей. В этом можно убедиться, разложив сумму и умножив все члены, приводящие к M Н предметов, огромное количество. Это количество комбинаций между всеми сигналами (N) и всеми моделями (M). Это источник комбинаторной сложности, которая решается в NMF с использованием идеи динамической логики . [7] [8] Важным аспектом динамической логики является сопоставление неопределенности или нечеткости мер сходства с неопределенностью моделей . Первоначально значения параметров неизвестны, а неопределенность моделей высока; так же как и нечеткость мер сходства. В процессе обучения модели становятся более точными, а мера сходства более четкой, ценность сходства возрастает.
Максимизация подобия L осуществляется следующим образом. Сначала неизвестные параметры { S m } инициализируются случайным образом. Затем вычисляются переменные ассоциации f(m|n),
- (3).
Уравнение для f(m|n) выглядит как формула Байеса для апостериорных вероятностей; если l(n|m) в результате обучения становятся условными вероятностями, f(m|n) становятся байесовскими вероятностями для сигнала n, исходящего от объекта m. Динамическая логика NMF определяется следующим образом:
- (4).
- (5)
Была доказана следующая теорема (Перловский 2001):
Теорема . Уравнения (3), (4) и (5) определяют конвергентную динамическую систему НМФ со стационарными состояниями, определяемыми max{S m }L.
Отсюда следует, что стационарные состояния системы МЖ являются состояниями максимального подобия. Когда частичные сходства заданы как функции плотности вероятности (pdf) или правдоподобия, стационарные значения параметров { S m } являются асимптотически несмещенными и эффективными оценками этих параметров. [9] Вычислительная сложность динамической логики линейна по N.
Практически при решении уравнений посредством последовательных итераций f(m|n) можно пересчитывать на каждой итерации с использованием (3), в отличие от формулы приращения (5).
Доказательство приведенной выше теоремы содержит доказательство того, что сходство L увеличивается на каждой итерации. Это имеет психологическую интерпретацию, согласно которой инстинкт увеличения знаний удовлетворяется на каждом этапе, что приводит к возникновению положительных эмоций: НМФ-динамическая логическая система эмоционально наслаждается обучением.
Пример динамических логических операций
[ редактировать ]Поиск закономерностей ниже уровня шума может оказаться чрезвычайно сложной проблемой. Если точная форма узора неизвестна и зависит от неизвестных параметров, эти параметры следует найти путем подгонки модели узора к данным. Однако, когда расположение и ориентация шаблонов неизвестны, неясно, какое подмножество точек данных следует выбрать для подгонки. Стандартным подходом к решению такого рода проблем является проверка множественных гипотез (Singer et al., 1974). Поскольку все комбинации подмножеств и моделей перебираются исчерпывающим образом, этот метод сталкивается с проблемой комбинаторной сложности. В данном примере ищутся шумные модели «улыбки» и «хмурого взгляда». На рис.1а они показаны без шума, а на рис.1б — с шумом, как в реальности измерено. Истинное количество паттернов — 3, которое неизвестно. Следовательно, данным должны соответствовать как минимум 4 шаблона, чтобы решить, что 3 шаблона подходят лучше всего. Размер изображения в этом примере составляет 100x100 = 10 000 точек. Если попытаться подогнать 4 модели ко всем подмножествам из 10 000 точек данных, вычисление сложности M Н ~ 10 6000 . Альтернативное вычисление путем поиска в пространстве параметров дает меньшую сложность: каждый шаблон характеризуется трехпараметрической параболической формой. Подгонка параметров 4x3=12 к сетке 100x100 методом грубой силы займет около 10 32 до 10 40 операций, все еще непомерно высокая вычислительная сложность. Чтобы применить NMF и динамическую логику к этой проблеме, необходимо разработать параметрические адаптивные модели ожидаемых закономерностей. Модели и условные частичные подобия для этого случая подробно описаны в: [10] однородная модель шума, гауссовы капли для сильно нечетких, плохо разрешенных структур и параболические модели для «улыбок» и «хмурых взглядов». Число компьютерных операций в этом примере составило около 10. 10 . Таким образом, задача, которая не была решена из-за комбинаторной сложности, становится разрешимой с помощью динамической логики.
В процессе адаптации изначально нечеткие и неопределенные модели связаны со структурами входных сигналов, а нечеткие модели становятся более определенными и четкими при последующих итерациях. Тип, форма и количество моделей выбираются так, чтобы внутреннее представление внутри системы было аналогично входным сигналам: концептуальные модели NMF представляют собой объекты-структуры в сигналах. На рисунке ниже показаны операции динамической логики. На рис. 1(а) показаны истинные модели «улыбки» и «хмурого взгляда» без шума; (б) фактическое изображение, доступное для распознавания (сигнал ниже шума, отношение сигнал/шум от –2 дБ до –0,7 дБ); (в) исходная нечеткая модель, большая нечеткость соответствует неопределенности знаний; (d)–(m) демонстрируют улучшенные модели на различных этапах итерации (всего 22 итерации). Каждые пять итераций алгоритм пытался увеличить или уменьшить количество моделей. Между итерациями (d) и (e) алгоритм решил, что для «наилучшего» соответствия ему нужны три гауссовские модели.
Существует несколько типов моделей: одна однородная модель, описывающая шум (не показана), и переменное количество блоб-моделей и параболических моделей; по данным оцениваются их количество, расположение и кривизна. До этапа (g) алгоритм использовал простые модели больших двоичных объектов, на этапе (g) и далее алгоритм решил, что для описания данных ему нужны более сложные параболические модели. Итерации остановились на (h), когда сходство перестало увеличиваться.
Иерархическая организация полей нейронного моделирования
[ редактировать ]Выше был описан единый уровень обработки в иерархической системе NMF. На каждом уровне иерархии имеются входные сигналы с нижних уровней, модели, меры сходства (L), эмоции, которые определяются как изменения сходства, и действия; действия включают адаптацию, поведение, удовлетворяющее инстинкту познания – максимизацию сходства. Входом на каждый уровень является набор сигналов X (n), или, в нейронной терминологии, входное поле нейрональных активаций. Результатом обработки сигналов на заданном уровне являются активированные модели или понятия m, распознаваемые во входных сигналах n; эти модели вместе с соответствующими инстинктивными сигналами и эмоциями могут активировать поведенческие модели и генерировать поведение на этом уровне.
Активированные модели инициируют другие действия. Они служат входными сигналами для следующего уровня обработки, где распознаются или создаются более общие концептуальные модели. Выходные сигналы данного уровня, служащие входными данными для следующего уровня, представляют собой сигналы активации модели a m , определяемые как
а м = Σ n=1..N f(m|n).
Иерархическая система НМФ представлена на рис. 2. В иерархии сознания каждая концепция-модель находит свой «мысленный» смысл и цель на более высоком уровне (помимо других целей). Например, рассмотрим концептуальную модель «стул». Оно имеет «поведенческую» цель инициировать сидячее поведение (если тело требует сидения), это «телесная» цель на том же иерархическом уровне. Кроме того, у него есть «чисто мысленная» цель на более высоком уровне иерархии, цель помочь распознать более общую концепцию, скажем, «концертного зала», модель которого содержит ряды стульев.
Время от времени система формирует новую концепцию или устраняет старую. На каждом уровне система НМФ всегда сохраняет запас расплывчатых (нечетких) неактивных концепт-моделей. Они неактивны, поскольку их параметры не адаптированы к данным; поэтому их сходство с сигналами невелико. Однако из-за большой неопределенности (ковариации) сходство не совсем равно нулю. Когда новый сигнал плохо вписывается ни в одну из активных моделей, его сходство с неактивными моделями автоматически увеличивается (поскольку, во-первых, учитывается каждый фрагмент данных, а во-вторых, неактивные модели являются расплывчато-нечеткими и потенциально могут «схватить» каждый фрагмент данных). сигнал, который не вписывается в более конкретные, менее нечеткие, активные модели. Когда сигнал активации m для неактивной модели m превышает определенный порог, модель активируется аналогичным образом, когда сигнал активации для конкретной модели падает ниже. порога, модель деактивируется. Пороги активации и деактивации обычно устанавливаются на основе информации, существующей на более высоком иерархическом уровне (предварительная информация, системные ресурсы, количество активированных моделей различных типов и т. д.). определенный уровень {a m } образуют «нейронное поле», которое служит входными сигналами на следующий уровень, где формируются более абстрактные и более общие понятия.
Ссылки
[ редактировать ]- ^ [1] : Перловский, Л.И. 2001. Нейронные сети и интеллект: использование концепций, основанных на моделях. Нью-Йорк: Издательство Оксфордского университета.
- ^ Перловский, Л.И. (2006). К физике разума: концепции, эмоции, сознание и символы. Физ. Жизнь Rev. 3 (1), стр. 22-55.
- ^ [2] [ мертвая ссылка ] : Деминг, RW, Автоматическое обнаружение заглубленных мин с использованием адаптивной нейронной системы максимального правдоподобия (MLANS), в Proceedings of Intelligent Control (ISIC) , 1998. Проведено совместно с Международным симпозиумом IEEE по вычислительному интеллекту в робототехнике и автоматизации (CIRA), интеллектуальным системам и семиотике (ISAS).
- ^ [3] : Веб-сайт Программы технологических приложений MDA.
- ^ [4] [ мертвая ссылка ] : Кангелози, А.; Тиханов В.; Фонтанари, Дж. Ф.; Хурдакис, Э., Интеграция языка и познания: подход когнитивной робототехники, журнал Computational Intelligence, IEEE, том 2, выпуск 3, август 2007 г. Страницы: 65–70
- ^ [5] : Датчики и технологии управления, контроля, связи и разведки (C3I) для внутренней безопасности и внутренней обороны III (том трудов), редактор (ы): Эдвард М. Карапецца, Дата: 15 сентября 2004 г., ISBN 978-0-8194-5326-6 , см. главу: Архитектура прогнозирования контртеррористических угроз.
- ^ Перловский, Л.И. (1996). Математические концепции интеллекта. Учеб. Всемирный конгресс по нейронным сетям, Сан-Диего, Калифорния; Lawrence Erlbaum Associates, Нью-Джерси, стр. 1013–16.
- ^ Перловский, Л.И. (1997). Физические концепции интеллекта. Учеб. Российская академия наук, 354(3), стр. 320-323.
- ^ Крамер, Х. (1946). Математические методы статистики, Издательство Принстонского университета, Принстон, штат Нью-Джерси.
- ^ Линнехан, Р., Мутц, Перловский, Л.И., К., Вейерс, Б., Шиндлер, Дж., Брокетт, Р. (2003). Обнаружение закономерностей под помехами на изображениях. Межд. Конф. Об интеграции наукоемких мультиагентных систем, Кембридж, Массачусетс, 1–3 октября 2003 г.