Jump to content

Нейронное поле излучения

Нейронное поле излучения ( NeRF ) — это метод, основанный на глубоком обучении , для восстановления трехмерного представления сцены из двухмерных изображений. Модель NeRF позволяет использовать последующие приложения для синтеза новых видов, реконструкции геометрии сцены и получения свойств отражательной способности сцены. Дополнительные свойства сцены, такие как позы камеры, также могут быть изучены совместно. Впервые представленный в 2020 году, [1] с тех пор он привлек значительное внимание благодаря своим потенциальным применениям в компьютерной графике и создании контента. [2]

Алгоритм

[ редактировать ]

Алгоритм NeRF представляет сцену как поле излучения, параметризованное глубокой нейронной сетью (DNN). Сеть прогнозирует объемную плотность и излучаемое излучение в зависимости от вида, учитывая пространственное положение ( x, y, z ) и направление обзора в углах Эйлера ( θ, Φ ) камеры. Путем выборки множества точек вдоль лучей камеры традиционные методы объемного рендеринга могут создать изображение. [1]

Сбор данных

[ редактировать ]

NeRF необходимо переобучать для каждой уникальной сцены. Первый шаг — собрать изображения сцены с разных ракурсов и соответствующей позы камеры. Эти изображения представляют собой стандартные 2D-изображения и не требуют специальной камеры или программного обеспечения. Любая камера способна генерировать наборы данных при условии, что настройки и метод захвата соответствуют требованиям SfM ( Structure from Motion ).

Это требует отслеживания положения и ориентации камеры, часто с помощью комбинации SLAM , GPS или инерционной оценки. Исследователи часто используют синтетические данные для оценки NeRF и связанных с ним методов. Для таких данных изображения ( отрисованные традиционными необучаемыми методами ) и соответствующие положения камеры воспроизводимы и безошибочны. [3]

Обучение

[ редактировать ]

Для каждой предоставленной разреженной точки обзора (изображения и позы камеры) лучи камеры проходят через сцену, генерируя набор трехмерных точек с заданным направлением излучения (в камеру). Для этих точек объемная плотность и излучаемая яркость прогнозируются с помощью многослойного перцептрона (MLP). Затем изображение генерируется посредством классической объемной визуализации. Поскольку этот процесс полностью дифференцируем, ошибку между предсказанным изображением и исходным изображением можно свести к минимуму с помощью градиентного спуска по нескольким точкам обзора, что побуждает MLP разработать последовательную модель сцены. [1]

Вариации и улучшения

[ редактировать ]

Ранние версии NeRF оптимизировались медленно и требовали, чтобы все входные изображения были сняты одной и той же камерой в одинаковых условиях освещения. Они работали лучше всего, когда ограничивались вращением вокруг отдельных объектов, таких как барабанная установка, растения или маленькие игрушки. [2] Со времени выхода оригинальной статьи в 2020 году в алгоритм NeRF было внесено множество улучшений с вариациями для особых случаев использования.

Картирование функций Фурье

[ редактировать ]

В 2020 году, вскоре после выпуска NeRF, добавление функции сопоставления функций Фурье улучшило скорость обучения и точность изображений. Глубокие нейронные сети с трудом изучают высокочастотные функции в низкоразмерных областях; явление, известное как спектральное смещение. Чтобы преодолеть этот недостаток, точки перед подачей в MLP сопоставляются с пространством признаков более высокой размерности.

Где это точка входа, – векторы частот, а являются коэффициентами.

Это обеспечивает быструю сходимость к высокочастотным функциям, таким как пиксели в детализированном изображении. [4]

Поля нейронного излучения, регулирующие пучки

[ редактировать ]

Одним из ограничений NeRF является требование знания точных поз камеры для обучения модели. Часто методы оценки позы не совсем точны, и даже невозможно узнать позу камеры. Эти недостатки приводят к артефактам и неоптимальной сходимости. Итак, был разработан метод оптимизации позы камеры вместе с самой объемной функцией. Этот метод, получивший название Bundle-Adjusting Neural Radiance Field (BARF), использует динамический фильтр нижних частот для перехода от грубой к точной настройке, сводя к минимуму ошибку за счет поиска геометрического преобразования к желаемому изображению. Это исправляет несовершенные позы камеры и значительно улучшает качество рендеринга NeRF. [5]

Многомасштабное представление

[ редактировать ]

Обычные NeRF с трудом передают детали на всех расстояниях просмотра, создавая размытые изображения вблизи и чрезмерно искаженные изображения с дальних ракурсов. В 2021 году исследователи представили метод улучшения резкости деталей в разных масштабах просмотра, известный как mip-NeRF (происходит от mipmap ). Вместо выборки одного луча на пиксель этот метод подгоняет гауссиану к усеченному конусу, отбрасываемому камерой. Это улучшение эффективно сглаживает изображения во всех масштабах просмотра. mip-NeRF также снижает общую ошибку изображения и обеспечивает более быструю сходимость (примерно вдвое меньше, чем у NeRF на основе лучей). [6]

Изученные инициализации

[ редактировать ]

В 2021 году исследователи применили метаобучение , чтобы присвоить первоначальный вес MLP. Это быстро ускоряет конвергенцию, эффективно давая сети преимущество при градиентном спуске. Метаобучение также позволило MLP изучить базовое представление определенных типов сцен. Например, по набору данных известных туристических достопримечательностей инициализированный NeRF может частично реконструировать сцену по одному изображению. [7]

NeRF в дикой природе

[ редактировать ]

Обычные NeRF уязвимы к небольшим изменениям входных изображений (объектов, освещения), что часто приводит к появлению ореолов и артефактов. В результате NeRF с трудом воспроизводит динамические сцены, такие как шумные городские улицы с изменениями освещения и динамическими объектами. В 2021 году исследователи Google [2] разработали новый метод учета этих вариаций, получивший название NeRF in the Wild (NeRF-W). Этот метод разделяет нейронную сеть (MLP) на три отдельные модели. Основной MLP сохраняется для кодирования статического объемного излучения. Однако он последовательно работает с отдельным MLP для внедрения внешнего вида (изменения освещения, свойств камеры) и MLP для временного внедрения (изменения объектов сцены). Это позволяет NeRF обучаться на различных коллекциях фотографий, например, снятых мобильными телефонами в разное время суток. [8]

Перезажигание

[ редактировать ]

В 2021 году исследователи добавили больше результатов в MLP, лежащий в основе NeRF. Теперь выходные данные включали: объемную плотность, нормаль к поверхности, параметры материала, расстояние до первого пересечения поверхности (в любом направлении) и видимость внешней среды в любом направлении. Включение этих новых параметров позволяет MLP изучать свойства материала, а не чистые значения излучения. Это упрощает более сложный конвейер рендеринга, вычисляющий прямое и глобальное освещение , зеркальные блики и тени. В результате NeRF может визуализировать сцену при любых условиях освещения без необходимости повторного обучения. [9]

Пленокдеревья

[ редактировать ]

Хотя NeRF достигли высокого уровня точности, их дорогостоящее вычислительное время сделало их бесполезными для многих приложений, требующих рендеринга в реальном времени, таких как VR / AR и интерактивный контент. Представленный в 2021 году Plenoctrees (plenoptic Octrees ) позволил выполнять рендеринг предварительно обученных NeRF в реальном времени посредством разделения функции объемного излучения на октодерево. Вместо того, чтобы назначать камере направление излучения, направление обзора берется из входных данных сети, и для каждой области прогнозируется сферическое излучение. Это делает рендеринг более чем в 3000 раз быстрее, чем у обычных NeRF. [10]

Разреженная сетка нейронного излучения

[ редактировать ]

Подобно Plenoctrees, этот метод позволял выполнять рендеринг предварительно обученных NeRF в реальном времени. Чтобы избежать запроса большого MLP для каждой точки, этот метод объединяет NeRF в разреженные сети нейронного излучения (SNeRG). SNeRG — это разреженная сетка вокселей , содержащая непрозрачность и цвет, с изученными векторами признаков для кодирования информации, зависящей от вида. Затем используется облегченный и более эффективный MLP для создания зависимых от вида остатков для изменения цвета и непрозрачности. Чтобы обеспечить такое сжатое запекание, в архитектуру NeRF были внесены небольшие изменения, например, запуск MLP один раз для каждого пикселя, а не для каждой точки вдоль луча. Эти улучшения делают SNeRG чрезвычайно эффективным, превосходя Plenoctrees. [11]

Мгновенные NeRF

[ редактировать ]

В 2022 году исследователи из Nvidia обеспечили обучение NeRF в реальном времени с помощью метода, известного как Instant Neural Graphics Primitives. Инновационное кодирование входных данных сокращает объем вычислений, обеспечивая обучение NeRF в реальном времени, что на несколько порядков лучше предыдущих методов. Ускорение происходит за счет использования пространственных хэш-функций , которые имеют время доступа и параллельные архитектуры, которые быстро работают на современных графических процессорах . [12]

[ редактировать ]

Пленоксели

[ редактировать ]

Plenoxel (пленоптический объемный элемент) использует разреженное воксельное представление вместо объемного подхода, как это видно в NeRF. Plenoxel также полностью удаляет MLP, вместо этого напрямую выполняя градиентный спуск по коэффициентам вокселей. Plenoxel может сравниться по точности с обычным NeRF, тратя на порядки меньше времени на обучение. Опубликованный в 2022 году, этот метод опроверг важность MLP, показав, что дифференцируемый конвейер рендеринга является критически важным компонентом. [13]

Гауссово пятно

[ редактировать ]

Гауссово пятно — это новый метод, который может превзойти NeRF по времени и точности рендеринга. Вместо того, чтобы представлять сцену как объемную функцию, он использует разреженное облако трехмерных гауссиан . Сначала генерируется облако точек (через структуру из движения ) и преобразуется в гауссианы начальной ковариации, цвета и непрозрачности. Гауссианы напрямую оптимизируются посредством стохастического градиентного спуска, чтобы соответствовать входному изображению. Это экономит вычисления за счет удаления пустого пространства и отказа от необходимости запрашивать нейронную сеть для каждой точки. Вместо этого просто «выплесните» все гауссианы на экран, и они перекроются, чтобы создать желаемое изображение. [14]

Фотограмметрия

[ редактировать ]

Традиционная фотограмметрия не является нейронной, вместо этого используются надежные геометрические уравнения для получения трехмерных измерений. NeRF, в отличие от фотограмметрических методов, по своей сути не создает трехмерную геометрию с точной размерностью. Хотя их результатов часто бывает достаточно для извлечения точной геометрии (например, с помощью марширования куба). [1] ), процесс нечеткий , как и в большинстве нейронных методов. Это ограничивает NeRF случаями, когда ценится выходное изображение, а не необработанная геометрия сцены. Однако NeRF превосходно работают в ситуациях с неблагоприятным освещением. Например, фотограмметрические методы полностью терпят неудачу при попытке восстановить отражающие или прозрачные объекты в сцене, в то время как NeRF способен определить геометрию. [15]

Приложения

[ редактировать ]

NeRF имеют широкий спектр применений, и их популярность начинает расти по мере того, как они интегрируются в удобные для пользователя приложения. [3]

Создание контента

[ редактировать ]

NeRF обладают огромным потенциалом в создании контента, где фотореалистичные изображения по запросу чрезвычайно ценны. [16] Технология демократизирует пространство, ранее доступное только командам художников по визуальным эффектам с дорогими активами. Поля нейронного излучения теперь позволяют любому, у кого есть камера, создавать захватывающие трехмерные среды. [3] NeRF объединен с генеративным искусственным интеллектом , что позволяет пользователям, не имеющим опыта моделирования, вносить изменения в фотореалистичные 3D-сцены. [17] NeRF потенциально могут использоваться в производстве видео, компьютерной графике и дизайне продуктов.

Интерактивный контент

[ редактировать ]

Фотореализм NeRF делает их привлекательными для приложений, где важно погружение, таких как виртуальная реальность или видеоигры. NeRF можно комбинировать с классическими методами рендеринга для вставки синтетических объектов и создания правдоподобного виртуального опыта. [18]

Медицинская визуализация

[ редактировать ]

NeRF использовались для реконструкции 3D-КТ-сканирований на основе редких или даже единичных рентгеновских снимков. Модель продемонстрировала высокую точность визуализации данных груди и коленей. Если этот метод будет принят, он сможет избавить пациентов от чрезмерных доз ионизирующего излучения, что позволит поставить более безопасную диагностику. [19]

Робототехника и автономность

[ редактировать ]

Уникальная способность NeRF понимать прозрачные и отражающие объекты делает их полезными для роботов, взаимодействующих в таких средах. Использование NeRF позволило роботу-манипулятору точно манипулировать прозрачным бокалом для вина; задача, с которой традиционному компьютерному зрению не справиться. [20]

NeRF также могут генерировать фотореалистичные человеческие лица, что делает их ценными инструментами для взаимодействия человека и компьютера. Традиционно визуализированные лица могут быть странными , а другие нейронные методы слишком медленны для работы в реальном времени. [21]

  1. ^ Перейти обратно: а б с д Милденхолл, Бен; Шринивасан, Пратул П.; Танчик, Мэтью; Бэррон, Джонатан Т.; Рамамурти, Рави; Нг, Рен (2020). «NeRF: представление сцен как полей нейронного излучения для синтеза представлений». В Ведальди, Андреа; Бишоф, Хорст; Брокс, Томас; Фрам, Ян-Майкл (ред.). Компьютерное зрение – ECCV 2020 . Конспекты лекций по информатике. Том. 12346. Чам: Springer International Publishing. стр. 405–421. arXiv : 2003.08934 . дои : 10.1007/978-3-030-58452-8_24 . ISBN  978-3-030-58452-8 . S2CID   213175590 .
  2. ^ Перейти обратно: а б с «Что такое нейронное радиационное поле (NeRF)? | Определение от TechTarget» . Корпоративный ИИ . Проверено 24 октября 2023 г.
  3. ^ Перейти обратно: а б с Танчик, Мэтью; Вебер, Итан; Нг, Эвонн; Ли, Жуйлонг; Йи, Брент; Керр, Джастин; Ван, Терренс; Кристофферсен, Александр; Остин, Джейк; Салахи, Камьяр; Ахуджа, Абхик; Макаллистер, Дэвид; Канадзава, Анджу (23 июля 2023 г.). «Nerfstudio: модульная структура для разработки поля нейронного излучения». Специальная группа по интересам по компьютерной графике и интерактивным технологиям. Материалы конференции . стр. 1–12. arXiv : 2302.04264 . дои : 10.1145/3588432.3591516 . ISBN  9798400701597 . S2CID   256662551 .
  4. ^ Танчик, Мэтью; Шринивасан, Пратул П.; Милденхолл, Бен; Фридович-Кейл, Сара; Рагхаван, Нитин; Сингхал, Уткарш; Рамамурти, Рави; Бэррон, Джонатан Т.; Нг, Рен (18 июня 2020 г.). «Функции Фурье позволяют сетям изучать высокочастотные функции в низкоразмерных областях». arXiv : 2006.10739 [ cs.CV ].
  5. ^ Линь, Чэнь-Сюань; Ма, Вэй-Цю; Торральба, Антонио; Люси, Саймон (2021). «BARF: Поля нейронного излучения, регулирующие пучок». arXiv : 2104.06405 [ cs.CV ].
  6. ^ Бэррон, Джонатан Т.; Милденхолл, Бен; Танчик, Мэтью; Хедман, Питер; Мартин-Бруалла, Рикардо; Шринивасан, Пратул П. (07 апреля 2021 г.). «Mip-NeRF: многомасштабное представление {A} для сглаживания полей нейронного излучения». arXiv : 2103.13415 [ cs.CV ].
  7. ^ Танчик, Мэтью; Милденхолл, Бен; Ван, Терренс; Шмидт, Диви; Шринивасан, Пратул (2021). «Изученные инициализации для оптимизации нейронных представлений на основе координат». arXiv : 2012.02189 [ cs.CV ].
  8. ^ Мартин-Бруалла, Рикардо; Радван, Ноха; Саджади, Мехди С.М.; Бэррон, Джонатан Т.; Досовицкий, Алексей; Дакворт, Дэниел (2020). «NeRF в дикой природе: поля нейронного излучения для неограниченных коллекций фотографий». arXiv : 2008.02268 [ cs.CV ].
  9. ^ Шринивасан, Пратул П.; Дэн, Боян; Чжан, Сюмин; Танчик, Мэтью; Милденхолл, Бен; Бэррон, Джонатан Т. (2020). «NeRV: нейронные поля отражения и видимости для повторного освещения и синтеза представлений». arXiv : 2012.03927 [ cs.CV ].
  10. ^ Ю, Алекс; Ли, Жуйлонг; Танчик, Мэтью; Ли, Хао; Нг, Рен; Канадзава, Анджу (2021 г.). «PlenOctrees для рендеринга нейронных полей излучения в реальном времени». arXiv : 2103.14024 [ cs.CV ].
  11. ^ Хедман, Питер; Шринивасан, Пратул П.; Милденхолл, Бен; Бэррон, Джонатан Т.; Дебевец, Пол (2021). «Создание полей нейронного излучения для синтеза изображений в реальном времени». arXiv : 2103.14645 [ cs.CV ].
  12. ^ Мюллер, Томас; Эванс, Алекс; Шид, Кристоф; Келлер, Александр (04 июля 2022 г.). «Примитивы мгновенной нейронной графики с хеш-кодированием с несколькими разрешениями». Транзакции ACM с графикой . 41 (4): 1–15. arXiv : 2201.05989 . дои : 10.1145/3528223.3530127 . ISSN   0730-0301 . S2CID   246016186 .
  13. ^ Фридович-Кейл, Сара; Ю, Алекс; Танчик, Мэтью; Чен, Циньхун; Рехт, Бенджамин; Канадзава, Анджу (2021 г.). «Пленоксели: сияющие поля без нейронных сетей». arXiv : 2112.05131 [ cs.CV ].
  14. ^ Кербл, Бернхард; Копанас, Георгиос; Леймкюлер, Томас; Дреттакис, Джордж (26 июля 2023 г.). «3D Gaussian Splatting для рендеринга поля сияния в реальном времени» . Транзакции ACM с графикой . 42 (4): 1–14. arXiv : 2308.04079 . дои : 10.1145/3592433 . ISSN   0730-0301 . S2CID   259267917 .
  15. ^ «Почему ЭТО будущее изображений (и никто об этом еще не знает)» – через www.youtube.com.
  16. ^ «Shutterstock рассказывает о NeRF на неделе рекламы | Поля нейронного излучения» . Neuralradiancefields.io . 20 октября 2023 г. Проверено 24 октября 2023 г.
  17. ^ Хак, Аяан; Танчик, Мэтью; Эфрос, Алексей; Холинский, Александр; Канадзава, Анджу (01 июня 2023 г.). «InstructPix2Pix: учимся следовать инструкциям по редактированию изображений » Конференция IEEE/CVF 2023 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 100-1 18392–18402. arXiv : 2211.09800 . дои : 10.1109/cvpr52729.2023.01764 . ISBN  979-8-3503-0129-8 . S2CID   253581213 .
  18. ^ «Выход за пределы реальности: VR-NeRF | Нейронные поля излучения» . Neuralradiancefields.io . 08.11.2023 . Проверено 9 ноября 2023 г.
  19. ^ Корона-Фигероа, апрель; Фроули, Джонатан; Тейлор, Сэм Бонд-; Бетапуди, Сарат; Шум, Хьюберт П.Х.; Уиллкокс, Крис Г. (11 июля 2022 г.). «MedNeRF: Медицинские нейронные радиационные поля для реконструкции 3D-проекций КТ по ​​одному рентгеновскому снимку» . 2022 г. 44-я ежегодная международная конференция Общества инженерии в медицине и биологии IEEE (EMBC) (PDF) . Том. 2022. IEEE. стр. 3843–3848. дои : 10.1109/embc48229.2022.9871757 . ISBN  978-1-7281-2782-8 . ПМИД   36085823 . S2CID   246473192 .
  20. ^ Керр, Джастин; Фу, Летиан; Хуан, Хуан; Авигаль, Яхав; Танчик, Мэтью; Ичновски, Джеффри; Канадзава, Анджу; Голдберг, Кен (15 августа 2022 г.). Evo-NeRF: развитие NeRF для последовательного захвата роботами прозрачных объектов . Конференция CoRL 2022.
  21. ^ Аврора (04.06.2023). «Создание высокодетализированных человеческих лиц с использованием полей нейронного излучения» . ОСВЕЩЕНИЕ . Проверено 9 ноября 2023 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 598a44ec28d425190dbefa6848136746__1722964320
URL1:https://arc.ask3.ru/arc/aa/59/46/598a44ec28d425190dbefa6848136746.html
Заголовок, (Title) документа по адресу, URL1:
Neural radiance field - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)