ЛАИОН

OpenAssistant
	Скриншот веб-портала сбора данных
Разработчик(и)	LAION и участники
Первоначальный выпуск	15 апреля 2023 г .; 15 месяцев назад
Тип	Большая языковая модель ; Генеративный предварительно обученный трансформатор ; Чат-бот ;
Лицензия	Лицензия Апач 2.0
Веб-сайт	открытый помощник .что

ЛАИОН
Тип компании	Некоммерческая
Промышленность	Искусственный интеллект
Основатель	Кристоф Шуманн ; Ения Ицев ; Ричард Венку ; Роберт Качмарчик ; Тео Кумбс ; Мехди Черти ; Ааруш Катта ; Ян Эберт ;
Веб-сайт	Лайон .есть

LAION (аббревиатура от Large-scale Artificial Intelligence Open Network ) — немецкая некоммерческая организация, которая создает модели и наборы данных искусственного интеллекта с открытым исходным кодом . ^[1] Он наиболее известен тем, что выпустил ряд больших наборов данных изображений и подписей, взятых из Интернета, которые использовались для обучения ряда громких моделей преобразования текста в изображение , включая Stable Diffusion и Imagen . ^[2]^[3]

В феврале 2023 года LAION была упомянута в иске Getty Images против Stable Diffusion как беспартийная организация. ^[4] В апреле 2023 года на LAION подал в суд прямой немецкий фотограф, который хотел удалить свои изображения из обучающей выборки. ^[5]

15 апреля 2023 года LAION и участники опубликовали чат-бота-помощника с открытым исходным кодом OpenAssistant .

Наборы данных изображений

LAION публично опубликовал ряд больших наборов данных пар изображений и подписей, которые широко используются исследователями искусственного интеллекта. Данные получены из Common Crawl — набора данных очищенных веб-страниц. Разработчики искали в просканированном HTML-коде <img> теги и рассматривали их атрибуты alt как подписи. Они использовали CLIP для идентификации и удаления изображений, содержание которых не соответствовало подписям. ^[6] LAION не хранит содержимое самих извлеченных изображений; скорее, набор данных содержит URL-адреса , указывающие на изображения, которые исследователи должны загрузить самостоятельно. ^[7]

Первый такой набор данных, LAION-400M, был выпущен в августе 2021 года и состоял из 400 миллионов пар изображений и подписей. Пары были извлечены из случайного подмножества веб-страниц, обработанных Common Crawl в период с 2014 по 2021 год. ^[8] Это была попытка воссоздать процесс, используемый OpenAI для сбора 400 миллионов пар изображений и подписей, которые они использовали для обучения модели CLIP — компания решила открыть исходный код модели и весов, но не ее набор обучающих данных. ^[6] Imagen , модель преобразования текста в изображение, анонсированная Google Brain в 2022 году, была обучена на LAION-400M в сочетании с частными внутренними наборами данных. ^[9]

Преемник более чем 5 миллиардов пар, LAION-5B, был выпущен в марте 2022 года. ^[10] На момент выпуска это был самый большой из существующих свободно доступных наборов данных пар изображений и подписей. ^[6] Его создание финансировалось Doodlebot, Hugging Face и Stability AI, ИИ-компанией, которая финансировала Stable Diffusion , которая была обучена на ней. модель преобразования текста в изображение ^[11]

Критика

Некоторые исследования показывают, что изображения в LAION-5B содержат проблемные изображения и текстовые пары, посвященные изнасилованиям, порнографии, злонамеренным стереотипам, расистским и этническим оскорблениям, а также другой крайне проблемный контент. ^[12]^[13]

Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. ^[14]

В декабре 2023 года Стэнфордская интернет-обсерватория опубликовала отчет о LAION-5B, в котором обнаружено 3226 предполагаемых случаев ссылок на материалы о сексуальном насилии над детьми , 1008 из которых прошли внешнюю проверку. В ответ LAION временно удалила LAION-5B и LAION-400M, сославшись на свою «политику нулевой терпимости к незаконному контенту» и «чрезвычайную осторожность». ^[15]

OpenAssistant

OpenAssistant — это , основанный на искусственном интеллекте (ИИ) помощник на основе чата с открытым исходным кодом , который понимает задачи, может взаимодействовать со сторонними системами и для этого динамически получать информацию. Проект разработан группой волонтеров совместно с LAION. Одна из целей разработки включает свободный доступ к большим языковым моделям , которые можно запускать локально на потребительском оборудовании. ^[16]^[17] Проект поддерживается всемирным краудсорсинговым проектом с участием более 13 500 добровольцев, которые создали 600 тысяч точек данных, созданных людьми. ^[17]^[18]

Ссылки

^ "О" . ЛАИОН.ai . Проверено 26 сентября 2022 г.
^ Эдвардс, Бендж (15 сентября 2022 г.). «Усвоили ли генераторы изображений AI ваше искусство? Новый инструмент позволяет вам проверить» . Арс Техника .
^ Ньюман, Марисса; Кантрилл, Агги (24 апреля 2023 г.). «Будущее искусственного интеллекта зависит от бесплатной базы данных учителей средней школы» . Новости Блумберга . Проверено 24 апреля 2023 г.
^ «Getty Images (США), Inc. против Stability AI, Inc., 1:23-cv-00135» . Слушатель суда . Проверено 8 февраля 2023 г.
^ «Фотограф пытался удалить свои фотографии из набора данных искусственного интеллекта. Вместо этого он получил счет» . Порок . 28 апреля 2023 г. Проверено 4 мая 2023 г.
^ Jump up to: ^а ^б ^с Алфорд, Энтони (17 мая 2022 г.). «LAION выпускает набор данных LAION-5B из пяти миллиардов пар изображений и текста» . ИнфоQ .
^ Эдвардс, Бендж (21 сентября 2022 г.). «Художник находит фотографии частных медицинских записей в популярном наборе данных для обучения ИИ» . Арс Техника .
^ Шуман, Кристоф (8 августа 2021 г.). «Набор открытых данных LAION-400-Million» . Блог ЛАИОН . Проверено 26 сентября 2022 г.
^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].
^ Бомонт, Ромен (3 марта 2022 г.). «LAION-5B: Новая эра открытых крупномасштабных мультимодальных наборов данных» . Блог ЛАИОН .
^ Виггерс, Кайл (12 августа 2022 г.). «Этот стартап освобождает ИИ, подобный DALL-E 2, к черту последствия» . ТехКранч .
^ Бирхане, Абеба; Прабху, Винай Удай; Кахембве, Эммануэль (2021). «Мультимодальные наборы данных: женоненавистничество, порнография и злокачественные стереотипы». arXiv : 2110.01963 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Бирхане, Абеба; Прабху, Винай; Хан, Санг; Боддети, Вишну Нареш; Луччиони, Александра Саша (06 ноября 2023 г.), В логово LAION: исследование ненависти в мультимодальных наборах данных , arXiv : 2311.03449
^ Бруннер, Катарина; Харлан, Элиза. «Мы все — сырье для искусственного интеллекта» . Баварское радио .
^ Коул, Саманта (20 декабря 2023 г.). «Самый большой набор данных, на котором основаны изображения ИИ, удален после обнаружения материалов о сексуальном насилии над детьми» . 404 Медиа . Проверено 22 декабря 2023 г.
^ Открытый помощник , LAION AI, 9 марта 2023 г. , получено 9 марта 2023 г.
^ Jump up to: ^а ^б Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Чжи-Жуй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Нагифи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - Демократизация согласования модели большого языка». arXiv : 2304.07327 [ cs.CL ].
^ «Открытый помощник: изучите возможности открытой и совместной разработки чат-ботов» . КДнаггетс . Проверено 5 мая 2023 г.

[About-1] "О" . ЛАИОН.ai . Проверено 26 сентября 2022 г.

[Ars-Trained-2] Эдвардс, Бендж (15 сентября 2022 г.). «Усвоили ли генераторы изображений AI ваше искусство? Новый инструмент позволяет вам проверить» . Арс Техника .

[BB_teacher-3] Ньюман, Марисса; Кантрилл, Агги (24 апреля 2023 г.). «Будущее искусственного интеллекта зависит от бесплатной базы данных учителей средней школы» . Новости Блумберга . Проверено 24 апреля 2023 г.

[4] «Getty Images (США), Inc. против Stability AI, Inc., 1:23-cv-00135» . Слушатель суда . Проверено 8 февраля 2023 г.

[5] «Фотограф пытался удалить свои фотографии из набора данных искусственного интеллекта. Вместо этого он получил счет» . Порок . 28 апреля 2023 г. Проверено 4 мая 2023 г.

[Infoq-5b-6] Jump up to: ^а ^б ^с Алфорд, Энтони (17 мая 2022 г.). «LAION выпускает набор данных LAION-5B из пяти миллиардов пар изображений и текста» . ИнфоQ .

[Ars-medical-7] Эдвардс, Бендж (21 сентября 2022 г.). «Художник находит фотографии частных медицинских записей в популярном наборе данных для обучения ИИ» . Арс Техника .

[Laion-400m-blog-8] Шуман, Кристоф (8 августа 2021 г.). «Набор открытых данных LAION-400-Million» . Блог ЛАИОН . Проверено 26 сентября 2022 г.

[imagen-paper-9] Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].

[Laion-5b-blog-10] Бомонт, Ромен (3 марта 2022 г.). «LAION-5B: Новая эра открытых крупномасштабных мультимодальных наборов данных» . Блог ЛАИОН .

[tc-sai-11] Виггерс, Кайл (12 августа 2022 г.). «Этот стартап освобождает ИИ, подобный DALL-E 2, к черту последствия» . ТехКранч .

[12] Бирхане, Абеба; Прабху, Винай Удай; Кахембве, Эммануэль (2021). «Мультимодальные наборы данных: женоненавистничество, порнография и злокачественные стереотипы». arXiv : 2110.01963 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[13] Бирхане, Абеба; Прабху, Винай; Хан, Санг; Боддети, Вишну Нареш; Луччиони, Александра Саша (06 ноября 2023 г.), В логово LAION: исследование ненависти в мультимодальных наборах данных , arXiv : 2311.03449

[14] Бруннер, Катарина; Харлан, Элиза. «Мы все — сырье для искусственного интеллекта» . Баварское радио .

[15] Коул, Саманта (20 декабря 2023 г.). «Самый большой набор данных, на котором основаны изображения ИИ, удален после обнаружения материалов о сексуальном насилии над детьми» . 404 Медиа . Проверено 22 декабря 2023 г.

[16] Открытый помощник , LAION AI, 9 марта 2023 г. , получено 9 марта 2023 г.

[:0-17] Jump up to: ^а ^б Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Чжи-Жуй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Нагифи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - Демократизация согласования модели большого языка». arXiv : 2304.07327 [ cs.CL ].

[18] «Открытый помощник: изучите возможности открытой и совместной разработки чат-ботов» . КДнаггетс . Проверено 5 мая 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]