ЛАИОН
![]() | |
Тип компании | Некоммерческая |
---|---|
Промышленность | Искусственный интеллект |
Основатель |
|
Веб-сайт | Лайон ![]() |
LAION (аббревиатура от Large-scale Artificial Intelligence Open Network ) — немецкая некоммерческая организация, которая создает модели и наборы данных искусственного интеллекта с открытым исходным кодом . [1] Он наиболее известен тем, что выпустил ряд больших наборов данных изображений и подписей, взятых из Интернета, которые использовались для обучения ряда громких моделей преобразования текста в изображение , включая Stable Diffusion и Imagen . [2] [3]
В феврале 2023 года LAION была упомянута в иске Getty Images против Stable Diffusion как беспартийная организация. [4] В апреле 2023 года на LAION подал в суд прямой немецкий фотограф, который хотел удалить свои изображения из обучающей выборки. [5]
15 апреля 2023 года LAION и участники опубликовали чат-бота-помощника с открытым исходным кодом OpenAssistant .
Наборы данных изображений
[ редактировать ]LAION публично опубликовал ряд больших наборов данных пар изображений и подписей, которые широко используются исследователями искусственного интеллекта. Данные получены из Common Crawl — набора данных очищенных веб-страниц. Разработчики искали в просканированном HTML-коде <img>
теги и рассматривали их атрибуты alt как подписи. Они использовали CLIP для идентификации и удаления изображений, содержание которых не соответствовало подписям. [6] LAION не хранит содержимое самих извлеченных изображений; скорее, набор данных содержит URL-адреса , указывающие на изображения, которые исследователи должны загрузить самостоятельно. [7]
Первый такой набор данных, LAION-400M, был выпущен в августе 2021 года и состоял из 400 миллионов пар изображений и подписей. Пары были извлечены из случайного подмножества веб-страниц, обработанных Common Crawl в период с 2014 по 2021 год. [8] Это была попытка воссоздать процесс, используемый OpenAI для сбора 400 миллионов пар изображений и подписей, которые они использовали для обучения модели CLIP — компания решила открыть исходный код модели и весов, но не ее набор обучающих данных. [6] Imagen , модель преобразования текста в изображение, анонсированная Google Brain в 2022 году, была обучена на LAION-400M в сочетании с частными внутренними наборами данных. [9]
Преемник более чем 5 миллиардов пар, LAION-5B, был выпущен в марте 2022 года. [10] На момент выпуска это был самый большой из существующих свободно доступных наборов данных пар изображений и подписей. [6] Его создание финансировалось Doodlebot, Hugging Face и Stability AI, ИИ-компанией, которая финансировала Stable Diffusion , которая была обучена на ней. модель преобразования текста в изображение [11]
Критика
[ редактировать ]Некоторые исследования показывают, что изображения в LAION-5B содержат проблемные изображения и текстовые пары, посвященные изнасилованиям, порнографии, злонамеренным стереотипам, расистским и этническим оскорблениям, а также другой крайне проблемный контент. [12] [13]
Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. [14]
В декабре 2023 года Стэнфордская интернет-обсерватория опубликовала отчет о LAION-5B, в котором обнаружено 3226 предполагаемых случаев ссылок на материалы о сексуальном насилии над детьми , 1008 из которых прошли внешнюю проверку. В ответ LAION временно удалила LAION-5B и LAION-400M, сославшись на свою «политику нулевой терпимости к незаконному контенту» и «чрезвычайную осторожность». [15]
OpenAssistant
[ редактировать ]![]() | |
![]() Скриншот веб-портала сбора данных | |
Разработчик(и) | LAION и участники |
---|---|
Первоначальный выпуск | 15 апреля 2023 г |
Тип | |
Лицензия | Лицензия Апач 2.0 |
Веб-сайт | открытый помощник |
OpenAssistant — это , основанный на искусственном интеллекте (ИИ) помощник на основе чата с открытым исходным кодом , который понимает задачи, может взаимодействовать со сторонними системами и для этого динамически получать информацию. Проект разработан группой волонтеров совместно с LAION. Одна из целей разработки включает свободный доступ к большим языковым моделям , которые можно запускать локально на потребительском оборудовании. [16] [17] Проект поддерживается всемирным краудсорсинговым проектом с участием более 13 500 добровольцев, которые создали 600 тысяч точек данных, созданных людьми. [17] [18]
Ссылки
[ редактировать ]- ^ "О" . ЛАИОН.ai . Проверено 26 сентября 2022 г.
- ^ Эдвардс, Бендж (15 сентября 2022 г.). «Усвоили ли генераторы изображений AI ваше искусство? Новый инструмент позволяет вам проверить» . Арс Техника .
- ^ Ньюман, Марисса; Кантрилл, Агги (24 апреля 2023 г.). «Будущее искусственного интеллекта зависит от бесплатной базы данных учителей средней школы» . Новости Блумберга . Проверено 24 апреля 2023 г.
- ^ «Getty Images (США), Inc. против Stability AI, Inc., 1:23-cv-00135» . Слушатель суда . Проверено 8 февраля 2023 г.
- ^ «Фотограф пытался удалить свои фотографии из набора данных искусственного интеллекта. Вместо этого он получил счет» . Порок . 28 апреля 2023 г. Проверено 4 мая 2023 г.
- ^ Jump up to: а б с Алфорд, Энтони (17 мая 2022 г.). «LAION выпускает набор данных LAION-5B из пяти миллиардов пар изображений и текста» . ИнфоQ .
- ^ Эдвардс, Бендж (21 сентября 2022 г.). «Художник находит фотографии частных медицинских записей в популярном наборе данных для обучения ИИ» . Арс Техника .
- ^ Шуман, Кристоф (8 августа 2021 г.). «Набор открытых данных LAION-400-Million» . Блог ЛАИОН . Проверено 26 сентября 2022 г.
- ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].
- ^ Бомонт, Ромен (3 марта 2022 г.). «LAION-5B: Новая эра открытых крупномасштабных мультимодальных наборов данных» . Блог ЛАИОН .
- ^ Виггерс, Кайл (12 августа 2022 г.). «Этот стартап освобождает ИИ, подобный DALL-E 2, к черту последствия» . ТехКранч .
- ^ Бирхане, Абеба; Прабху, Винай Удай; Кахембве, Эммануэль (2021). «Мультимодальные наборы данных: женоненавистничество, порнография и злокачественные стереотипы». arXiv : 2110.01963 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Бирхане, Абеба; Прабху, Винай; Хан, Санг; Боддети, Вишну Нареш; Луччиони, Александра Саша (06 ноября 2023 г.), В логово LAION: исследование ненависти в мультимодальных наборах данных , arXiv : 2311.03449
- ^ Бруннер, Катарина; Харлан, Элиза. «Мы все — сырье для искусственного интеллекта» . Баварское радио .
- ^ Коул, Саманта (20 декабря 2023 г.). «Самый большой набор данных, на котором основаны изображения ИИ, удален после обнаружения материалов о сексуальном насилии над детьми» . 404 Медиа . Проверено 22 декабря 2023 г.
- ^ Открытый помощник , LAION AI, 9 марта 2023 г. , получено 9 марта 2023 г.
- ^ Jump up to: а б Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Чжи-Жуй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Нагифи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - Демократизация согласования модели большого языка». arXiv : 2304.07327 [ cs.CL ].
- ^ «Открытый помощник: изучите возможности открытой и совместной разработки чат-ботов» . КДнаггетс . Проверено 5 мая 2023 г.