Jump to content

ЛАИОН

ЛАИОН
Тип компании Некоммерческая
Промышленность Искусственный интеллект
Основатель
  • Кристоф Шуманн
  • Ения Ицев
  • Ричард Венку
  • Роберт Качмарчик
  • Тео Кумбс
  • Мехди Черти
  • Ааруш Катта
  • Ян Эберт
Веб-сайт Лайон .есть  Edit this on Wikidata

LAION (аббревиатура от Large-scale Artificial Intelligence Open Network ) — немецкая некоммерческая организация, которая создает модели и наборы данных искусственного интеллекта с открытым исходным кодом . [1] Он наиболее известен тем, что выпустил ряд больших наборов данных изображений и подписей, взятых из Интернета, которые использовались для обучения ряда громких моделей преобразования текста в изображение , включая Stable Diffusion и Imagen . [2] [3]

В феврале 2023 года LAION была упомянута в иске Getty Images против Stable Diffusion как беспартийная организация. [4] В апреле 2023 года на LAION подал в суд прямой немецкий фотограф, который хотел удалить свои изображения из обучающей выборки. [5]

15 апреля 2023 года LAION и участники опубликовали чат-бота-помощника с открытым исходным кодом OpenAssistant .

Наборы данных изображений

[ редактировать ]

LAION публично опубликовал ряд больших наборов данных пар изображений и подписей, которые широко используются исследователями искусственного интеллекта. Данные получены из Common Crawl — набора данных очищенных веб-страниц. Разработчики искали в просканированном HTML-коде <img> теги и рассматривали их атрибуты alt как подписи. Они использовали CLIP для идентификации и удаления изображений, содержание которых не соответствовало подписям. [6] LAION не хранит содержимое самих извлеченных изображений; скорее, набор данных содержит URL-адреса , указывающие на изображения, которые исследователи должны загрузить самостоятельно. [7]

Первый такой набор данных, LAION-400M, был выпущен в августе 2021 года и состоял из 400 миллионов пар изображений и подписей. Пары были извлечены из случайного подмножества веб-страниц, обработанных Common Crawl в период с 2014 по 2021 год. [8] Это была попытка воссоздать процесс, используемый OpenAI для сбора 400 миллионов пар изображений и подписей, которые они использовали для обучения модели CLIP — компания решила открыть исходный код модели и весов, но не ее набор обучающих данных. [6] Imagen , модель преобразования текста в изображение, анонсированная Google Brain в 2022 году, была обучена на LAION-400M в сочетании с частными внутренними наборами данных. [9]

Преемник более чем 5 миллиардов пар, LAION-5B, был выпущен в марте 2022 года. [10] На момент выпуска это был самый большой из существующих свободно доступных наборов данных пар изображений и подписей. [6] Его создание финансировалось Doodlebot, Hugging Face и Stability AI, ИИ-компанией, которая финансировала Stable Diffusion , которая была обучена на ней. модель преобразования текста в изображение [11]

Некоторые исследования показывают, что изображения в LAION-5B содержат проблемные изображения и текстовые пары, посвященные изнасилованиям, порнографии, злонамеренным стереотипам, расистским и этническим оскорблениям, а также другой крайне проблемный контент. [12] [13]

Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. [14]

В декабре 2023 года Стэнфордская интернет-обсерватория опубликовала отчет о LAION-5B, в котором обнаружено 3226 предполагаемых случаев ссылок на материалы о сексуальном насилии над детьми , 1008 из которых прошли внешнюю проверку. В ответ LAION временно удалила LAION-5B и LAION-400M, сославшись на свою «политику нулевой терпимости к незаконному контенту» и «чрезвычайную осторожность». [15]

OpenAssistant
Разработчик(и) LAION и участники
Первоначальный выпуск 15 апреля 2023 г .; 15 месяцев назад ( 15.04.2023 )
Тип
Лицензия Лицензия Апач 2.0
Веб-сайт открытый помощник .что

OpenAssistant — это , основанный на искусственном интеллекте (ИИ) помощник на основе чата с открытым исходным кодом , который понимает задачи, может взаимодействовать со сторонними системами и для этого динамически получать информацию. Проект разработан группой волонтеров совместно с LAION. Одна из целей разработки включает свободный доступ к большим языковым моделям , которые можно запускать локально на потребительском оборудовании. [16] [17] Проект поддерживается всемирным краудсорсинговым проектом с участием более 13 500 добровольцев, которые создали 600 тысяч точек данных, созданных людьми. [17] [18]

  1. ^ "О" . ЛАИОН.ai . Проверено 26 сентября 2022 г.
  2. ^ Эдвардс, Бендж (15 сентября 2022 г.). «Усвоили ли генераторы изображений AI ваше искусство? Новый инструмент позволяет вам проверить» . Арс Техника .
  3. ^ Ньюман, Марисса; Кантрилл, Агги (24 апреля 2023 г.). «Будущее искусственного интеллекта зависит от бесплатной базы данных учителей средней школы» . Новости Блумберга . Проверено 24 апреля 2023 г.
  4. ^ «Getty Images (США), Inc. против Stability AI, Inc., 1:23-cv-00135» . Слушатель суда . Проверено 8 февраля 2023 г.
  5. ^ «Фотограф пытался удалить свои фотографии из набора данных искусственного интеллекта. Вместо этого он получил счет» . Порок . 28 апреля 2023 г. Проверено 4 мая 2023 г.
  6. ^ Jump up to: а б с Алфорд, Энтони (17 мая 2022 г.). «LAION выпускает набор данных LAION-5B из пяти миллиардов пар изображений и текста» . ИнфоQ .
  7. ^ Эдвардс, Бендж (21 сентября 2022 г.). «Художник находит фотографии частных медицинских записей в популярном наборе данных для обучения ИИ» . Арс Техника .
  8. ^ Шуман, Кристоф (8 августа 2021 г.). «Набор открытых данных LAION-400-Million» . Блог ЛАИОН . Проверено 26 сентября 2022 г.
  9. ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].
  10. ^ Бомонт, Ромен (3 марта 2022 г.). «LAION-5B: Новая эра открытых крупномасштабных мультимодальных наборов данных» . Блог ЛАИОН .
  11. ^ Виггерс, Кайл (12 августа 2022 г.). «Этот стартап освобождает ИИ, подобный DALL-E 2, к черту последствия» . ТехКранч .
  12. ^ Бирхане, Абеба; Прабху, Винай Удай; Кахембве, Эммануэль (2021). «Мультимодальные наборы данных: женоненавистничество, порнография и злокачественные стереотипы». arXiv : 2110.01963 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  13. ^ Бирхане, Абеба; Прабху, Винай; Хан, Санг; Боддети, Вишну Нареш; Луччиони, Александра Саша (06 ноября 2023 г.), В логово LAION: исследование ненависти в мультимодальных наборах данных , arXiv : 2311.03449
  14. ^ Бруннер, Катарина; Харлан, Элиза. «Мы все — сырье для искусственного интеллекта» . Баварское радио .
  15. ^ Коул, Саманта (20 декабря 2023 г.). «Самый большой набор данных, на котором основаны изображения ИИ, удален после обнаружения материалов о сексуальном насилии над детьми» . 404 Медиа . Проверено 22 декабря 2023 г.
  16. ^ Открытый помощник , LAION AI, 9 марта 2023 г. , получено 9 марта 2023 г.
  17. ^ Jump up to: а б Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Чжи-Жуй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Нагифи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - Демократизация согласования модели большого языка». arXiv : 2304.07327 [ cs.CL ].
  18. ^ «Открытый помощник: изучите возможности открытой и совместной разработки чат-ботов» . КДнаггетс . Проверено 5 мая 2023 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6d7930dc9e15fabf9a1ec6713a246ff2__1718375580
URL1:https://arc.ask3.ru/arc/aa/6d/f2/6d7930dc9e15fabf9a1ec6713a246ff2.html
Заголовок, (Title) документа по адресу, URL1:
LAION - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)