Jump to content

Маркированные данные

Маркированные данные — это группа образцов , помеченных одной или несколькими метками. Маркировка обычно использует набор немаркированных данных и дополняет каждую их часть информативными тегами. Например, метка данных может указывать, есть ли на фотографии лошадь или корова, какие слова были произнесены в аудиозаписи, какой тип действия выполняется на видео, какова тема новостной статьи, каков общий настроение твита или является ли точка на рентгеновском снимке опухолью.

Метки можно получить, попросив людей вынести суждение о данном фрагменте немаркированных данных. Получение размеченных данных значительно дороже, чем получение необработанных неразмеченных данных.

Размеченные данные, полученные из краудсорсинга [ править ]

В 2006 году Фей-Фей Ли , содиректор Стэнфордского института человеко-ориентированного искусственного интеллекта, инициировал исследования по улучшению моделей искусственного интеллекта и алгоритмов распознавания изображений за счет значительного увеличения обучающих данных . Исследователи загрузили миллионы изображений из Всемирной паутины , а группа студентов начала наносить метки для объектов на каждое изображение. В 2007 году Ли передал работу по маркировке данных на Amazon Mechanical Turk , онлайн-рынке цифровых изделий . 3,2 миллиона изображений, которые были помечены более чем 49 000 работниками, легли в основу ImageNet , одной из крупнейших баз данных с ручными метками для контурного распознавания объектов . [1]

Автоматизированная маркировка данных [ править ]

После получения размеченного набора данных машинного обучения , чтобы в модели можно было представить новые неразмеченные данные и можно было угадать или спрогнозировать вероятную метку для этого фрагмента неразмеченных данных. к данным можно применить модели [2]

данными обусловленная , Предвзятость

Алгоритмическое принятие решений подвержено предвзятости, обусловленной программистами, а также предвзятости, обусловленной данными. Данные обучения, основанные на данных, помеченных предвзятостью, приведут к предубеждениям и упущениям в прогнозной модели , несмотря на то, что алгоритм машинного обучения является законным. Размеченные данные, используемые для обучения конкретного алгоритма машинного обучения, должны представлять собой статистически репрезентативную выборку , чтобы не искажать результаты. [3] Например, в системах распознавания лиц недостаточно представленные группы впоследствии часто неправильно классифицируются, если размеченные данные, доступные для обучения, не являются репрезентативными для населения. В 2018 году исследование Джой Буоламвини и Тимнита Гебру показало, что два набора данных анализа лица, которые использовались для обучения алгоритмов распознавания лиц, IJB-A и Adience, на 79,6% и 86,2% состоят из людей со светлой кожей соответственно. [4]

Ссылки [ править ]

  1. ^ Мэри Л. Грей; Сиддхарт Сури (2019). Призрачная работа: как помешать Кремниевой долине создать новый глобальный низший класс . Хоутон Миффлин Харкорт. п. 7. ISBN  978-1-328-56628-7 .
  2. ^ Джонсон, Лейф. «В чем разница между маркированными и немаркированными данными?» , Stack Overflow , 4 октября 2013 г. Проверено 13 мая 2017 г. В эту статью включен текст lmjohns3 , доступный по лицензии CC BY-SA 3.0 .
  3. ^ Сяньхун Ху; Бхану Неупане; Люсия Флорес Эшаис; Пратик Сибал; Макарена Ривера Лам (2019). Управление искусственным интеллектом и передовыми ИКТ для обществ знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 64. ИСБН  978-92-3-100363-9 .
  4. ^ Сяньхун Ху; Бхану Неупане; Люсия Флорес Эшаис; Пратик Сибал; Макарена Ривера Лам (2019). Управление искусственным интеллектом и передовыми ИКТ для обществ знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 66. ИСБН  978-92-3-100363-9 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8fd7e09df52b083ccc27d44b709ff4c9__1714634100
URL1:https://arc.ask3.ru/arc/aa/8f/c9/8fd7e09df52b083ccc27d44b709ff4c9.html
Заголовок, (Title) документа по адресу, URL1:
Labeled data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)