Маркированные данные
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Маркированные данные — это группа образцов , помеченных одной или несколькими метками. Маркировка обычно использует набор немаркированных данных и дополняет каждую их часть информативными тегами. Например, метка данных может указывать, есть ли на фотографии лошадь или корова, какие слова были произнесены в аудиозаписи, какой тип действия выполняется на видео, какова тема новостной статьи, каков общий настроение твита или является ли точка на рентгеновском снимке опухолью.
Метки можно получить, попросив людей вынести суждение о данном фрагменте немаркированных данных. Получение размеченных данных значительно дороже, чем получение необработанных неразмеченных данных.
Размеченные данные, полученные из краудсорсинга [ править ]
В 2006 году Фей-Фей Ли , содиректор Стэнфордского института человеко-ориентированного искусственного интеллекта, инициировал исследования по улучшению моделей искусственного интеллекта и алгоритмов распознавания изображений за счет значительного увеличения обучающих данных . Исследователи загрузили миллионы изображений из Всемирной паутины , а группа студентов начала наносить метки для объектов на каждое изображение. В 2007 году Ли передал работу по маркировке данных на Amazon Mechanical Turk , онлайн-рынке цифровых изделий . 3,2 миллиона изображений, которые были помечены более чем 49 000 работниками, легли в основу ImageNet , одной из крупнейших баз данных с ручными метками для контурного распознавания объектов . [1]
Автоматизированная маркировка данных [ править ]
После получения размеченного набора данных машинного обучения , чтобы в модели можно было представить новые неразмеченные данные и можно было угадать или спрогнозировать вероятную метку для этого фрагмента неразмеченных данных. к данным можно применить модели [2]
данными обусловленная , Предвзятость
Алгоритмическое принятие решений подвержено предвзятости, обусловленной программистами, а также предвзятости, обусловленной данными. Данные обучения, основанные на данных, помеченных предвзятостью, приведут к предубеждениям и упущениям в прогнозной модели , несмотря на то, что алгоритм машинного обучения является законным. Размеченные данные, используемые для обучения конкретного алгоритма машинного обучения, должны представлять собой статистически репрезентативную выборку , чтобы не искажать результаты. [3] Например, в системах распознавания лиц недостаточно представленные группы впоследствии часто неправильно классифицируются, если размеченные данные, доступные для обучения, не являются репрезентативными для населения. В 2018 году исследование Джой Буоламвини и Тимнита Гебру показало, что два набора данных анализа лица, которые использовались для обучения алгоритмов распознавания лиц, IJB-A и Adience, на 79,6% и 86,2% состоят из людей со светлой кожей соответственно. [4]
Ссылки [ править ]
- ^ Мэри Л. Грей; Сиддхарт Сури (2019). Призрачная работа: как помешать Кремниевой долине создать новый глобальный низший класс . Хоутон Миффлин Харкорт. п. 7. ISBN 978-1-328-56628-7 .
- ^ Джонсон, Лейф. «В чем разница между маркированными и немаркированными данными?» , Stack Overflow , 4 октября 2013 г. Проверено 13 мая 2017 г.
В эту статью включен текст lmjohns3 , доступный по лицензии CC BY-SA 3.0 .
- ^ Сяньхун Ху; Бхану Неупане; Люсия Флорес Эшаис; Пратик Сибал; Макарена Ривера Лам (2019). Управление искусственным интеллектом и передовыми ИКТ для обществ знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 64. ИСБН 978-92-3-100363-9 .
- ^ Сяньхун Ху; Бхану Неупане; Люсия Флорес Эшаис; Пратик Сибал; Макарена Ривера Лам (2019). Управление искусственным интеллектом и передовыми ИКТ для обществ знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 66. ИСБН 978-92-3-100363-9 .