Профилирование (информатика)
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Ноябрь 2017 г. ) |
В информатике созданных профилирование относится к процессу создания и применения профилей пользователей, с помощью компьютерного анализа данных .
Это использование алгоритмов или других математических методов, которые позволяют обнаруживать закономерности или корреляции в больших объемах данных, агрегированных в базах данных . Когда эти шаблоны или корреляции используются для идентификации или представления людей, их можно назвать профилями . Помимо обсуждения технологий профилирования или профилирования населения , понятие профилирования в этом смысле касается не только построения профилей, но также касается применения групповых профилей к отдельным лицам, например. например, в случаях кредитного скоринга , ценовой дискриминации или выявления рисков безопасности ( Hildebrandt & Gutwirth 2008 ) ( Elmer 2004 ).
Профилирование используется для предотвращения мошенничества , анализа окружающей среды и потребительского анализа . Статистические методы профилирования включают обнаружение знаний в базах данных (KDD).
Процесс профилирования
[ редактировать ]Технический процесс профилирования можно разделить на несколько этапов:
- Предварительное обоснование: процесс профилирования начинается со спецификации применимой проблемной области и определения целей анализа.
- Сбор данных : целевой набор данных или база данных для анализа формируется путем выбора соответствующих данных с учетом существующих знаний в предметной области и понимания данных.
- Подготовка данных : данные предварительно обрабатываются для удаления шума и уменьшения сложности за счет устранения атрибутов.
- Интеллектуальный анализ данных : данные анализируются с помощью алгоритма или эвристики, разработанных в соответствии с данными, моделью и целями.
- Интерпретация: Найденные закономерности оцениваются на предмет их актуальности и достоверности специалистами и/или профессионалами в области применения (например, исключая ложные корреляции).
- Применение: Построенные профили применяются, например, к категориям лиц, для тестирования и точной настройки алгоритмов.
- Институциональное решение: учреждение решает, какие действия или политику применять к группам или отдельным лицам, чьи данные соответствуют соответствующему профилю.
Сбор, подготовка и анализ данных относятся к этапу создания профиля. Однако профилирование также относится к применению профилей, что означает использование профилей для идентификации или категоризации групп или отдельных лиц. Как видно из шестого шага (применение), процесс является циклическим. Между созданием и применением профилей существует обратная связь. Интерпретация профилей может привести к повторяющейся – возможно, в реальном времени – точной настройке конкретных предыдущих этапов процесса профилирования. Применение профилей к людям, чьи данные не использовались для построения профиля, основано на сопоставлении данных, которое предоставляет новые данные, позволяющие осуществлять дальнейшие корректировки. Процесс профилирования является одновременно динамичным и адаптивным. Хорошей иллюстрацией динамического и адаптивного характера профилирования является Межотраслевой стандартный процесс интеллектуального анализа данных ( CRISP-DM ).
Типы практик профилирования
[ редактировать ]Чтобы прояснить природу технологий профилирования, необходимо провести некоторые важные различия между различными типами методов профилирования, помимо различия между построением и применением профилей. Основные различия заключаются в различиях между профилированием «снизу вверх» и «сверху вниз» (или контролируемым и неконтролируемым обучением), а также между индивидуальными и групповыми профилями.
Контролируемое и неконтролируемое обучение
[ редактировать ]Профили можно классифицировать по способу их создания ( Файад, Пятецкий-Шапиро и Смит, 1996 ) ( Зарский и 2002-3 ) . С одной стороны, профили можно создавать путем проверки гипотетической корреляции. Это называется нисходящим профилированием или контролируемым обучением . Это похоже на методологию традиционного научного исследования в том смысле, что оно начинается с гипотезы и состоит из проверки ее достоверности. Результатом такого типа профилирования является проверка или опровержение гипотезы. Можно также говорить о дедуктивном профилировании. С другой стороны, профили можно создавать путем изучения базы данных с использованием процесса интеллектуального анализа данных для обнаружения закономерностей в базе данных, о которых ранее не предполагалось. В каком-то смысле это вопрос генерации гипотез: поиска корреляций, которых никто не ожидал или о которых даже не думал. Как только шаблоны будут обнаружены, они войдут в цикл, описанный выше, и будут протестированы с использованием новых данных. Это называется обучение без присмотра .
В отношении этого различия важны две вещи. Во-первых, алгоритмы обучения без учителя, похоже, позволяют создавать новый тип знаний, не основанный на гипотезе, выдвинутой исследователем, и не основанный на причинно-следственных или мотивационных связях, а исключительно на основе стохастических корреляций. Во-вторых, алгоритмы обучения без учителя, таким образом, по-видимому, допускают индуктивный тип построения знаний, который не требует теоретического обоснования или причинно-следственного объяснения ( Custers 2004 ).
Некоторые авторы утверждают, что если применение профилей, основанных на компьютеризированном стохастическом распознавании образов, «работает», то есть позволяет надежно предсказывать будущее поведение, теоретическое или причинное объяснение этих закономерностей больше не имеет значения ( Андерсон 2008 ). Однако идея о том, что «слепые» алгоритмы предоставляют надежную информацию, не означает, что эта информация нейтральна. В процессе сбора и агрегирования данных в базу данных (первые три шага процесса построения профиля) осуществляется перевод реальных событий в машиночитаемые данные . Затем эти данные подготавливаются и очищаются для обеспечения первоначальной вычислительности. Потенциальные отклонения должны быть обнаружены в этих точках, а также при выборе разрабатываемых алгоритмов. Невозможно изучить базу данных для всех возможных линейных и нелинейных корреляций, а это означает, что математические методы, разработанные для поиска закономерностей, будут определять закономерности, которые можно найти. В случае машинного профилирования потенциальная предвзятость обусловлена не предрассудками здравого смысла или тем, что психологи называют стереотипами, а компьютерными методами, используемыми на начальных этапах процесса. Эти методы по большей части невидимы для тех, к кому применяются профили (поскольку их данные совпадают с профилями соответствующих групп).
Индивидуальные и групповые профили
[ редактировать ]Профили также должны классифицироваться по типу предмета, к которому они относятся. Этим субъектом может быть как отдельный человек, так и группа людей. Когда профиль создается на основе данных одного человека, это называется индивидуальным профилированием ( Jaquet-Chiffelle 2008 ). Этот вид профилирования используется для выявления конкретных характеристик определенного человека, обеспечения уникальной идентификации или предоставления персонализированных услуг. Однако персонализированное обслуживание чаще всего основано и на групповом профилировании, которое позволяет отнести человека к определенному типу лиц на основе того, что ее профиль совпадает с профилем, построенным на основе огромного количества данных о огромное количество других людей. Профиль группы может относиться к результату интеллектуального анализа данных в наборах данных, которые относятся к существующему сообществу, которое считает себя таковым, например религиозной группе, теннисному клубу, университету, политической партии и т. д. В этом случае он может описывать ранее неизвестные модели поведения или иные характеристики такой группы (сообщества). Групповой профиль может также относиться к категории людей, которые не образуют сообщество, но имеют ранее неизвестные модели поведения или другие характеристики ( Кастерс, 2004 ). В этом случае профиль группы описывает конкретное поведение или другие характеристики категории людей, например, женщин с голубыми глазами и рыжими волосами или взрослых с относительно короткими руками и ногами. Можно обнаружить, что эти категории коррелируют с рисками для здоровья, способностью зарабатывать, уровнем смертности, кредитными рисками и т. д.
Если индивидуальный профиль применяется к человеку, от которого он был получен, то это прямое индивидуальное профилирование. Если групповой профиль применяется к лицу, данные которого совпадают с профилем, то это косвенное индивидуальное профилирование, поскольку профиль был создан с использованием данных других людей. Аналогично, если групповой профиль применяется к группе, из которой он был добыт, то это прямое групповое профилирование ( Jaquet-Chiffelle 2008 ). Однако поскольку применение группового профиля к группе подразумевает применение группового профиля к отдельным членам группы, имеет смысл говорить о косвенном групповом профилировании, особенно если групповой профиль недистрибутивен.
Распределительное и нераспределительное профилирование
[ редактировать ]Групповые профили также можно разделить по характеру их распределения ( Vedder 1999 ). Групповой профиль является распределительным, когда его свойства одинаково применимы ко всем членам группы: все холостяки не состоят в браке или все люди с определенным геном имеют 80% шанс заразиться определенным заболеванием. Профиль является нераспределительным, если он не обязательно применим ко всем членам группы: группа лиц с определенным почтовым индексом имеет среднюю трудоспособность XX или категория лиц с голубыми глазами имеет средний шанс 37% заразились конкретным заболеванием. Обратите внимание, что в этом случае вероятность того, что человек будет иметь определенную трудоспособность или заразиться конкретным заболеванием, будет зависеть от других факторов, например, пола, возраста, происхождения родителей, предыдущего состояния здоровья, образования. Должно быть очевидно, что, за исключением тавтологических профилей, подобных профилям бакалавров, большинство групповых профилей, созданных с помощью компьютерных технологий, не являются дистрибутивными. Это имеет далеко идущие последствия для точности косвенного индивидуального профилирования, основанного на сопоставлении данных с нераспределительными групповыми профилями. Не говоря уже о том, что применение точных профилей может быть несправедливым или вызвать неоправданную стигматизацию, большинство групповых профилей не будут точными.
Приложения
[ редактировать ]В финансовом секторе учреждения используют технологии профилирования для предотвращения мошенничества и кредитного скоринга . Банки хотят минимизировать риски при кредитовании своих клиентов. На основе обширной группы профилируемым клиентам присваивается определенное скоринговое значение, которое указывает на их кредитоспособность. Финансовые учреждения, такие как банки и страховые компании, также используют групповое профилирование для выявления случаев мошенничества или отмывания денег . Базы данных с транзакциями просматриваются с помощью алгоритмов, чтобы обнаружить поведение, отклоняющееся от стандарта и указывающее на потенциально подозрительные транзакции. [ 1 ]
В контексте трудоустройства профили могут быть полезны для отслеживания сотрудников путем мониторинга их поведения в Интернете , для выявления мошенничества с их стороны, а также для распределения человеческих ресурсов путем объединения и ранжирования их навыков. ( Леопольд и Мейнц 2008 ) [ 2 ]
Профилирование также можно использовать для поддержки людей на работе, а также для обучения, вмешиваясь в разработку адаптивных гипермедийных систем, персонализирующих взаимодействие. Например, это может быть полезно для управления вниманием ( Набет, 2008 ).
В криминалистике существует возможность связывать различные базы данных по делам и подозреваемым и анализировать их на предмет общих закономерностей. Это можно использовать для раскрытия существующих дел или с целью установления профилей риска потенциальных подозреваемых ( Geradts & Sommer 2008 ) ( Harcourt 2006 ).
Профилирование потребителей
[ редактировать ]Профилирование потребителей — это форма клиентской аналитики , при которой данные о клиентах используются для принятия решений по продвижению продукции , ценообразованию на продукцию, а также для персонализированной рекламы . [ 3 ] Когда цель состоит в том, чтобы найти наиболее прибыльный сегмент клиентов, аналитика потребителей опирается на демографические данные , данные о поведении потребителей , данные о приобретенных продуктах, методах оплаты и опросы для создания профилей потребителей. Для создания прогнозных моделей на основе существующих баз данных ) . используется статистический метод Knowledge Discovery in Databases (KDD KDD группирует схожие данные о клиентах, чтобы прогнозировать будущее поведение потребителей. Другими методами прогнозирования поведения потребителей являются корреляция и распознавание закономерностей . Профили потребителей описывают клиентов на основе набора атрибутов. [ 4 ] и обычно потребители группируются по доходу , уровню жизни , возрасту и местоположению. Профили потребителей могут также включать поведенческие характеристики, которые оценивают мотивацию клиента в процессе принятия решения о покупке . Хорошо известными примерами потребительских профилей являются Experian от Mosaic геодемографическая классификация домохозяйств CACI от , Acorn и Acxiom . Personicx от [ 5 ]
Окружающий интеллект
[ редактировать ]В искусственно созданной среде с окружающим интеллектом повседневные объекты имеют встроенные датчики и встроенные системы , которые позволяют объектам распознавать присутствие и потребности людей и реагировать на них. Окружающий интеллект основан на автоматизированном профилировании и дизайне взаимодействия человека и компьютера . [ 6 ] Датчики контролируют действия и поведение человека, тем самым генерируя, собирая, анализируя, обрабатывая и храня персональные данные . Ранние примеры бытовой электроники с внешним интеллектом включают мобильные приложения , дополненную реальность и услуги на основе определения местоположения . [ 7 ]
Риски и проблемы
[ редактировать ]Технологии профилирования подняли множество этических, юридических и других вопросов, включая конфиденциальность , равенство , надлежащую правовую процедуру , безопасность и ответственность . Многие авторы предостерегают от возможностей новой технологической инфраструктуры, которая может возникнуть на основе полуавтономных технологий профилирования ( Лессиг 2006 ) ( Солове 2004 ) ( Шварц 2000 ).
Конфиденциальность является одним из основных поднятых вопросов. Технологии профилирования делают возможным масштабный мониторинг поведения и предпочтений человека. Профили могут раскрывать личную или частную информацию о людях, о которых они могут даже не подозревать ( Hildebrandt & Gutwirth 2008 ).
Технологии профилирования по своей природе являются дискриминационными инструментами. Они допускают беспрецедентные виды социальной сортировки и сегментации, которые могут иметь несправедливые последствия. Людям, которые профилируются, возможно, придется платить более высокие цены, [ 8 ] они могут упустить важные предложения или возможности и могут подвергаться повышенному риску, поскольку удовлетворение их потребностей становится менее прибыльным ( Lion 2003 ). В большинстве случаев они не будут знать об этом, поскольку практика профилирования в большинстве случаев невидима, а сами профили часто защищены интеллектуальной собственностью или коммерческой тайной. Это создает угрозу равенству и солидарности граждан. В более широком масштабе это может привести к сегментации общества. [ 9 ]
Одна из проблем, лежащих в основе потенциальных нарушений конфиденциальности и недискриминации , заключается в том, что процесс профилирования чаще всего невидим для тех, кого профилируют. Это создает трудности, поскольку становится трудно, если не невозможно, оспорить применение определенного группового профиля. Это нарушает принципы надлежащей правовой процедуры: если человек не имеет доступа к информации, на основании которой ему удерживают льготы или приписывают определенные риски, он не может оспаривать то, как с ним обращаются ( Steinbock 2005 ).
Профили могут быть использованы против людей, когда они попадают в руки людей, которые не имеют права доступа или использования информации. Важным вопросом, связанным с этими нарушениями безопасности, является кража личных данных .
Если применение профилей причиняет вред, необходимо определить ответственность за этот вред и тех, кто будет нести ответственность. Должен ли программист, поставщик услуг профилирования или пользователь профилирования быть привлечен к ответственности? Этот вопрос ответственности становится особенно сложным в случае, если приложение и решения по профилям также стали автоматизированными, как в случае с автономными вычислениями или решениями окружающего интеллекта для автоматизированных решений на основе профилирования.
См. также
[ редактировать ]- Автоматизированное принятие решений
- Поведенческий таргетинг
- Интеллектуальный анализ данных
- Демографическое профилирование
- Цифровая идентификация
- Цифровые следы
- Криминалистическое профилирование
- Идентификация (информация)
- Личность
- Маркировка
- Конфиденциальность
- Профилирование
- Профилирование преступников
- Социальное профилирование
- Стереотип
- Моделирование пользователей
- Профиль пользователя
Ссылки
[ редактировать ]- Андерсон, Крис (2008). «Конец теории: поток данных делает научный метод устаревшим» . Проводной журнал . 16 (7).
- Кастерс, БХМ (2004). «Сила знаний» (Документ). Тилбург: Издательство Wolf Legal.
- Элмер, Г. (2004). «Профилирующие машины. Картирование экономики личной информации» (Документ). МТИ Пресс.
- Файяд, UM; Пятецкий-Шапиро Г.; Смит, П. (1996). «От интеллектуального анализа данных к обнаружению знаний в базах данных» (PDF) . Журнал ИИ . 17 (3): 37–54. Архивировано из оригинала (PDF) 16 декабря 2009 г. Проверено 9 февраля 2009 г.
- Герадтс, Зенон; Соммер, Питер (2008). «D6.7c: Криминалистическое профилирование» (PDF) . Результаты FIDIS . 6 (7в).
- Харкорт, Бельгия (2006). «Против прогнозирования. Профилирование, контроль и наказание в актуарную эпоху» (Документ). Издательство Чикагского университета, Чикаго и Лондон.
- Хильдебрандт, Мирей; Гутвирт, Серж (2008). Профилирование гражданина Европы. Междисциплинарные перспективы . Спрингер, Дордрехт. дои : 10.1007/978-1-4020-6914-7 . ISBN 978-1-4020-6913-0 .
- Жаке-Шифель, Давид-Оливье (2008). «Ответ: Прямое и косвенное профилирование в свете виртуальных людей. Кому: Определение профилирования: новый тип знаний?». У Хильдебрандта, Мирей; Гутвирт, Серж (ред.). Профилирование гражданина Европы . Спрингер Нидерланды. стр. 17–45. дои : 10.1007/978-1-4020-6914-7_2 .
- Кефарт, Джо; Шахматы, ДМ (2003). «Видение автономных вычислений» (PDF) . Компьютер . 36 (1 января): 96–104. CiteSeerX 10.1.1.70.613 . дои : 10.1109/MC.2003.1160055 . Архивировано из оригинала (PDF) 10 августа 2014 г.
- Леопольд, Н.; Мейнц, М. (2008). «Профилирование в ситуациях трудоустройства (мошенничество)». У Хильдебрандта, Мирей; Гутвирт, Серж (ред.). Профилирование гражданина Европы . Спрингер Нидерланды. стр. 217–237. дои : 10.1007/978-1-4020-6914-7_12 . ISBN 978-1-4020-6913-0 .
- Лессиг, Л. (2006). «Код 2.0» (Документ). Основные книги, Нью-Йорк.
- Лион, Д. (2003). «Наблюдение как социальная сортировка: конфиденциальность, риск и цифровая дискриминация» (Документ). Рутледж.
- Набет, Тьерри (2008). «Профилирование пользователей для поддержки внимания в школе и на работе». У Хильдебрандта, Мирей; Гутвирт, Серж (ред.). Профилирование гражданина Европы . Спрингер Нидерланды. стр. 185–200. дои : 10.1007/978-1-4020-6914-7_10 . ISBN 978-1-4020-6913-0 .
- Шварц, П. (2000). «За пределами Кодекса Лессига о конфиденциальности в Интернете: фильтры киберпространства, контроль конфиденциальности и практика честного использования информации». Обзор законодательства штата Висконсин . 743 : 743–788.
- Соловье, диджей (2004). Цифровой человек. Технологии и конфиденциальность в век информации . Нью-Йорк, Издательство Нью-Йоркского университета.
- Стейнбок, Д. (2005). «Сопоставление данных, интеллектуальный анализ данных и надлежащая правовая процедура». Обзор законодательства Грузии . 40 (1): 1–84.
- Веддер, А. (1999). «KDD: Вызов индивидуализму». Этика и информационные технологии . 1 (4): 275–281. дои : 10.1023/А:1010016102284 . S2CID 10377988 .
- Вайзер, М. (1991). «Компьютер XXI века». Научный американец . 265 (3): 94–104. doi : 10.1038/scientificamerican0991-94 .
- Зарский, Т. (2002). « «Занимайтесь своим собственным бизнесом!»: Обоснование последствий интеллектуального анализа данных или личной информации на форуме общественного мнения». Йельский журнал права и технологий . 5 (4): 17–47.
Примечания и другие ссылки
- ^ Канхото, А.И. (2007). «Профилирование поведения: социальное построение категорий при обнаружении финансовых преступлений», диссертация в Лондонской школе экономики» (PDF) . lse.ac.uk.
- ^ Электронный информационный центр конфиденциальности. «EPIC — Конфиденциальность на рабочем месте» . эпик.орг .
{{cite web}}
:|author=
имеет общее имя ( справка ) - ^ Рейес, Мэтью (2020). Поведение потребителей и маркетинг . ИнтехОпен. п. 10. ISBN 9781789238556 .
- ^ Рейес, Мэтью (2020). Поведение потребителей и маркетинг . ИнтехОпен. п. 11. ISBN 9781789238556 .
- ^ Рейес, Мэтью (2020). Поведение потребителей и маркетинг . ИнтехОпен. п. 12. ISBN 9781789238556 .
- ^ Де Херт, Пол; Линес, Рональд; Гутвирт, Серж; Пуле, Ив (2011). Компьютеры, конфиденциальность и защита данных: элемент выбора . Спрингер Нидерланды. п. 80. ИСБН 9789400706415 .
- ^ Де Херт, Пол; Линес, Рональд; Гутвирт, Серж; Пуле, Ив (2011). Компьютеры, конфиденциальность и защита данных: элемент выбора . Спрингер Нидерланды. п. 80. ИСБН 9789400706415 .
- ^ Одлизко, А. (2003). «Конфиденциальность, экономика и ценовая дискриминация в Интернете, А. М. Одлызко. ICEC2003: Пятая международная конференция по электронной коммерции, Н. Саде, изд., ACM, стр. 355–366» (PDF) .
- ^ Ганди, О. (2002). «Интеллектуальный анализ данных и наблюдение в условиях после 11 сентября, презентация на IAMCR, Барселона» (PDF) . asc.upenn.edu .