Анализ ссылок
В теории сетей анализ ссылок — это метод анализа данных, используемый для оценки отношений (Tap link [ нужны разъяснения ] ) между узлами. Отношения могут быть идентифицированы между различными типами узлов (100 тыс. [ нужны разъяснения ] ), включая организации , людей и транзакции . Анализ ссылок использовался для расследования преступной деятельности ( мошенничество , борьба с терроризмом и разведка ), анализа компьютерной безопасности , поисковой оптимизации , исследования рынка , медицинских исследований и искусства.
Открытие знаний [ править ]
Обнаружение знаний — это итеративный и интерактивный процесс, используемый для выявления , анализа и визуализации закономерностей в данных. [1] Сетевой анализ, анализ ссылок и анализ социальных сетей — все это методы обнаружения знаний, каждый из которых является соответствующим подмножеством предыдущего метода. Большинство методов обнаружения знаний следуют следующим шагам (на самом высоком уровне): [2]
Сбор и обработка данных требуют доступа к данным и имеют ряд присущих проблем, включая информационную перегрузку и ошибки данных. Как только данные будут собраны, их необходимо будет преобразовать в формат, который сможет эффективно использоваться как человеческими, так и компьютерными анализаторами. Инструменты визуализации, созданные вручную или с помощью компьютера, могут быть отображены на основе данных, включая сетевые диаграммы. Существует несколько алгоритмов, помогающих анализировать данные: алгоритм Дейкстры , поиск в ширину и поиск в глубину .
Анализ связей фокусируется на анализе связей между узлами с помощью методов визуализации ( сетевые диаграммы , матрица связей). Вот пример взаимосвязей, которые могут быть отображены при расследовании преступлений: [3]
Отношения/Сеть | Источники данных |
---|---|
1. Доверие | Предыдущие контакты в семье, районе, школе, армии, клубе или организации. Публичные и судебные протоколы. Данные могут быть доступны только в родной стране подозреваемого. |
2. Задача | Журналы и записи телефонных звонков, электронной почты, чатов, мгновенных сообщений, посещений веб-сайтов. Записи о путешествиях. Человеческий интеллект: наблюдение за собраниями и посещение общих мероприятий. |
3. Деньги и ресурсы | Записи о банковских счетах и денежных переводах. Схема и место использования кредитной карты. Предыдущие судебные протоколы. Человеческий интеллект: наблюдение за посещениями альтернативных банковских ресурсов, таких как Хавала . |
4. Стратегия и цели | Веб-сайты. Видео и зашифрованные диски доставляются курьером. Записи о путешествиях. Человеческий интеллект: наблюдение за собраниями и посещение общих мероприятий. |
Анализ ссылок используется для трех основных целей: [4]
- Найдите совпадения в данных для известных интересующих закономерностей;
- Находить аномалии, в которых нарушаются известные закономерности;
- Откройте для себя новые модели интересов (анализ социальных сетей, интеллектуальный анализ данных ).
История [ править ]
Клеркс разделил инструменты анализа ссылок на 3 поколения. [5] Первое поколение было представлено в 1975 году как диаграмма Анакпапа Харпера и Харриса. [6] Этот метод требует, чтобы эксперт в предметной области рассмотрел файлы данных, определил ассоциации путем построения матрицы связей, создал диаграмму связей для визуализации и, наконец, проанализировал сетевую диаграмму для выявления интересующих закономерностей. Этот метод требует обширных знаний в предметной области и требует чрезвычайно много времени при просмотре огромных объемов данных.
В дополнение к матрице ассоциаций для получения полезной информации, которая имеет практическую ценность и может быть использована правоохранительными органами, можно использовать матрицу действий. Матрица действий, как можно понять из этого термина, сосредоточена на действиях и действиях людей по отношению к локациям. В то время как матрица связей фокусируется на отношениях между людьми, организациями и/или собственностью. Различие между этими двумя типами матриц, хотя и незначительное, тем не менее существенно с точки зрения результатов выполненного или визуализированного анализа. [7] [8] [9] [10]
Инструменты второго поколения состоят из инструментов автоматического графического анализа, таких как IBM i2 Analyst's Notebook, Netmap, ClueMaker и Watson. Эти инструменты предлагают возможность автоматизировать построение и обновление диаграммы связей после создания матрицы связей вручную, однако для анализа полученных диаграмм и графиков по-прежнему требуется эксперт с обширными знаниями в предметной области.
Третье поколение инструментов анализа связей, таких как DataWalk, позволяет автоматически визуализировать связи между элементами в наборе данных, которые затем могут служить основой для дальнейшего исследования или обновления вручную.
Приложения [ править ]
- Программа ФБР по задержанию насильственных преступников (ViCAP)
- Система анализа сексуальных преступлений штата Айова
- Система анализа сексуальных преступлений штата Миннесота (MIN/SCAP)
- Система отслеживания расследований убийств штата Вашингтон (HITS) [11]
- Расследование убийств и отслеживание убийств штата Нью-Йорк (HALT)
- Оценка и отслеживание убийств в Нью-Джерси (HEAT) [12]
- Программа ATAC штата Пенсильвания.
- Система анализа связей с насильственными преступлениями (ViCLAS) [13]
Проблемы с анализом ссылок [ править ]
Информационная перегрузка [ править ]
Из-за огромных объемов данных и информации, хранящихся в электронном виде, пользователи сталкиваются с множеством несвязанных источников информации, доступных для анализа. Методы анализа данных необходимы для эффективного и действенного использования данных. Палшикар классифицирует методы анализа данных на две категории — ( статистические модели , анализ временных рядов , кластеризация и классификация , алгоритмы сопоставления для обнаружения аномалий) и методы искусственного интеллекта (ИИ) (интеллектуальный анализ данных, экспертные системы , распознавание образов , методы машинного обучения , нейронные сети). сети ). [14]
Болтон и Хэнд определяют статистический анализ данных как контролируемые или неконтролируемые методы. [15] Методы контролируемого обучения требуют, чтобы в системе были определены правила, определяющие ожидаемое или неожиданное поведение. Методы обучения без учителя сравнивают данные с нормой и обнаруживают статистические выбросы. Методы контролируемого обучения ограничены в сценариях, которые можно использовать, поскольку этот метод требует, чтобы правила обучения были установлены на основе предыдущих шаблонов. Методы обучения без присмотра могут обеспечить выявление более широких проблем, однако могут привести к более высокому показателю ложноположительных результатов, если поведенческая норма недостаточно четко установлена или понята.
Сами данным присущи проблемы, включая целостность (или ее отсутствие) и постоянные изменения. Данные могут содержать «ошибки упущения и совершения ошибок из-за неправильного сбора или обработки, а также когда организации активно пытаются обмануть и/или скрыть свои действия». [4] Воробей [16] выделяет неполноту (неизбежность отсутствующих данных или ссылок), нечеткие границы (субъективность при принятии решения о том, что включать) и динамические изменения (признание того, что данные постоянно меняются) как три основные проблемы анализа данных. [3]
После преобразования данных в удобный формат могут возникнуть проблемы с открытыми текстурами и перекрестными ссылками. Открытая текстура была определена Вайсманном как неизбежная неопределенность в значении, когда эмпирические термины используются в разных контекстах. [17] Неопределенность значений терминов создает проблемы при попытке поиска и перекрестных ссылок на данные из нескольких источников. [18]
Основным методом решения проблем анализа данных является использование знаний эксперта в предметной области. Это очень трудоемкий и дорогостоящий метод проведения анализа ссылок, который имеет свои собственные проблемы. МакГрат и др. пришли к выводу, что расположение и представление сетевой диаграммы оказывают существенное влияние на «восприятие пользователем существования групп в сетях». [19] Даже использование экспертов в предметной области может привести к различным выводам, поскольку анализ может быть субъективным.
Преследование предотвращения против преступности
Методы анализа ссылок в основном использовались для судебного преследования, поскольку гораздо проще просмотреть исторические данные на предмет закономерностей, чем пытаться предсказать будущие действия.
Кребс продемонстрировал использование матрицы связей и диаграммы связей террористической сети, связанной с 19 угонщиками, ответственными за теракты 11 сентября, путем сопоставления общедоступных деталей, ставших доступными после атак. [3] Даже несмотря на преимущества ретроспективного анализа и общедоступной информации о людях, местах и сделках, становится ясно, что данных не хватает.
В качестве альтернативы Пикарелли утверждал, что использование методов анализа ссылок могло быть использовано для выявления и потенциального предотвращения незаконной деятельности внутри сети «Аум Синрикё» . [20] «Мы должны быть осторожны с «виновностью по ассоциации». Связь с террористом не доказывает вину, но требует расследования». [3] Сочетание правовых концепций вероятной причины , права на неприкосновенность частной жизни и свободы объединений становится сложной задачей при проверке потенциально конфиденциальных данных с целью предотвращения преступления или незаконной деятельности, которые еще не произошли.
Предлагаемые решения [ править ]
Существует четыре категории предлагаемых решений для анализа ссылок: [21]
- Эвристический
- На основе шаблонов
- На основе сходства
- Статистический
Инструменты на основе эвристики используют правила принятия решений, основанные на экспертных знаниях с использованием структурированных данных. Инструменты на основе шаблонов используют обработку естественного языка (NLP) для извлечения деталей из неструктурированных данных , которые соответствуют заранее определенным шаблонам. Подходы, основанные на сходстве, используют взвешенную оценку для сравнения атрибутов и выявления потенциальных связей. Статистические подходы выявляют потенциальные связи на основе лексической статистики.
Исследователь CrimeNet [ править ]
Джей Джей Сюй и Х. Чен предлагают платформу для автоматического сетевого анализа и визуализации под названием CrimeNet Explorer. [22] Эта структура включает в себя следующие элементы:
- Создание сети с помощью подхода концептуального пространства, который использует « вес совместного появления » для измерения частоты, с которой два слова или фразы появляются в одном и том же документе. Чем чаще два слова или фразы появляются вместе, тем больше вероятность того, что они связаны между собой. ". [22]
- Разделение сети с использованием «иерархической кластеризации для разделения сети на подгруппы на основе силы отношений». [22]
- Структурный анализ с помощью «трех мер центральности (степень, взаимосвязь и близость) для выявления центральных членов в данной подгруппе. [22] CrimeNet Explorer использовал алгоритм кратчайшего пути Дейкстры для расчета связи и близости от одного узла ко всем остальным узлам в подгруппе.
- Торгерсона Визуализация сети с использованием алгоритма метрического многомерного масштабирования (MDS) .
Ссылки [ править ]
- ^ Inc., Проект Tor. «Проект Tor: Обзор» . Архивировано из оригинала 6 июня 2015 г. Проверено 4 февраля 2023 г.
{{cite web}}
:|last=
имеет общее имя ( справка ) - ^ Ахонен, Х., Особенности систем обнаружения знаний . Архивировано 8 декабря 2012 г. в Wayback Machine .
- ^ Jump up to: Перейти обратно: а б с д Кребс, В.Е. 2001, Картирование сетей террористических ячеек. Архивировано 20 июля 2011 г. в Wayback Machine , Connections 24, 43–52.
- ^ Jump up to: Перейти обратно: а б Инструмент анализа ссылок. Архивировано 17 мая 2017 г. в Wayback Machine , Информационное управление исследовательской лаборатории ВВС, Римский исследовательский центр, Рим, Нью-Йорк, сентябрь 2004 г.
- ^ Клеркс, П. (2001). «Сетевая парадигма применительно к преступным организациям: теоретические придирки или соответствующая доктрина для следователей? Последние события в Нидерландах». Соединения . 24 : 53–65. CiteSeerX 10.1.1.129.4720 .
- ^ Харпер и Харрис, Протоколы ежегодного собрания Общества анализа криминальной разведки, человеческого фактора и эргономики, 19 (2), 1975, стр. 232-238.
- ^ Пайк, Джон. «FMI 3-07.22 Приложение F Инструменты и индикаторы анализа разведывательных данных» . Архивировано из оригинала 8 марта 2014 г. Проверено 8 марта 2014 г.
- ^ Анализ социальных сетей и другие аналитические инструменты. Архивировано 8 марта 2014 г. в Wayback Machine.
- ^ MSFC, Ребекка Уитакер (10 июля 2009 г.). «Руководство для преподавателя аэронавтики — Матрицы деятельности» . Архивировано из оригинала 17 января 2008 года.
- ↑ Матрица личности/деятельности. Архивировано 8 марта 2014 г. в Wayback Machine.
- ^ «Система отслеживания расследований убийств (HITS)» . Архивировано из оригинала 21 октября 2010 г. Проверено 31 октября 2010 г.
- ^ «Полиция штата Нью-Джерси — Отдел расследований» . Архивировано из оригинала 25 марта 2009 г. Проверено 31 октября 2010 г.
- ^ «Система связи с насильственными преступлениями (ViCLAS)» . Архивировано из оригинала 2 декабря 2010 г. Проверено 31 октября 2010 г.
- ^ Палшикар, Г.К., Скрытая правда. Архивировано 15 мая 2008 г. в Wayback Machine , Intelligent Enterprise, май 2002 г.
- ^ Болтон, Р.Дж. и Хэнд, DJ, Статистическое обнаружение мошенничества: обзор, Statistical Science, 2002, 17 (3), стр. 235-255.
- ^ Sparrow MK 1991. Сетевые уязвимости и стратегическая разведка в правоохранительных органах», Международный журнал разведки и контрразведки , том. 5 №3.
- ^ Фридрих Вайсманн, Проверяемость (1945), стр.2.
- ^ Лайонс, Д., Открытая текстура и возможность юридической интерпретации (2000) .
- ^ МакГрат, К., Блайт, Дж., Кракхардт, Д., Просмотр групп в макетах графиков . Архивировано 3 октября 2013 г. в Wayback Machine .
- ^ Пикарелли, Дж. Т., Признаки и предупреждения о транснациональных угрозах: полезность сетевого анализа, Группа военного и разведывательного анализа. Архивировано 11 марта 2016 г. в Wayback Machine .
- ^ Шредер и др., Автоматизированный анализ криминальных связей на основе знаний предметной области, Журнал Американского общества информационных наук и технологий, 58:6 (842), 2007.
- ^ Jump up to: Перейти обратно: а б с д Сюй Дж. Дж. и Чен Х., CrimeNet Explorer: Основа для обнаружения знаний о преступных сетях, Транзакции ACM в информационных системах, 23 (2), апрель 2005 г., стр. 201–226.
Внешние ссылки [ править ]
- Бартолини, Я; Чачча, П. Воображение: точная аннотация изображений с использованием методов анализа ссылок . CiteSeerX 10.1.1.63.2453 .
- Анализ связей и преступность - экспертиза
- Элинк Шуурман М.В., Срисаенпанг С., Пиницунторн С., Биджлевелд И., Ваетевутачарн К., Метапат К., Быстрое обследование деревень по борьбе с туберкулезом, Tuber Lung Dis. Декабрь 1996 г.;77(6):549-54.
- Ганхи К., Фалуцос К., Хеберт М. Неконтролируемое моделирование категорий объектов с использованием методов анализа ссылок.
- МакГи Р., Отчет разведки.
- Ресслер С. Анализ социальных сетей как подход к борьбе с терроризмом: исследования прошлого, настоящего и будущего.
- RFFlow, Как нарисовать диаграмму анализа ссылок.
- IBM i2 Аналитический ноутбук Premium
- Зильбершац, А. (1996). «Что делает шаблоны интересными в системах обнаружения знаний». Транзакции IEEE по знаниям и инженерии данных . 8 (6): 970–974. CiteSeerX 10.1.1.53.2780 . дои : 10.1109/69.553165 . S2CID 11430349 .
- Лента анализа связей с террористами и повстанцами (TR-LAF), заархивированная 6 января 2015 г. на Wayback Machine.
- Семинар по анализу ссылок: динамика и статика больших сетей (LinkKDD2006), 20 августа 2006 г. Архивировано 26 июня 2010 г., в Wayback Machine.
- ClueMaker
- Прогулка по данным