Неструктурированные данные

Неструктурированные данные (или неструктурированная информация ) — это информация, которая либо не имеет заранее определенной модели данных , либо не организована заранее определенным образом. Неструктурированная информация обычно содержит много текста , но может также содержать такие данные, как даты, числа и факты. Это приводит к неточностям и двусмысленностям , которые затрудняют понимание использования традиционных программ по сравнению с данными, хранящимися в виде полей в базах данных или аннотированными ( семантически помеченными ) в документах.

В 1998 году компания Merrill Lynch заявила, что «неструктурированные данные составляют подавляющее большинство данных, имеющихся в организации; по некоторым оценкам, их доля достигает 80%». ^[1] Неясно, каков источник этой цифры, но, тем не менее, некоторые ее принимают. ^[2] Другие источники сообщают об аналогичном или более высоком проценте неструктурированных данных. ^[3]^[4]^[5]

По состоянию на 2012 год ^[update], IDC и Dell EMC прогнозируют, что к 2020 году объем данных вырастет до 40 зеттабайт , что приведет к 50-кратному росту с начала 2010 года. ^[6] Совсем недавно IDC и Seagate прогнозируют, что глобальная сфера данных вырастет до 163 зеттабайт к 2025 году. ^[7] и большая часть из них будет неструктурированной. Журнал Computer World утверждает, что неструктурированная информация может составлять более 70–80% всех данных в организациях. ^[1]

Предыстория [ править ]

Самые ранние исследования бизнес-аналитики были сосредоточены на неструктурированных текстовых данных, а не на числовых данных. ^[8] Еще в 1958 году информатики, исследователи такие как Г. П. Лун, были особенно озабочены извлечением и классификацией неструктурированного текста. ^[8] Однако только на рубеже веков эта технология привлекла исследовательский интерес. В 2004 году институт SAS разработал программу SAS Text Miner, которая использует разложение по сингулярным значениям (SVD) для уменьшения гипермерного текстового пространства до меньших размеров для значительно более эффективного машинного анализа. ^[9] Математические и технологические достижения, вызванные машинным анализом текста, побудили ряд предприятий к исследованию приложений, что привело к развитию таких областей, как анализ настроений , анализ голоса клиентов и оптимизация колл-центра. ^[10] Появление больших данных в конце 2000-х годов привело к повышенному интересу к приложениям анализа неструктурированных данных в современных областях, таких как прогнозная аналитика и анализ первопричин . ^[11]

Проблемы с терминологией [ править ]

Этот термин неточен по нескольким причинам:

Структура , хотя и не определена формально, все же может подразумеваться.
Данные с той или иной формой структуры все равно могут быть охарактеризованы как неструктурированные, если их структура не подходит для текущей задачи обработки.
Неструктурированная информация может иметь некоторую структуру ( полуструктурированную ) или даже быть высокоструктурированной, но непредвиденным или необъявленным образом.

Работа с неструктурированными данными [ править ]

Такие методы, как интеллектуальный анализ данных , обработка естественного языка (НЛП) и анализ текста , предоставляют различные методы для поиска закономерностей или иной интерпретации этой информации. Распространенные методы структурирования текста обычно включают в себя ручную разметку метаданными или разметку частей речи для дальнейшего структурирования текста на основе интеллектуального анализа. Стандарт неструктурированной архитектуры управления информацией (UIMA) предоставил общую основу для обработки этой информации для извлечения смысла и создания структурированных данных об информации.

Программное обеспечение, создающее машинно-обрабатываемую структуру, может использовать лингвистическую, слуховую и визуальную структуру, которая существует во всех формах человеческого общения. ^[12] Алгоритмы могут вывести эту внутреннюю структуру из текста, например, путем изучения морфологии слов , синтаксиса предложений и других мелких и крупных закономерностей. Затем неструктурированную информацию можно обогатить и пометить для устранения двусмысленностей, а затем использовать методы, основанные на релевантности, для облегчения поиска и обнаружения. Примеры «неструктурированных данных» могут включать книги, журналы, документы, метаданные , медицинские записи , аудио , видео , аналоговые данные , изображения, файлы и неструктурированный текст, такой как тело сообщения электронной почты , веб-страница или текстовый файл. документ процессора . Хотя основной передаваемый контент не имеет определенной структуры, он обычно упакован в объекты (например, в файлы или документы...), которые сами по себе имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все равно называемые «неструктурированные данные». ^[13] Например, веб-страница HTML имеет теги, но разметка HTML обычно служит исключительно для рендеринга. Он не отражает значение или функцию помеченных элементов способами, поддерживающими автоматическую обработку информационного содержимого страницы. Теги XHTML позволяют машинную обработку элементов, хотя обычно они не фиксируют и не передают семантическое значение тегированных терминов.

обычно встречаются неструктурированные данные Поскольку в электронных документах , использование контентом или системы управления документами , которая может категоризировать целые документы, часто предпочтительнее, чем передача данных и манипулирование ими изнутри документов. Управление документами, таким образом, предоставляет средства для передачи структуры коллекциям документов .

Поисковые системы стали популярными инструментами для индексирования и поиска таких данных, особенно текста.

к обработке естественного Подходы языка

Были разработаны специальные вычислительные рабочие процессы, позволяющие структурировать неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы обычно предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего, чем могут позволить ручные подходы к аннотированию. Некоторые из этих подходов основаны на концепции онлайн-аналитической обработки (OLAP ) и могут поддерживаться такими моделями данных, как текстовые кубы. ^[14] Как только метаданные документа станут доступны через модель данных, генерация сводок подмножеств документов (т. е. ячеек в текстовом кубе) может выполняться с использованием подходов, основанных на фразах. ^[15]

Подходы в медицине и биомедицинских исследованиях [ править ]

Биомедицинские исследования являются одним из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои результаты в научных журналах. Хотя из языка этих документов сложно извлечь структурные элементы (например, из-за сложного технического словаря, содержащегося в них, и знаний предметной области , необходимых для полной контекстуализации наблюдений), результаты этой деятельности могут привести к установлению связей между техническими и медицинскими исследованиями. ^[16] и подсказки относительно новых методов лечения заболеваний. ^[17] Недавние усилия по обеспечению структуры биомедицинских документов включают в себя подходы к самоорганизации карт для определения тем среди документов, ^[18] общего назначения неконтролируемые алгоритмы , ^[19] и применение рабочего процесса CaseOLAP ^[15] определить связи между названиями белков и темами сердечно-сосудистых заболеваний в литературе. ^[20] CaseOLAP определяет отношения фраза-категория точным (определяет отношения), последовательным (высоко воспроизводимым) и эффективным способом. Эта платформа обеспечивает расширенную доступность и расширяет возможности биомедицинского сообщества с помощью инструментов анализа фраз для широко распространенных приложений биомедицинских исследований. ^[20]

Использование слова «неструктурированный» в данных правилах конфиденциальности

В Швеции (ЕС) до 2018 года некоторые правила конфиденциальности данных не применялись, если рассматриваемые данные были подтверждены как «неструктурированные». ^[21] Эта терминология, неструктурированные данные, редко используется в ЕС после вступления в силу GDPR в 2018 году. GDPR не упоминает и не определяет «неструктурированные данные». Слово «структурированный» используется следующим образом (без его определения);

Части GDPR Recital 15: «Защита физических лиц должна распространяться на обработку персональных данных... если... они содержатся в файловой системе».
Статья 4 GDPR: «Файловая система означает любой структурированный набор персональных данных, доступ к которым осуществляется в соответствии с определенными критериями…»

Прецедентное право GDPR по определению «системы подачи документов»; «Конкретный критерий и конкретная форма, в которой фактически структурирован набор личных данных, собранных каждым из членов, занимающихся проповедью, не имеют значения, пока этот набор данных позволяет получить данные, относящиеся к конкретному человеку, который с которым связались, чтобы его можно было легко найти , что, однако, должен выяснить передающий суд с учетом всех обстоятельств дела в рамках основного разбирательства». ( СЕС , Тодистаят против Тиетосуоявалтуутетту, Иегован, параграф 61 ).

Если персональные данные легко получить, то это файловая система и - тогда они подпадают под действие GDPR, независимо от того, являются ли они «структурированными» или «неструктурированными». Большинство электронных систем сегодня, ^{[ на момент? ]} при наличии доступа и прикладного программного обеспечения может обеспечить легкий поиск данных.

См. также [ править ]

Примечания [ править ]

↑ Сегодняшняя задача правительства: что делать с неструктурированной информацией и почему ничего не делать — это не вариант, Ноэль Юханна, главный аналитик, Forrester Research , ноябрь 2010 г.

Ссылки [ править ]

^ Шилакс, Кристофер С.; Тилман, Джули (16 ноября 1998 г.). «Корпоративные информационные порталы» (PDF) . Меррилл Линч . Архивировано из оригинала (PDF) 24 июля 2011 года.
^ Граймс, Сет (1 августа 2008 г.). «Неструктурированные данные и правило 80 процентов» . Анализ прорыва — Точки моста . Кларабридж.
^ Гандоми, Амир; Хайдер, Муртаза (апрель 2015 г.). «За пределами шумихи: концепции, методы и аналитика больших данных» . Международный журнал информационного менеджмента . 35 (2): 137–144. дои : 10.1016/j.ijinfomgt.2014.10.007 . ISSN 0268-4012 .
^ «Самые большие проблемы с данными, о которых вы, возможно, даже не подозреваете, — Ватсон» . Ватсон . 25 мая 2016 г. Проверено 02 октября 2018 г.
^ «Структурированные и неструктурированные данные» . www.datamation.com . Проверено 02 октября 2018 г.
^ «Пресс-релиз EMC News: Новое исследование цифровой вселенной выявило большой пробел в данных: анализируется менее 1% мировых данных; защищено менее 20%» . www.emc.com . Корпорация ЕМС. Декабрь 2012.
^ «Тенденции | Seagate США» . Seagate.com . Проверено 1 октября 2018 г.
^ Jump up to: ^а ^б Граймс, Сет. «Краткая история текстовой аналитики» . Сеть глаз Б. Проверено 24 июня 2016 г.
^ Олбрайт, Расс. «Укрощение текста с помощью СВД» (PDF) . САС . Архивировано из оригинала (PDF) 30 сентября 2016 г. Проверено 24 июня 2016 г.
^ Десаи, Маниш (9 августа 2009 г.). «Приложения текстовой аналитики» . Моя бизнес-аналитика @ Blogspot . Проверено 24 июня 2016 г.
^ Чакраборти, Гаутам. «Анализ неструктурированных данных: применение текстовой аналитики и анализа тональности» (PDF) . САС . Проверено 24 июня 2016 г.
^ «Структура, модели и значение: являются ли «неструктурированные» данные просто немоделированными?» . Информационная неделя . 1 марта 2005 г.
^ Мэлоун, Роберт (5 апреля 2007 г.). «Структурирование неструктурированных данных» . Форбс .
^ Лин, Синди Сиде; Дин, Болин; Хан, Цзявэй; Чжу, Фейда; Чжао, Бо (декабрь 2008 г.). «Текстовый куб: вычисление IR-мер для анализа многомерной текстовой базы данных». 2008 г. Восьмая международная конференция IEEE по интеллектуальному анализу данных . IEEE. стр. 905–910. CiteSeerX 10.1.1.215.3177 . дои : 10.1109/icdm.2008.135 . ISBN 9780769535029 . S2CID 1522480 .
^ Jump up to: ^а ^б Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное фразовое суммирование в текстовых кубах» (PDF) .
^ Кольер, Найджел; Назаренко, Аделина; Бод, Роберт; Рух, Патрик (июнь 2006 г.). «Последние достижения в области обработки естественного языка для биомедицинских приложений». Международный журнал медицинской информатики . 75 (6): 413–417. doi : 10.1016/j.ijmedinf.2005.06.008 . ISSN 1386-5056 . ПМИД 16139564 . S2CID 31449783 .
^ Гонсалес, Грасиела Х.; Тахсин, Тасния; Гудейл, Бриттон К.; Грин, Анна С.; Грин, Кейси С. (январь 2016 г.). «Последние достижения и новые приложения в области анализа текста и данных для биомедицинских открытий» . Брифинги по биоинформатике . 17 (1): 33–42. дои : 10.1093/нагрудник/bbv087 . ISSN 1477-4054 . ПМЦ 4719073 . ПМИД 26420781 .
^ Скупин, Андре; Биберстайн, Джозеф Р.; Бёрнер, Кэти (2013). «Визуализация тематической структуры медицинских наук: подход к самоорганизующейся карте» . ПЛОС ОДИН . 8 (3): e58779. Бибкод : 2013PLoSO...858779S . дои : 10.1371/journal.pone.0058779 . ISSN 1932-6203 . ПМК 3595294 . ПМИД 23554924 .
^ Киела, Доуве; Го, Юфань; Стениус, Улла; Корхонен, Анна (01 апреля 2015 г.). «Неконтролируемое обнаружение информационной структуры в биомедицинских документах» . Биоинформатика . 31 (7): 1084–1092. doi : 10.1093/биоинформатика/btu758 . ISSN 1367-4811 . ПМИД 25411329 .
^ Jump up to: ^а ^б Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кофилд, Джон Х.; Ван, Вэй; Пинг, Пейбэй; Хан, Цзявэй (1 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. дои : 10.1152/ajpheart.00175.2018 . ISSN 1522-1539 . ПМК 6230912 . ПМИД 29775406 .
^ «Шведские правила конфиденциальности данных прекращают разделение на «неструктурированные» и «структурированные» » .

Внешние ссылки [ править ]

[1] Шилакс, Кристофер С.; Тилман, Джули (16 ноября 1998 г.). «Корпоративные информационные порталы» (PDF) . Меррилл Линч . Архивировано из оригинала (PDF) 24 июля 2011 года.

[Clarabridge-2] Граймс, Сет (1 августа 2008 г.). «Неструктурированные данные и правило 80 процентов» . Анализ прорыва — Точки моста . Кларабридж.

[3] Гандоми, Амир; Хайдер, Муртаза (апрель 2015 г.). «За пределами шумихи: концепции, методы и аналитика больших данных» . Международный журнал информационного менеджмента . 35 (2): 137–144. дои : 10.1016/j.ijinfomgt.2014.10.007 . ISSN 0268-4012 .

[4] «Самые большие проблемы с данными, о которых вы, возможно, даже не подозреваете, — Ватсон» . Ватсон . 25 мая 2016 г. Проверено 02 октября 2018 г.

[5] «Структурированные и неструктурированные данные» . www.datamation.com . Проверено 02 октября 2018 г.

[idc-6] «Пресс-релиз EMC News: Новое исследование цифровой вселенной выявило большой пробел в данных: анализируется менее 1% мировых данных; защищено менее 20%» . www.emc.com . Корпорация ЕМС. Декабрь 2012.

[7] «Тенденции | Seagate США» . Seagate.com . Проверено 1 октября 2018 г.

[History-8] Jump up to: ^а ^б Граймс, Сет. «Краткая история текстовой аналитики» . Сеть глаз Б. Проверено 24 июня 2016 г.

[SVD-9] Олбрайт, Расс. «Укрощение текста с помощью СВД» (PDF) . САС . Архивировано из оригинала (PDF) 30 сентября 2016 г. Проверено 24 июня 2016 г.

[Applications-10] Десаи, Маниш (9 августа 2009 г.). «Приложения текстовой аналитики» . Моя бизнес-аналитика @ Blogspot . Проверено 24 июня 2016 г.

[11] Чакраборти, Гаутам. «Анализ неструктурированных данных: применение текстовой аналитики и анализа тональности» (PDF) . САС . Проверено 24 июня 2016 г.

[IntelligentEnterprise-12] «Структура, модели и значение: являются ли «неструктурированные» данные просто немоделированными?» . Информационная неделя . 1 марта 2005 г.

[13] Мэлоун, Роберт (5 апреля 2007 г.). «Структурирование неструктурированных данных» . Форбс .

[14] Лин, Синди Сиде; Дин, Болин; Хан, Цзявэй; Чжу, Фейда; Чжао, Бо (декабрь 2008 г.). «Текстовый куб: вычисление IR-мер для анализа многомерной текстовой базы данных». 2008 г. Восьмая международная конференция IEEE по интеллектуальному анализу данных . IEEE. стр. 905–910. CiteSeerX 10.1.1.215.3177 . дои : 10.1109/icdm.2008.135 . ISBN 9780769535029 . S2CID 1522480 .

[textcubes-15] Jump up to: ^а ^б Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное фразовое суммирование в текстовых кубах» (PDF) .

[16] Кольер, Найджел; Назаренко, Аделина; Бод, Роберт; Рух, Патрик (июнь 2006 г.). «Последние достижения в области обработки естественного языка для биомедицинских приложений». Международный журнал медицинской информатики . 75 (6): 413–417. doi : 10.1016/j.ijmedinf.2005.06.008 . ISSN 1386-5056 . ПМИД 16139564 . S2CID 31449783 .

[17] Гонсалес, Грасиела Х.; Тахсин, Тасния; Гудейл, Бриттон К.; Грин, Анна С.; Грин, Кейси С. (январь 2016 г.). «Последние достижения и новые приложения в области анализа текста и данных для биомедицинских открытий» . Брифинги по биоинформатике . 17 (1): 33–42. дои : 10.1093/нагрудник/bbv087 . ISSN 1477-4054 . ПМЦ 4719073 . ПМИД 26420781 .

[18] Скупин, Андре; Биберстайн, Джозеф Р.; Бёрнер, Кэти (2013). «Визуализация тематической структуры медицинских наук: подход к самоорганизующейся карте» . ПЛОС ОДИН . 8 (3): e58779. Бибкод : 2013PLoSO...858779S . дои : 10.1371/journal.pone.0058779 . ISSN 1932-6203 . ПМК 3595294 . ПМИД 23554924 .

[19] Киела, Доуве; Го, Юфань; Стениус, Улла; Корхонен, Анна (01 апреля 2015 г.). «Неконтролируемое обнаружение информационной структуры в биомедицинских документах» . Биоинформатика . 31 (7): 1084–1092. doi : 10.1093/биоинформатика/btu758 . ISSN 1367-4811 . ПМИД 25411329 .

[caseolapCV-20] Jump up to: ^а ^б Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кофилд, Джон Х.; Ван, Вэй; Пинг, Пейбэй; Хан, Цзявэй (1 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. дои : 10.1152/ajpheart.00175.2018 . ISSN 1522-1539 . ПМК 6230912 . ПМИД 29775406 .

[21] «Шведские правила конфиденциальности данных прекращают разделение на «неструктурированные» и «структурированные» » .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]