Темные данные
Темные данные — это данные , которые собираются посредством различных операций в компьютерных сетях , но не используются каким-либо образом для получения информации или принятия решений . [1] [2] Способность организации собирать данные может превышать пропускную способность , с которой она может анализировать данные . В некоторых случаях организация может даже не знать, что данные собираются. [3] По оценкам IBM , примерно 90 процентов данных, генерируемых датчиками и аналого-цифровыми преобразованиями, никогда не используются. [4]
В промышленном контексте «темные данные» могут включать информацию, собранную датчиками и телематикой . [5]
Организации хранят «темные» данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1% своих данных. [6] Часто его хранят для соблюдения нормативных требований. [7] и ведение учета. [1] Некоторые организации полагают, что скрытые данные могут быть им полезны в будущем, как только они приобретут более совершенные технологии аналитики и бизнес-аналитики для обработки информации. [3] Поскольку хранение стоит недорого, хранить данные легко. Однако хранение и защита данных обычно влечет за собой большие затраты (или даже риск), чем потенциальная прибыль. [1]
В академическом дискурсе термин «темные данные» по сути был придуман Брайаном П. Хейдорном. Он использует его для описания данных исследований, особенно из «длинного хвоста» науки (множества небольших исследовательских проектов), которые недоступны или больше не доступны для исследований, потому что они исчезают в ящике без надлежащего управления данными. [8] Без этого данные становятся темными, и другими причинами этого могут быть, например, отсутствие аннотаций метаданных, отсутствие планов управления данными и кураторов данных. [9]
Анализ
[ редактировать ]Термин «темные данные» очень часто относится к данным, которые не поддаются компьютерной обработке. Например, компания может иметь большой объем данных, которые существуют только в виде отсканированных изображений страниц. Даже простой текст в таких документах недоступен без чего-то вроде оптического распознавания символов , точность которого может сильно различаться. Даже при использовании OCR значимость каждой части данных недоступна. Очевидный пример: является ли слово, написанное с заглавной буквы, именем или нет, и если да, то представляет ли оно человека, место, организацию или даже произведение искусства. Библиографические и другие ссылки, данные в таблицах (которые могут быть помечены вполне адекватно для людей, но не для обработки) и бесчисленные утверждения, представленные со всей сложностью и двусмысленностью человеческого языка.
Множество неиспользованных данных очень ценны и были бы использованы, если бы это было возможно ; но блокируется, поскольку имеет форматы, которые трудно обрабатывать, классифицировать, идентифицировать и анализировать. Часто причина, по которой бизнес не использует свои темные данные, заключается в количестве ресурсов, которые для этого потребуются, и сложности анализа этих данных. Другими словами, данные являются «темными» не потому, что они не используются, а потому, что их невозможно (осуществимо или по средствам) использовать из-за их плохой репрезентативности.
Существует множество представлений данных, которые могут сделать данные более доступными для автоматизации. Однако в большом объеме информации отсутствует такая идентификация информационных элементов или связей; и многое другое теряет его во время «нисходящего» преобразования, например, при сохранении в страничном представлении, печати, сканировании или отправке по факсу. Обратный путь «в гору» может оказаться дорогостоящим.
По данным Computer Weekly , 60% организаций считают, что их собственные возможности создания отчетов по бизнес-аналитике «неадекватны», а 65% говорят, что у них «несколько дезорганизованные подходы к управлению контентом». [10]
Актуальность
[ редактировать ]Полезные данные могут стать темными данными после того, как станут неактуальными, поскольку они не обрабатываются достаточно быстро. В «живых текущих данных» это называется «скоропортящимися знаниями». Например, если компании известно геолокация клиента, компания может сделать предложение на основе местоположения, однако, если эти данные не будут обработаны немедленно, они могут оказаться неактуальными в будущем. По данным IBM, около 60 процентов данных сразу теряют свою ценность. [4]
Хранилище
[ редактировать ]По данным New York Times , 90% энергии, используемой дата-центрами, тратится впустую. [11] Если бы данные не хранились, затраты на электроэнергию можно было бы сэкономить. Кроме того, существуют издержки, связанные с недостаточным использованием информации и, следовательно, упущенными возможностями. По данным Datamation, «среды хранения организаций в регионе EMEA на 54 процента состоят из скрытых данных, на 32 процента — из избыточных, устаревших и тривиальных данных и на 14 процентов — критически важных для бизнеса данных. К 2020 году это может привести к увеличению расходов на хранение и управление до 891 миллиарда долларов, что иначе можно избежать». [12]
Постоянное хранение скрытых данных может подвергнуть организацию риску, особенно если эти данные конфиденциальны. В случае нарушения это может привести к серьезным последствиям. Они могут быть финансовыми, юридическими и могут серьезно повредить репутации организации. Например, нарушение личных записей клиентов может привести к краже конфиденциальной информации, что может привести к краже личных данных . Другим примером может быть нарушение конфиденциальной информации компании, например, касающейся исследований и разработок . Эти риски можно снизить путем оценки и проверки того, полезны ли эти данные для организации, используя надежное шифрование и безопасность. [13] и, наконец, если решено отбросить его, то его следует отбросить таким образом, чтобы он стал невозвратным. [14]
Будущее
[ редактировать ]Обычно считается, что по мере создания более совершенных вычислительных систем для анализа данных ценность темных данных будет выше. Отмечалось, что «данные и аналитика станут основой современной промышленной революции». [5] Конечно, сюда входят данные, которые в настоящее время считаются «темными данными», поскольку для их обработки недостаточно ресурсов. Все эти данные, которые собираются, могут быть использованы в будущем для обеспечения максимальной производительности и способности организаций удовлетворять потребительский спрос. Технологические достижения помогают использовать эти темные данные по доступным ценам. Кроме того, многие организации сейчас не осознают ценность «темных данных», например, в организациях здравоохранения и образования имеют дело с большими объемами данных, которые могут создать значительный «потенциал для обслуживания студентов и пациентов так же, как потребительские и финансовые услуги». преследовать свою целевую аудиторию». [15]
Ссылки
[ редактировать ]- ^ Jump up to: а б с «Тёмные данные» . Гартнер .
- ^ Титтель, Эд (24 сентября 2014 г.). «Опасности темных данных и как минимизировать их воздействие» . ИТ-директор . Архивировано из оригинала 15 января 2019 года . Проверено 15 сентября 2015 г.
- ^ Jump up to: а б Брантли, Билл (17 июня 2015 г.). «Брифинг API: проблема правительственных темных данных» . Digitalgov.gov .
- ^ Jump up to: а б Джонсон, Хизер (30 октября 2015 г.). «Извлечение скрытых данных: что ставит IBM в авангарде экономики знаний» . КремниевыйУГОЛ . Проверено 3 ноября 2015 г.
- ^ Jump up to: а б Деннис, Пол (19 февраля 2015 г.). «TeradataVoice: Фабрики будущего: ценность темных данных» . Форбс . Архивировано из оригинала 22 февраля 2015 г.
- ^ Шахзад, М. Ахмад (3 января 2017 г.). «Проблема трансформации больших данных в обрабатывающей промышленности» . Центр больших данных и аналитики IBM .
- ^ «Эффективно ли вы используете свои темные данные? » Архивировано из оригинала 16 января 2017 г. Проверено 12 января 2017 г.
- ^ Хайдорн, П. Брайан. «Проливаем свет на темные данные в длинном хвосте науки». Библиотечные тенденции 57.2 (2008): 280–299.
- ^ Шембера, Б., Дуран, Дж. М. Темные данные как новый вызов для науки о больших данных и введение должности специалиста по научным данным. Филос. Технол. 33, 93–115 (2020). https://doi.org/10.1007/s13347-019-00346-x
- ^ Майлз, Дуг (27 декабря 2013 г.). «Темные данные могут остановить путь больших данных к успеху» . Компьютереженедельник . Проверено 3 ноября 2015 г.
- ^ Гланц, Джеймс (22 сентября 2012 г.). «Центры обработки данных тратят огромное количество энергии, подрывая имидж отрасли» . Нью-Йорк Таймс . Проверено 2 ноября 2015 г.
- ^ Эрнандес, Педро (30 октября 2015 г.). «Предприятия копят «темные» данные: Veritas» . Датаматизация . Проверено 4 ноября 2015 г.
- ^ «DarkShield использует машинное обучение для поиска и маскировки личных данных» . ИРИ . Проверено 14 января 2019 г.
- ^ Титтель, Эд (24 сентября 2014 г.). «Опасности темных данных и как минимизировать их воздействие» . ИТ-директор . Архивировано из оригинала 15 января 2019 г. Проверено 2 ноября 2015 г.
- ^ Прага, Кристалл (30 сентября 2014 г.). «Использование темных данных: вопросы и ответы с Мелиссой МакКормак» . Время машинного обучения . Проверено 4 ноября 2015 г.