Распространение данных
Распространение данных относится к огромному количеству данных , структурированных и неструктурированных, которые предприятия и правительства продолжают генерировать с беспрецедентной скоростью, а также к проблемам с удобством использования , возникающим в результате попыток хранить эти данные и управлять ими. Хотя первоначально это относилось к проблемам, связанным с бумажной документацией , распространение данных стало серьезной проблемой при хранении первичных и вторичных данных на компьютерах.
Хотя цифровые хранилища стали дешевле, связанные с этим затраты — от электроэнергии до обслуживания и от метаданных до поисковых систем — не поспевают за распространением данных. Хотя мощность, необходимая для хранения единицы данных, снизилась, стоимость объектов, в которых размещено цифровое хранилище, имеет тенденцию к росту. [1]
На самом простом уровне системы электронной почты компаний порождают большие объемы данных. Деловая электронная почта – некоторые из них важны для предприятия, некоторые – гораздо менее – по оценкам, растет со скоростью 25-30% в год. И независимо от того, актуально это или нет, нагрузка на систему увеличивается из-за таких методов, как множественная адресация и вложение больших текстовых, аудио- и даже видеофайлов .
— Глобальные технологические услуги IBM [2]
Распространение данных было зарегистрировано как проблема для вооруженных сил США с августа 1971 года, в частности, в отношении чрезмерного количества документации, представляемой при приобретении основных систем вооружения. [3] Усилия по смягчению последствий распространения данных и связанных с ним проблем продолжаются. [4]
Вызванные проблемы [ править ]
Проблема распространения данных затрагивает все сферы коммерции в результате доступности относительно недорогих устройств хранения данных. Это упростило выгрузку данных во вторичное хранилище сразу после того, как окно их пригодности прошло. За этим скрывается проблема, которая может серьезно повлиять на прибыльность бизнеса и эффективное функционирование служб здравоохранения, полиции и сил безопасности, местных и национальных органов власти и многих других типов организаций. [2] Распространение данных проблематично по нескольким причинам:
- Трудности при попытке найти и получить информацию. В Xerox сотрудникам в среднем требуется более одного часа в неделю на поиск бумажных документов, а управление ими и их хранение обходятся в 2152 доллара в год. Для предприятий с более чем 10 сотрудниками эта цифра увеличивается почти до двух часов в неделю при цене 5760 долларов в год. [5] В крупных сетях хранения первичных и вторичных данных проблемы поиска электронных данных аналогичны проблемам поиска данных на бумажных носителях.
- Потеря данных и юридическая ответственность, когда данные неорганизованы, не реплицированы должным образом или не могут быть быстро найдены. В апреле 2005 года холдинговая корпорация Ameritrade сообщила 200 000 нынешним и бывшим клиентам, что лента , содержащая конфиденциальную информацию, была утеряна или уничтожена при транспортировке. В мае того же года Time Warner Incorporated сообщила, что 40 пленок с личными данными 600 000 нынешних и бывших сотрудников были потеряны по пути в хранилище. В марте 2005 года судья Флориды, рассматривавший иск против Morgan Stanley на сумму 2,7 миллиарда долларов, издал « неблагоприятный приказ» против компании за «умышленное и грубое злоупотребление своими обязательствами по раскрытию информации». Судья процитировал Morgan Stanley за то, что он неоднократно находил неуместные записи электронных писем спустя долгое время после того, как компания заявила, что передала все такие записи в суд. [6]
- Повышенные требования к рабочей силе для управления все более хаотичными ресурсами хранения данных.
- Замедление работы сетей и приложений из-за избыточного трафика, когда пользователи снова и снова ищут нужный им материал. [2]
- Высокая стоимость энергетических ресурсов, необходимых для работы оборудования хранения данных. Эксплуатация системы емкостью 100 терабайт будет стоить до 35 040 долларов в год, не считая затрат на охлаждение. [7]
Предлагаемые решения [ править ]
- Приложения, которые лучше используют современные технологии
- Сокращение количества дублирующихся данных (особенно вызванных перемещением данных)
- Улучшение метаданных структур
- Улучшение структур передачи файлов и хранилищ.
- Обучение и дисциплина пользователей [3]
- Внедрение решений по управлению жизненным циклом информации для как можно более раннего устранения малоценной информации перед помещением остальной части в активно управляемое долговременное хранилище, где к ней можно получить быстрый и дешевый доступ. [2]
См. также [ править ]
- Резервное копирование
- Управление цифровыми активами
- Дисковое хранилище
- Система управления документами
- Иерархическое управление хранилищем
- Управление жизненным циклом информации
- Информационный репозиторий
- Хранение данных на магнитной ленте
- График хранения
Ссылки [ править ]
- ^ «Сокращение цифрового чердака» . Прогнозы Deloitte Technology . Архивировано из оригинала 22 июля 2011 года.
- ↑ Перейти обратно: Перейти обратно: а б с д «Токсичный терабайт», IBM Global Technology Services, июль 2006 г.
- ↑ Перейти обратно: Перейти обратно: а б «Эволюция проблемы распространения данных в рамках крупных программ комплектования ВВС» . Архивировано из оригинала 9 октября 2007 г. Проверено 9 октября 2007 г.
- ^ Распространение данных: остановите это
- ^ «Борьба с распространением данных»; Вон Химмельсбах. it business.ca: Canadian Technology News, 19 сентября 2006 г.
- ^ «Данные: потеряны, украдены или заблудились», Компьютерный мир, Безопасность
- ^ «Электропитание и хранилище: скрытая стоимость владения», Computer Technology Review, октябрь 2003 г.