~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 88BEAB6626DB0FF4FF9D71607279BC6F__1718170380 ✰
Заголовок документа оригинал.:
✰ Big data - Wikipedia ✰
Заголовок документа перевод.:
✰ Большие данные — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Big_data ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/88/6f/88beab6626db0ff4ff9d71607279bc6f.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/88/6f/88beab6626db0ff4ff9d71607279bc6f__translat.html ✰
Дата и время сохранения документа:
✰ 18.06.2024 14:09:09 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 12 June 2024, at 08:33 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Большие данные — Википедия Jump to content

Большие данные

Из Википедии, бесплатной энциклопедии

Нелинейный рост глобальной емкости цифрового хранения информации и сокращение аналогового хранилища [1] [ нужно обновить ]

Большие данные в первую очередь относятся к наборам данных , которые слишком велики или сложны, чтобы их можно было обработать с помощью традиционного для обработки данных прикладного программного обеспечения . Данные с большим количеством записей (строк) обеспечивают большую статистическую мощность , тогда как данные с более высокой сложностью (больше атрибутов или столбцов) могут привести к более высокому уровню ложного обнаружения . [2] Несмотря на то, что термин иногда используется небрежно, отчасти из-за отсутствия формального определения, лучшая интерпретация состоит в том, что это большой объем информации, который невозможно понять, если использовать его только в небольших количествах. [3]

Задачи анализа больших данных включают сбор данных , хранение данных , анализ данных , поиск, совместное использование , передачу , визуализацию , запросы , обновление, конфиденциальность информации и источник данных. Первоначально большие данные ассоциировались с тремя ключевыми понятиями: объем , разнообразие и скорость . [4] При анализе больших данных возникают проблемы с выборкой, поэтому раньше можно было использовать только наблюдения и выборку. Таким образом, четвертое понятие, достоверность, относится к качеству или полноте данных. Без достаточных инвестиций в экспертные знания, обеспечивающие достоверность больших данных, объем и разнообразие данных могут привести к затратам и рискам, которые превышают возможности организации по созданию и извлечению ценности из больших данных . [5]

Текущее использование термина «большие данные» , как правило, относится к использованию прогнозной аналитики , анализа поведения пользователей или некоторых других передовых методов анализа данных, которые извлекают ценность из больших данных и редко из набора данных определенного размера. «Нет никаких сомнений в том, что объемы доступных сейчас данных действительно велики, но это не самая важная характеристика этой новой экосистемы данных». [6] Анализ наборов данных может найти новые корреляции для «выявления бизнес-тенденций, предотвращения заболеваний, борьбы с преступностью и так далее». [7] Ученые, руководители предприятий, практикующие врачи, рекламщики и правительства регулярно сталкиваются с трудностями при работе с большими наборами данных в таких областях, как поиск в Интернете , финансовые технологии , медицинская аналитика, географические информационные системы, городская информатика и бизнес-информатика . Ученые сталкиваются с ограничениями в работе в области электронных наук , включая метеорологию , геномику , [8] коннектомика , сложное физическое моделирование, биология и исследования окружающей среды. [9]

Размер и количество доступных наборов данных быстро растут, поскольку данные собираются с помощью таких устройств, как мобильные устройства , дешевые и многочисленные устройства Интернета вещей , считывающие информацию , воздушное оборудование ( дистанционного зондирования ), журналы программного обеспечения, камеры , микрофоны, радиочастоты. считыватели идентификации (RFID) и беспроводные сенсорные сети . [10] [11] С 1980-х годов мировая технологическая способность хранить информацию на душу населения примерно удваивалась каждые 40 месяцев; [12] по состоянию на 2012 год , каждый день 2,5 экзабайта (2,17×2 60 байт) данных. [13] Согласно прогнозу отчета IDC , глобальный объем данных будет расти экспоненциально с 4,4 зеттабайта до 44 зеттабайт в период с 2013 по 2020 год. По прогнозам IDC, к 2025 году объем данных составит 163 зеттабайта. [14] По данным IDC, глобальные расходы на решения для больших данных и бизнес-аналитики (BDA) в 2021 году достигнут $215,7 млрд. [15] [16] По данным Statista , к 2027 году мировой рынок больших данных вырастет до 103 миллиардов долларов. [17] В 2011 году компания McKinsey & Company сообщила, что если бы здравоохранение США творчески и эффективно использовало большие данные для повышения эффективности и качества, этот сектор мог бы приносить более 300 миллиардов долларов прибыли каждый год. [18] В развитых странах Европы государственные администраторы могли бы сэкономить более 100 миллиардов евро (149 миллиардов долларов США) только на повышении операционной эффективности за счет использования больших данных. [18] А пользователи услуг, основанных на данных о личном местоположении, могут получить потребительский излишек в размере 600 миллиардов долларов. [18] Одним из вопросов для крупных предприятий является определение того, кому следует принадлежать инициативы в области больших данных, которые влияют на всю организацию. [19]

Системы управления реляционными базами данных и пакеты настольного статистического программного обеспечения, используемые для визуализации данных, часто сталкиваются с трудностями при обработке и анализе больших данных. Обработка и анализ больших данных может потребовать «массово параллельного программного обеспечения, работающего на десятках, сотнях или даже тысячах серверов». [20] То, что квалифицируется как «большие данные», варьируется в зависимости от возможностей тех, кто их анализирует, и их инструментов. Более того, расширяющиеся возможности делают большие данные движущейся целью. столкнувшихся с сотнями гигабайт данных, может возникнуть необходимость пересмотреть варианты управления данными. Для других могут пройти десятки или сотни терабайт, прежде чем размер данных станет значимым фактором». «Для некоторых организаций, впервые [21]

Определение [ править ]

Термин «большие данные» используется с 1990-х годов, причем некоторые отдают должное Джону Мэши за популяризацию этого термина. [22] [23] Большие данные обычно включают в себя наборы данных, размер которых превышает возможности широко используемых программных инструментов для сбора , хранения , управления и обработки данных в течение приемлемого прошедшего времени. [24] [ нужна страница ] Философия больших данных включает в себя неструктурированные, полуструктурированные и структурированные данные; однако основное внимание уделяется неструктурированным данным. [25] «Размер» больших данных — это постоянно меняющаяся цель; по состоянию на 2012 год от нескольких десятков терабайт до многих зеттабайт данных. [26] Большие данные требуют набора методов и технологий с новыми формами интеграции , позволяющими получать ценную информацию из наборов данных , которые разнообразны, сложны и имеют огромные масштабы. [27]

Некоторые организации добавляют к нему слова «разнообразие», «правдивость» и различные другие «против», и эта редакция оспаривается некоторыми отраслевыми властями. [28] Против больших данных часто называют «три против», «четыре против» и «пять против». Они отражали качества больших данных по объему, разнообразию, скорости, достоверности и ценности. [4] Вариативность часто рассматривается как дополнительное качество больших данных.

В определении 2018 года говорится: «Большие данные — это то место, где для обработки данных необходимы инструменты параллельных вычислений », и отмечается: «Это представляет собой отчетливое и четко определенное изменение в используемой информатике за счет теорий параллельного программирования и потери некоторых гарантий и возможности, созданные реляционной моделью Кодда ». [29]

В сравнительном исследовании больших наборов данных Китчин и МакАрдл обнаружили, что ни одна из обычно рассматриваемых характеристик больших данных не проявляется последовательно во всех проанализированных случаях. [30] По этой причине другие исследования определили переопределение динамики власти в открытии знаний как определяющую черту. [31] Вместо того, чтобы сосредотачиваться на внутренних характеристиках больших данных, эта альтернативная точка зрения продвигает реляционное понимание объекта, утверждая, что важно то, каким образом данные собираются, хранятся, становятся доступными и анализируются.

Большие данные против аналитики бизнес -

Растущая зрелость концепции более четко очерчивает разницу между «большими данными» и « бизнес-аналитикой »: [32]

  • Бизнес-аналитика использует инструменты прикладной математики и описательную статистику с данными с высокой плотностью информации для измерения показателей, выявления тенденций и т. д.
  • Большие данные используют математический анализ, оптимизацию, индуктивную статистику и концепции идентификации нелинейных систем. [33] выводить законы (регрессии, нелинейные связи и причинно-следственные связи) на основе больших наборов данных с низкой плотностью информации. [34] для выявления взаимосвязей и зависимостей или для прогнозирования результатов и поведения. [33] [35] [ рекламный источник? ]

Характеристики [ править ]

На этом изображении показан рост основных характеристик больших данных: объема, скорости и разнообразия.

Большие данные можно описать следующими характеристиками:

Объем
Количество сгенерированных и сохраненных данных. Размер данных определяет ценность и потенциальную ценность, а также то, можно ли их считать большими данными или нет. Размер больших данных обычно превышает терабайты и петабайты. [36]
Разнообразие
Тип и характер данных. Более ранние технологии, такие как СУБД, были способны эффективно и результативно обрабатывать структурированные данные. Однако изменение типа и характера от структурированного к полуструктурированному или неструктурированному бросило вызов существующим инструментам и технологиям. Технологии больших данных развивались с основной целью сбора, хранения и обработки полуструктурированных и неструктурированных (разнообразных) данных, генерируемых с высокой скоростью (скоростью) и огромными по размеру (объему). Позже эти инструменты и технологии были изучены и использованы для обработки структурированных данных, но предпочтительно для хранения. В конце концов, обработка структурированных данных по-прежнему оставалась необязательной: либо с использованием больших данных, либо с использованием традиционных СУБД. Это помогает анализировать данные для эффективного использования скрытой информации, полученной из данных, собранных через социальные сети, файлы журналов, датчики и т. д. Большие данные извлекаются из текста, изображений, аудио, видео; плюс он дополняет недостающие части посредством объединения данных .
Скорость
Скорость, с которой данные генерируются и обрабатываются для удовлетворения потребностей и задач, стоящих на пути роста и развития. Большие данные часто доступны в режиме реального времени. По сравнению с небольшими данными , большие данные создаются более непрерывно. Два типа скорости, связанные с большими данными, — это частота генерации и частота обработки, записи и публикации. [37]
Правдивость
Правдивость или надежность данных, которая относится к качеству и ценности данных. [38] Большие данные должны быть не только большими по размеру, но и надежными, чтобы их анализ мог принести пользу. Качество собранных данных может сильно различаться, что влияет на точность анализа. [39]
Ценить
Ценность информации, которую можно получить путем обработки и анализа больших наборов данных. Ценность также можно измерить путем оценки других качеств больших данных. [40] Ценность также может отражать прибыльность информации, полученной в результате анализа больших данных.
Вариативность
Характеристика меняющихся форматов, структуры или источников больших данных. Большие данные могут включать структурированные, неструктурированные данные или комбинации структурированных и неструктурированных данных. Анализ больших данных может объединять необработанные данные из нескольких источников. Обработка необработанных данных может также включать преобразование неструктурированных данных в структурированные.

Другими возможными характеристиками больших данных являются: [41]

исчерпывающий
Будет ли вся система (т. е. =все) захватывается или записывается или нет. Большие данные могут включать или не включать все доступные данные из источников.
Детализированный и уникальный лексический состав
Соответственно, доля конкретных данных каждого элемента на каждый собранный элемент, а также правильность индексации или идентификации элемента и его характеристик.
Реляционный
Если собранные данные содержат общие поля, которые позволят объединить или метаанализировать различные наборы данных.
Экстенсиональный
Если новые поля в каждом элементе собранных данных могут быть легко добавлены или изменены.
Масштабируемость
Если размер системы хранения больших данных может быстро расширяться.

Архитектура [ править ]

Репозитории больших данных существовали во многих формах и часто создавались корпорациями с особыми потребностями. Коммерческие поставщики исторически предлагали параллельные системы управления базами данных для больших данных, начиная с 1990-х годов. В течение многих лет WinterCorp публиковала самый крупный отчет по базе данных. [42] [ рекламный источник? ]

Корпорация Teradata в 1984 году выпустила на рынок систему параллельной обработки DBC 1012 . Системы Teradata были первыми, кто смог хранить и анализировать 1 терабайт данных в 1992 году. В 1991 году жесткие диски имели емкость 2,5 ГБ, поэтому определение больших данных постоянно развивается. Teradata установила первую систему на базе СУБД петабайтного класса в 2007 году. По состоянию на 2017 год Установлено несколько десятков реляционных баз данных Teradata петабайтного класса, размер крупнейшей из которых превышает 50 ПБ. Системы до 2008 года представляли собой 100% структурированные реляционные данные. С тех пор Teradata добавила неструктурированные типы данных, включая XML , JSON и Avro.

В 2000 году компания Seisint Inc. (теперь LexisNexis Risk Solutions ) разработала основанную на C++ распределенную платформу для обработки данных и выполнения запросов, известную как платформа HPCC Systems . Эта система автоматически разделяет, распределяет, хранит и доставляет структурированные, полуструктурированные и неструктурированные данные на несколько стандартных серверов. Пользователи могут писать конвейеры обработки данных и запросы на декларативном языке программирования потоков данных, называемом ECL. Аналитикам данных, работающим в ECL, не требуется заранее определять схемы данных, они могут сосредоточиться на конкретной проблеме, изменяя данные наилучшим образом по мере разработки решения. В 2004 году LexisNexis приобрела Seisint Inc. [43] и их высокоскоростную платформу параллельной обработки и успешно использовали эту платформу для интеграции систем данных Choicepoint Inc., когда они приобрели эту компанию в 2008 году. [44] В 2011 году системная платформа HPCC была открыта под лицензией Apache v2.0.

ЦЕРН и другие физические эксперименты собирали большие наборы данных в течение многих десятилетий, обычно анализируя их с помощью высокопроизводительных вычислений, а не с помощью архитектур сокращения карт, обычно подразумеваемых нынешним движением «больших данных».

В 2004 году Google опубликовал статью о процессе MapReduce , использующем аналогичную архитектуру. Концепция MapReduce предоставляет модель параллельной обработки, и была выпущена соответствующая реализация для обработки огромных объемов данных. С помощью MapReduce запросы разбиваются, распределяются по параллельным узлам и обрабатываются параллельно (шаг «карта»). Затем результаты собираются и доставляются (этап «сокращение»). Рамочная программа оказалась очень успешной, [45] поэтому другие захотели повторить алгоритм. Поэтому реализация платформы MapReduce была принята проектом Apache с открытым исходным кодом под названием Hadoop . [46] Apache Spark был разработан в 2012 году в ответ на ограничения парадигмы MapReduce, поскольку он добавляет обработку в памяти и возможность настройки множества операций (а не только сопоставления с последующим сокращением).

MIKE2.0 — это открытый подход к управлению информацией, который признает необходимость внесения изменений в связи с последствиями для больших данных, указанными в статье под названием «Предложение решений для больших данных». [47] Методология рассматривает обработку больших данных с точки зрения полезных перестановок источников данных, сложности взаимосвязей и трудностей удаления (или изменения) отдельных записей. [48]

Исследования 2012 года показали, что многоуровневая архитектура является одним из вариантов решения проблем, связанных с большими данными. Распределенная параллельная архитектура распределяет данные по нескольким серверам; эти среды параллельного выполнения могут значительно повысить скорость обработки данных. Этот тип архитектуры вставляет данные в параллельную СУБД, которая реализует использование фреймворков MapReduce и Hadoop. Этот тип инфраструктуры призван сделать вычислительную мощность прозрачной для конечного пользователя за счет использования интерфейсного сервера приложений. [49]

Озеро данных позволяет организации переключить свое внимание с централизованного управления на общую модель, чтобы реагировать на меняющуюся динамику управления информацией. Это позволяет быстро разделить данные в озере данных, тем самым сокращая накладные расходы. [50] [51]

Технологии [ править ]

за 2011 год В отчете Глобального института McKinsey основные компоненты и экосистема больших данных характеризуются следующим образом: [52]

Многомерные большие данные также можно представить в виде кубов данных OLAP или, математически, тензоров . Системы баз данных с массивами призваны обеспечить хранение и поддержку запросов высокого уровня для этого типа данных. Дополнительные технологии, применяемые к большим данным, включают эффективные тензорные вычисления, [53] такие как мультилинейное обучение подпространству , [54] базы данных с массовой параллельной обработкой ( MPP ), приложения для поиска , интеллектуальный анализ данных , [55] распределенные файловые системы , распределенный кэш (например, пакетный буфер и Memcached ), распределенные базы данных , облачная инфраструктура и инфраструктура на базе HPC (приложения, хранилища и вычислительные ресурсы), [56] и Интернет. [ нужна цитата ] Несмотря на то, что было разработано множество подходов и технологий, осуществлять машинное обучение с большими данными по-прежнему сложно. [57]

Некоторые реляционные базы данных MPP могут хранить петабайты данных и управлять ими. Неявной является возможность загрузки, мониторинга, резервного копирования и оптимизации использования больших таблиц данных в СУБД . [58] [ рекламный источник? ]

DARPA Программа топологического анализа данных направлена ​​на изучение фундаментальной структуры огромных наборов данных, и в 2008 году эта технология стала достоянием общественности с запуском компании под названием «Ayasdi». [59] [ нужен сторонний источник ]

Специалисты по аналитике больших данных, как правило, враждебно относятся к более медленному общему хранилищу. [60] отдавая предпочтение хранилищам с прямым подключением ( DAS ) в различных формах: от твердотельных накопителей ( SSD большой емкости ) до дисков SATA , скрытых внутри узлов параллельной обработки. Архитектуры общего хранения данных — сеть хранения данных (SAN) и сетевое хранилище (NAS) — воспринимаются как относительно медленные, сложные и дорогие. Эти качества несовместимы с системами анализа больших данных, которые преуспевают за счет производительности системы, стандартной инфраструктуры и низкой стоимости.

Доставка информации в реальном или близком к реальному времени является одной из определяющих характеристик анализа больших данных. Поэтому задержки избегаются всегда и везде, где это возможно. Данные в памяти или на диске с прямым подключением — в порядке, а данные в памяти или на диске на другом конце соединения FC SAN — нет. Стоимость SAN в масштабе, необходимом для аналитических приложений, намного выше, чем у других методов хранения.

Приложения [ править ]

Автобус с большими данными SAP припаркован возле IDF13

Большие данные настолько увеличили спрос на специалистов по управлению информацией, что Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP и Dell потратили более 15 миллиардов долларов на компании-разработчики программного обеспечения, специализирующиеся на управлении данными и аналитике. В 2010 году эта отрасль стоила более 100 миллиардов долларов и росла почти на 10 процентов в год, что примерно в два раза быстрее, чем бизнес программного обеспечения в целом. [7]

Развитые страны все чаще используют технологии, требующие больших объемов данных. Во всем мире насчитывается 4,6 миллиарда абонентов мобильных телефонов, а доступ к Интернету имеют от 1 до 2 миллиардов человек. [7] В период с 1990 по 2005 год более 1 миллиарда человек во всем мире вошли в средний класс, а это означает, что больше людей стали более грамотными, что, в свою очередь, привело к информационному росту. Эффективная емкость мира для обмена информацией через телекоммуникационные сети составляла 281 петабайт в 1986 году, 471 петабайт в 1993 году, 2,2 эксабайта в 2000 году, 65 эксабайт в 2007 году. [12] По прогнозам, к 2014 году объем интернет-трафика составит 667 эксабайт в год. [7] По одной из оценок, треть глобально хранящейся информации находится в форме буквенно-цифрового текста и данных неподвижных изображений. [61] этот формат наиболее полезен для большинства приложений, работающих с большими данными. Это также показывает потенциал еще неиспользованных данных (т.е. в виде видео- и аудиоконтента).

В то время как многие вендоры предлагают готовые продукты для больших данных, эксперты поощряют разработку собственных систем, адаптированных под нужды компании, если у компании есть достаточные технические возможности. [62]

Правительство [ править ]

Использование и внедрение больших данных в правительственные процессы позволяют повысить эффективность с точки зрения затрат, производительности и инноваций. [63] но не обходится без недостатков. Анализ данных часто требует совместной работы нескольких органов власти (центральных и местных) и создания новых и инновационных процессов для достижения желаемого результата. Обычной правительственной организацией, использующей большие данные, является Управление национальной безопасности ( АНБ ), которое постоянно отслеживает деятельность Интернета в поисках потенциальных моделей подозрительной или незаконной деятельности, которые может обнаружить их система.

Служба регистрации актов гражданского состояния и статистики естественного движения населения (CRVS) собирает все свидетельства о статусе от рождения до смерти. CRVS является источником больших данных для правительств.

Международное развитие

Исследования по эффективному использованию информационных и коммуникационных технологий в целях развития (также известные как «ICT4D») показывают, что технологии больших данных могут внести важный вклад, но также создают уникальные проблемы для международного развития . [64] [65] Достижения в области анализа больших данных открывают экономически эффективные возможности для улучшения процесса принятия решений в важнейших областях развития, таких как здравоохранение, занятость, экономическая продуктивность , преступность, безопасность, стихийные бедствия и управление ресурсами. [66] [ нужна страница ] [67] [68] Кроме того, данные, генерируемые пользователями, открывают новые возможности дать возможность высказаться тем, кто не услышан. [69] Однако давние проблемы развивающихся регионов, такие как неадекватная технологическая инфраструктура, а также нехватка экономических и человеческих ресурсов, усугубляют существующие проблемы с большими данными, такие как конфиденциальность, несовершенство методологии и проблемы совместимости. [66] [ нужна страница ] Задача «больших данных для развития» [66] [ нужна страница ] в настоящее время развивается в направлении применения этих данных посредством машинного обучения, известного как «искусственный интеллект для развития» (AI4D). [70]

Преимущества [ править ]

Основным практическим применением больших данных в целях развития стала «борьба с бедностью с помощью данных». [71] В 2015 году Блюменшток и его коллеги оценили прогнозируемую бедность и богатство на основе метаданных мобильных телефонов. [72] а в 2016 году Джин и его коллеги объединили спутниковые снимки и машинное обучение, чтобы предсказать бедность. [73] Использование данных цифровых трасс для изучения рынка труда и цифровой экономики в Латинской Америке, Хилберт и коллеги. [74] [75] утверждают, что цифровые данные трассировки имеют ряд преимуществ, таких как:

  • Тематический охват: включая области, которые ранее было трудно или невозможно измерить.
  • Географический охват: предоставление крупных и сопоставимых данных почти по всем странам, включая множество небольших стран, которые обычно не включаются в международные реестры.
  • Уровень детализации: предоставление детальных данных со многими взаимосвязанными переменными и новыми аспектами, такими как сетевые подключения.
  • Своевременность и временные ряды: графики могут быть построены в течение нескольких дней после их сбора.

Проблемы [ править ]

В то же время работа с данными цифровых трасс вместо традиционных данных обследований не устраняет традиционных проблем, возникающих при работе в области международного количественного анализа. Приоритеты меняются, но основные дискуссии остаются прежними. Среди основных задач можно выделить:

  • Репрезентативность. В то время как традиционная статистика развития в основном занимается репрезентативностью выборок случайных обследований, данные цифровых трассировок никогда не являются случайной выборкой. [76]
  • Обобщаемость. Хотя данные наблюдений всегда очень хорошо представляют этот источник, они представляют только то, что представляют, и не более того. Хотя возникает соблазн обобщить конкретные наблюдения одной платформы на более широкие условия, это часто очень обманчиво.
  • Гармонизация. Данные цифровых трассировок по-прежнему требуют международной гармонизации показателей. Это добавляет проблему так называемого «объединения данных», гармонизации различных источников.
  • Перегрузка данных. Аналитики и учреждения не привыкли эффективно работать с большим количеством переменных, что эффективно достигается с помощью интерактивных информационных панелей. Практикам до сих пор не хватает стандартного рабочего процесса, который позволил бы исследователям, пользователям и политикам эффективно и результативно работать с данными. [74]

Финансы [ править ]

Большие данные быстро внедряются в финансах, чтобы 1) ускорить обработку и 2) предоставить более качественные и обоснованные выводы как внутри самих финансовых учреждений, так и для клиентов финансовых учреждений. [77] Финансовые применения больших данных варьируются от инвестиционных решений и торговли (одновременная обработка объемов доступных данных о ценах, книг лимитных заказов, экономических данных и т. д.) до управления портфелем (оптимизация все большего количества финансовых инструментов, потенциально выбранных из разных классов активов), управление рисками (кредитный рейтинг на основе расширенной информации) и любой другой аспект, в котором объем входных данных велик. [78]

Здравоохранение [ править ]

Аналитика больших данных используется в здравоохранении для обеспечения персонализированной медицины и предписывающей аналитики , вмешательства в клинические риски и прогнозной аналитики, сокращения отходов и изменчивости ухода, автоматизированной внешней и внутренней отчетности данных пациентов, стандартизированных медицинских терминов и реестров пациентов. [79] [80] [81] [82] Некоторые области улучшений являются более амбициозными, чем фактически реализованными. Уровень данных, генерируемых в системах здравоохранения , нетривиален. С дальнейшим внедрением мобильного здравоохранения, электронного здравоохранения и носимых технологий объем данных будет продолжать расти. Сюда входят данные электронных медицинских карт , данные визуализации, данные, созданные пациентами, данные датчиков и другие формы трудно поддающихся обработке данных. В настоящее время существует еще большая потребность в таких средах уделять больше внимания качеству данных и информации. [83] «Большие данные очень часто означают « грязные данные », и доля неточностей в данных увеличивается с ростом объема данных». Человеческий осмотр в масштабе больших данных невозможен, и существует острая потребность в службах здравоохранения в интеллектуальных инструментах для контроля точности и правдоподобности и обработки пропущенной информации. [84] Хотя обширная информация в здравоохранении теперь доступна в электронном виде, она вписывается в категорию больших данных, поскольку большая ее часть неструктурирована и сложна в использовании. [85] Использование больших данных в здравоохранении породило серьезные этические проблемы, начиная от рисков для прав личности, конфиденциальности и автономии и заканчивая прозрачностью и доверием. [86]

Большие данные в медицинских исследованиях особенно многообещающи с точки зрения поисковых биомедицинских исследований, поскольку анализ, основанный на данных, может продвигаться вперед быстрее, чем исследования, основанные на гипотезах. [87] Затем тенденции, наблюдаемые при анализе данных, можно проверить в ходе традиционных, основанных на гипотезах последующих биологических исследований и, в конечном итоге, клинических исследований.

Связанной областью применения в сфере здравоохранения, которая в значительной степени опирается на большие данные, является компьютерная диагностика в медицине. [88] [ нужна страница ] Например, для мониторинга эпилепсии принято ежедневно создавать от 5 до 10 ГБ данных. [89] Аналогичным образом, одно несжатое изображение томосинтеза молочной железы в среднем содержит 450 МБ данных. [90] Это лишь некоторые из многих примеров, когда компьютерная диагностика использует большие данные. По этой причине большие данные были признаны одной из семи ключевых проблем, которые необходимо преодолеть системам компьютерной диагностики, чтобы выйти на новый уровень производительности. [91]

Образование [ править ]

Исследование McKinsey Global Institute выявило нехватку 1,5 миллиона высококвалифицированных специалистов по данным и менеджеров. [52] и ряд университетов [92] [ нужен лучший источник ] включая Университет Теннесси и Калифорнийский университет в Беркли , создали магистерские программы для удовлетворения этого спроса. Частные учебные лагеря также разработали программы для удовлетворения этого спроса, включая бесплатные программы, такие как The Data Incubator , или платные программы, такие как General Assembly . [93] В специфической области маркетинга одна из проблем, подчеркиваемых Веделем и Каннаном, [94] заключается в том, что маркетинг имеет несколько поддоменов (например, реклама, продвижение, разработка продуктов, брендинг), которые используют разные типы данных.

СМИ [ править ]

Чтобы понять, как средства массовой информации используют большие данные, сначала необходимо представить некоторый контекст механизма, используемого в медиа-процессе. Ник Кадри и Джозеф Туроу предположили, что специалисты в области средств массовой информации и рекламы подходят к большим данным как к множеству полезных сведений о миллионах людей. Похоже, что индустрия отходит от традиционного подхода к использованию конкретной медиа-среды, такой как газеты, журналы или телешоу, и вместо этого привлекает потребителей с помощью технологий, которые достигают целевых людей в оптимальное время и в оптимальных местах. Конечная цель — предоставить или передать сообщение или контент, который (статистически говоря) соответствует мышлению потребителя. Например, издательская среда все чаще адаптирует сообщения (рекламу) и контент (статьи) так, чтобы они были привлекательными для потребителей и были получены исключительно с помощью различных мероприятий по сбору данных . [95]

  • Ориентация на потребителей (для рекламы маркетологов) [96]
  • Сбор данных
  • Журналистика данных : издатели и журналисты используют инструменты больших данных для предоставления уникальных и инновационных идей и инфографики .

Channel 4 , британская общественная телекомпания, является лидером в области больших данных и анализа данных . [97]

Страхование [ править ]

Поставщики медицинского страхования собирают данные о социальных «детерминантах здоровья», таких как потребление еды и телевидения , семейное положение, размер одежды и покупательские привычки, на основе которых они делают прогнозы о расходах на здравоохранение, чтобы выявить проблемы со здоровьем у своих клиентов. Спорно, используются ли эти прогнозы в настоящее время для ценообразования. [98]

Интернет вещей (IoT) [ править ]

Большие данные и Интернет вещей работают вместе. Данные, извлеченные из устройств Интернета вещей, обеспечивают отображение взаимосвязи устройств. Такие сопоставления используются медиаиндустрией, компаниями и правительствами для более точного таргетирования своей аудитории и повышения эффективности СМИ. Интернет вещей также все чаще применяется в качестве средства сбора сенсорных данных, и эти сенсорные данные используются в медицине, [99] производство [100] и транспорт [101] контексты.

Кевин Эштон , эксперт по цифровым инновациям, которому приписывают создание этого термина, [102] определяет Интернет вещей в этой цитате: «Если бы у нас были компьютеры, которые знали бы все, что нужно знать о вещах, — используя данные, которые они собрали без какой-либо помощи с нашей стороны, — мы были бы в состоянии отслеживать и подсчитывать все, а также значительно сократить потери и потери». и стоимость. Мы будем знать, когда что-то нужно заменить, отремонтировать или отозвать, а также являются ли они свежими или уже не в лучшем состоянии».

Информационные технологии [ править ]

Особенно с 2015 года большие данные стали играть важную роль в бизнес-операциях как инструмент, помогающий сотрудникам работать более эффективно и оптимизирующий сбор и распространение информационных технологий (ИТ). Использование больших данных для решения проблем ИТ и сбора данных на предприятии называется аналитикой ИТ-операций (ITOA). [103] Применяя принципы больших данных к концепциям машинного интеллекта и глубоких вычислений, ИТ-отделы могут прогнозировать потенциальные проблемы и предотвращать их. [103] Компании ITOA предлагают платформы для управления системами , которые объединяют хранилища данных и генерируют ценную информацию на основе всей системы, а не на основе изолированных карманов данных.

Обзорная наука

По сравнению со сбором данных на основе опросов , большие данные имеют низкую стоимость за единицу данных, используют методы анализа с помощью машинного обучения и интеллектуального анализа данных и включают разнообразные и новые источники данных, например, регистры, социальные сети, приложения и другие формы цифровых данных. С 2018 года ученые-исследователи начали изучать, как большие данные и опросная наука могут дополнять друг друга, позволяя исследователям и практикам улучшить производство статистики и ее качество. На сегодняшний день было проведено три конференции Big Data Meets Survey Science (BigSurv) в 2018, 2020 (виртуальном), 2023 и по состоянию на 2023 год. одна конференция состоится в 2025 году, [104] специальный выпуск журнала Social Science Computer Review , [105] специальный выпуск в журнале Королевского статистического общества , [106] и специальный выпуск в EP J Data Science , [107] и книга « Большие данные встречаются с социальными науками». [108] под редакцией Крейга Хилла и пяти других членов Американской статистической ассоциации . В 2021 году члены-основатели BigSurv получили Премию новаторов Уоррена Дж. Митофски от Американской ассоциации исследований общественного мнения . [109]

Маркетинг [ править ]

Большие данные примечательны в маркетинге благодаря постоянной «датафикации». [110] ежедневных потребителей Интернета, в котором отслеживаются все формы данных. Информацию о потребителях можно определить как количественную оценку многих или всех видов человеческого поведения в целях маркетинга. [111] Все более цифровой мир быстрой обработки данных делает эту идею актуальной для маркетинга, поскольку объем данных постоянно растет в геометрической прогрессии. Прогнозируется, что в течение пяти лет он увеличится с 44 до 163 зеттабайт. [112] Маркетологам часто бывает сложно ориентироваться в размерах больших данных. [113] В результате пользователи больших данных могут оказаться в невыгодном положении. Алгоритмических выводов может быть трудно достичь с такими большими наборами данных. [114] Большие данные в маркетинге — это очень прибыльный инструмент, который может использоваться крупными корпорациями, поскольку его ценность заключается в возможности прогнозирования значительных тенденций, интересов или статистических результатов с учетом интересов потребителей. [115]

Есть три важных фактора в использовании больших данных в маркетинге:

  1. Большие данные позволяют маркетологам выявлять модели поведения клиентов, поскольку все человеческие действия выражаются в читаемых цифрах, которые маркетологи могут анализировать и использовать в своих исследованиях. [116]
  2. Реакция рынка в режиме реального времени важна для маркетологов из-за способности перенаправлять маркетинговые усилия и корректировать их в соответствии с текущими тенденциями, что помогает поддерживать актуальность для потребителей. Это может предоставить корпорациям информацию, необходимую для заранее прогнозирования желаний и потребностей потребителей. [117]
  3. Амбидекстрия рынка, основанная на данных, в значительной степени подпитывается большими данными. [118] Разрабатываются новые модели и алгоритмы, позволяющие делать значимые прогнозы относительно определенных экономических и социальных ситуаций. [119]

Тематические исследования [ править ]

Правительство [ править ]

Китай [ править ]

  • Интегрированная платформа совместных операций (IJOP, Integrated Joint Operations Platform) используется правительством для мониторинга населения, особенно уйгуров . [120] Биометрические данные , включая образцы ДНК, собираются в рамках программы бесплатных медосмотров. [121]
  • К 2020 году Китай планирует дать всем своим гражданам личный рейтинг «социального кредита», основанный на их поведении. [122] Система социального кредита , пилотируемая в настоящее время в ряде китайских городов, считается формой массовой слежки , в которой используется технология анализа больших данных. [123] [124]

Индия [ править ]

  • Анализ больших данных был опробован для того, чтобы БДП выиграла всеобщие выборы в Индии в 2014 году. [125]
  • Индийское правительство использует многочисленные методы, чтобы выяснить, как индийский электорат реагирует на действия правительства, а также идеи по усилению политики.

Израиль [ править ]

  • Персонализированное лечение диабета можно создать с помощью решения для обработки больших данных GlucoMe. [126]

Соединенное Королевство [ править ]

Примеры использования больших данных в государственных услугах:

США [ править ]

Розничная торговля [ править ]

  • Walmart обрабатывает более 1 миллиона транзакций клиентов каждый час, которые импортируются в базы данных, которые, по оценкам, содержат более 2,5 петабайт (2560 терабайт) данных, что в 167 раз превышает объем информации, содержащейся во всех книгах Библиотеки Конгресса США . [7]
  • Windermere Real Estate использует информацию о местоположении почти 100 миллионов водителей, чтобы помочь покупателям нового жилья определить типичное время поездки на работу и с работы в разное время дня. [138]
  • Система обнаружения карт FICO защищает счета по всему миру. [139]

Наука [ править ]

  • Эксперименты Большого адронного коллайдера представляют собой около 150 миллионов датчиков, передающих данные 40 миллионов раз в секунду. В секунду происходит около 600 миллионов столкновений. После фильтрации и воздержания от записи более 99,99995% [140] из этих потоков происходит 1000 столкновений интересов в секунду. [141] [142] [143]
    • В результате, работая только с менее чем 0,001% данных потока датчиков, поток данных всех четырех экспериментов БАК представляет собой 25 петабайт в год до репликации (по состоянию на 2012 г.). ). После репликации это становится почти 200 петабайтами.
    • Если бы все данные датчиков записывались на БАК, с потоком данных было бы чрезвычайно сложно работать. До начала репликации поток данных превысит 150 миллионов петабайт в год, или почти 500 эксабайт в день. Для сравнения: это эквивалентно 500 квинтиллионам (5×10 20 ) байт в день, что почти в 200 раз больше, чем у всех остальных источников мира, вместе взятых.
  • Квадратный километр представляет собой радиотелескоп, состоящий из тысяч антенн. Ожидается, что он будет введен в эксплуатацию к 2024 году. Ожидается, что в совокупности эти антенны будут собирать 14 эксабайт и хранить один петабайт в день. [144] [145] Это считается одним из самых амбициозных научных проектов, когда-либо предпринимавшихся. [146]
  • Когда в 2000 году Слоановский цифровой обзор неба (SDSS) начал собирать астрономические данные, за первые несколько недель он собрал больше, чем все данные, собранные за всю историю астрономии ранее. Продолжая работу со скоростью около 200 ГБ за ночь, SDSS накопил более 140 терабайт информации. [7] Когда Большой синоптический обзорный телескоп , преемник SDSS, будет запущен в эксплуатацию в 2020 году, его разработчики ожидают, что он будет собирать такой объем данных каждые пять дней. [7]
  • Первоначально расшифровка генома человека заняла 10 лет; теперь этого можно достичь менее чем за день. Секвенаторы ДНК за последние десять лет разделили стоимость секвенирования на 10 000, что в 100 раз дешевле, чем снижение стоимости, предсказанное законом Мура . [147]
  • Центр НАСА по моделированию климата (NCCS) хранит 32 петабайта данных климатических наблюдений и моделирования в суперкомпьютерном кластере Discover. [148] [149]
  • DNAStack от Google собирает и систематизирует образцы ДНК генетических данных со всего мира для выявления заболеваний и других медицинских дефектов. Эти быстрые и точные расчеты исключают любые «точки трения» или человеческие ошибки, которые мог допустить один из многочисленных экспертов в области науки и биологии, работающих с ДНК. DNAStack, часть Google Genomics, позволяет ученым мгновенно использовать обширную выборку ресурсов с поискового сервера Google для масштабирования социальных экспериментов, которые обычно занимают годы. [150] [151]
  • содержит 23andme База данных ДНК генетическую информацию более чем 1 000 000 человек по всему миру. [152] Компания изучает возможность продажи «анонимных агрегированных генетических данных» другим исследователям и фармацевтическим компаниям для исследовательских целей, если пациенты дадут свое согласие. [153] [154] [155] [156] [157] Ахмад Харири, профессор психологии и нейробиологии в Университете Дьюка , который использует 23andMe в своих исследованиях с 2009 года, утверждает, что наиболее важным аспектом нового сервиса компании является то, что он делает генетические исследования доступными и относительно дешевыми для ученых. [153] Исследование, которое выявило 15 сайтов генома, связанных с депрессией, в базе данных 23andMe, привело к резкому увеличению запросов на доступ к хранилищу: 23andMe отправила почти 20 запросов на доступ к данным о депрессии в течение двух недель после публикации статьи. [158]
  • Вычислительная гидродинамика ( CFD ) и исследования гидродинамической турбулентности генерируют огромные наборы данных. База данных Джонса Хопкинса по турбулентности ( JHTDB ) содержит более 350 терабайт пространственно-временных полей, полученных в результате прямого численного моделирования различных турбулентных потоков. Такими данными было трудно поделиться с помощью традиционных методов, таких как загрузка выходных файлов плоского моделирования. Доступ к данным в JHTDB можно получить с помощью «виртуальных датчиков» с различными режимами доступа, начиная от прямых запросов веб-браузера, доступа через программы Matlab, Python, Fortran и C, выполняющиеся на клиентских платформах, до отключения служб для загрузки необработанных данных. Данные были использованы в более чем 150 научных публикациях.

Спорт [ править ]

Большие данные можно использовать для улучшения тренировок и понимания конкурентов с помощью спортивных датчиков. Также можно спрогнозировать победителей матча с помощью анализа больших данных. [159] Будущие результаты игроков также можно предсказать. [160] Таким образом, стоимость и зарплата игроков определяется данными, собранными в течение сезона. [161]

В гонках Формулы-1 гоночные автомобили с сотнями датчиков генерируют терабайты данных. Эти датчики собирают данные о давлении в шинах и эффективности сжигания топлива. [162] На основе данных инженеры и аналитики данных решают, следует ли внести изменения, чтобы выиграть гонку. Кроме того, используя большие данные, гоночные команды пытаются заранее предсказать время, когда они финишируют в гонке, на основе моделирования с использованием данных, собранных за сезон. [163]

Технология [ править ]

КОВИД - 19

Во время пандемии COVID-19 большие данные использовались как способ минимизировать последствия болезни. Важные применения больших данных включали минимизацию распространения вируса, выявление случаев заболевания и разработку методов лечения. [169]

Правительства использовали большие данные для отслеживания инфицированных людей, чтобы минимизировать распространение. Среди первых последователей были Китай, Тайвань, Южная Корея и Израиль. [170] [171] [172]

Научно-исследовательская деятельность [ править ]

Зашифрованный поиск и формирование кластеров в больших данных были продемонстрированы в марте 2014 года в Американском обществе инженерного образования. Гаутам Сивах участвовал в проекте «Решение проблем больших данных» Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института , а Амир Эсмаилпур из Исследовательской группы UNH исследовали ключевые особенности больших данных, такие как формирование кластеров и их взаимосвязей. Они сосредоточились на безопасности больших данных и ориентации этого термина на наличие различных типов данных в зашифрованной форме в облачном интерфейсе, предоставив необработанные определения и примеры в реальном времени в рамках технологии. Более того, они предложили подход к определению метода кодирования для продвижения к ускоренному поиску по зашифрованному тексту, что приведет к повышению безопасности больших данных. [173]

В марте 2012 года Белый дом объявил о национальной «Инициативе по большим данным», в которую входят шесть федеральных департаментов и агентств, выделивших более 200 миллионов долларов на проекты исследования больших данных. [174]

Инициатива включала грант Национального научного фонда «Экспедиции в области вычислений» в размере 10 миллионов долларов США на пять лет для AMPLab. [175] в Калифорнийском университете в Беркли. [176] AMPLab также получила средства от DARPA и более десятка промышленных спонсоров и использует большие данные для решения широкого спектра проблем, включая прогнозирование пробок на дорогах. [177] для борьбы с раком. [178]

Инициатива Белого дома по большим данным также включала обязательство Министерства энергетики предоставить 25 миллионов долларов США в течение пяти лет для создания Института управления масштабируемыми данными, анализа и визуализации (SDAV). [179] Министерства энергетики под руководством Национальной лаборатории Лоуренса Беркли . Институт SDAV стремится объединить опыт шести национальных лабораторий и семи университетов для разработки новых инструментов, которые помогут ученым управлять и визуализировать данные на суперкомпьютерах департамента.

В мае 2012 года американский штат Массачусетс объявил об Массачусетской инициативе по работе с большими данными, которая обеспечивает финансирование со стороны правительства штата и частных компаний различным исследовательским учреждениям. [180] В Массачусетском технологическом институте находится Научно-технологический центр Intel для больших данных в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института , который объединяет государственное, корпоративное и институциональное финансирование и исследовательские усилия. [181]

Европейская комиссия финансирует двухлетний государственно-частный форум по большим данным в рамках своей Седьмой рамочной программы, чтобы привлечь компании, ученых и другие заинтересованные стороны к обсуждению проблем больших данных. Целью проекта является определение стратегии в области исследований и инноваций, которая будет служить руководством для поддержки действий Европейской комиссии по успешному внедрению экономики больших данных. Результаты этого проекта будут использованы в качестве исходных данных для Horizon 2020 , их следующей рамочной программы . [182]

В марте 2014 года британское правительство объявило об основании Института Алана Тьюринга , названного в честь пионера компьютеров и взломщика кодов, который сосредоточится на новых способах сбора и анализа больших наборов данных. [183]

На Дне вдохновения канадского опыта открытых данных (CODE) в кампусе Университета Ватерлоо в Стратфорде участники продемонстрировали, как использование визуализации данных может повысить понимание и привлекательность наборов больших данных, а также донести их историю до мира. [184]

Вычислительные социальные науки . Любой может использовать интерфейсы прикладного программирования (API), предоставляемые владельцами больших данных, такими как Google и Twitter, для проведения исследований в области социальных и поведенческих наук. [185] Часто эти API предоставляются бесплатно. [185] Тобиас Прейс и др. использовали данные Google Trends , чтобы продемонстрировать, что пользователи Интернета из стран с более высоким валовым внутренним продуктом (ВВП) на душу населения с большей вероятностью будут искать информацию о будущем, чем информацию о прошлом. Результаты показывают, что может существовать связь между поведением в Интернете и реальными экономическими показателями. [186] [187] [188] Авторы исследования изучили журналы запросов Google, составленные по соотношению объема поисков за предстоящий год (2011 г.) к объему поисков за предыдущий год (2009 г.), который они называют « индексом ориентации на будущее ». [189] Они сравнили индекс ориентации на будущее с ВВП на душу населения в каждой стране и обнаружили сильную тенденцию в странах, где пользователи Google больше интересуются будущим, иметь более высокий ВВП.

Тобиас Прейс и его коллеги Хелен Сюзанна Моат и Х. Юджин Стэнли представили метод определения онлайн-предвестников движений фондового рынка, используя торговые стратегии, основанные на данных об объеме поиска, предоставленных Google Trends. [190] Их анализ объема поиска в Google по 98 терминам различной финансовой значимости, опубликованный в журнале Scientific Reports , [191] предполагает, что увеличение объема поиска по финансово значимым поисковым запросам, как правило, предшествует крупным потерям на финансовых рынках. [192] [193] [194] [195] [196] [197] [198]

Большие наборы данных сопряжены с алгоритмическими проблемами, которых раньше не существовало. Следовательно, некоторые считают, что необходимо фундаментально изменить способы обработки. [199]

Выборка больших данных [ править ]

Исследовательский вопрос, который задают в отношении больших наборов данных, заключается в том, необходимо ли рассматривать полные данные, чтобы сделать определенные выводы о свойствах данных, или достаточно хороша выборка. Само название «большие данные» содержит термин, связанный с размером, и это важная характеристика больших данных. Но выборка позволяет выбрать правильные точки данных из большего набора данных для оценки характеристик всей совокупности. При производстве различные типы сенсорных данных, таких как акустика, вибрация, давление, ток, напряжение и данные контроллера, доступны через короткие промежутки времени. Чтобы спрогнозировать время простоя, возможно, не обязательно просматривать все данные, но выборки может быть достаточно. Большие данные можно разбить по различным категориям данных, таким как демографические, психографические, поведенческие и транзакционные данные. Имея большие наборы данных, маркетологи могут создавать и использовать более индивидуальные сегменты потребителей для более стратегического таргетинга.

Обзор [ править ]

Критика парадигмы больших данных бывает двух видов: те, которые ставят под сомнение последствия самого подхода, и те, которые ставят под сомнение то, как это делается в настоящее время. [200] Одним из подходов к этой критике является изучение критических данных .

больших парадигмы Критика данных

«Основная проблема заключается в том, что мы мало что знаем о лежащих в основе эмпирических микропроцессах, которые приводят к появлению типичных сетевых характеристик больших данных». [24] [ нужна страница ] В своей критике Снейдерс, Мацат и Рейпс отмечают, что часто в отношении математических свойств делаются очень сильные предположения, которые могут вообще не отражать то, что на самом деле происходит на уровне микропроцессов. Марк Грэм подверг резкой критике утверждение Криса Андерсона о том, что большие данные означают конец теории: [201] уделяя особое внимание идее о том, что большие данные всегда должны быть контекстуализированы в социальном, экономическом и политическом контекстах. [202] Даже несмотря на то, что компании инвестируют восьми- и девятизначные суммы, чтобы получить представление о потоке информации от поставщиков и клиентов, менее 40% сотрудников обладают достаточно зрелыми процессами и навыками для этого. Согласно статье в Harvard Business Review, чтобы преодолеть этот дефицит понимания, большие данные, независимо от того, насколько они полны или хорошо проанализированы, должны быть дополнены «большим суждением» . [203]

Во многом в том же духе было отмечено, что решения, основанные на анализе больших данных, неизбежно «информируются миром, каким он был в прошлом или, в лучшем случае, таким, какой он есть в настоящее время». [66] [ нужна страница ] Основываясь на большом количестве данных о прошлом опыте, алгоритмы могут предсказывать будущее развитие, если будущее похоже на прошлое. [204] Если динамика будущего системы изменится (если это не стационарный процесс ), прошлое мало что может сказать о будущем. Чтобы делать прогнозы в изменяющейся среде, необходимо иметь глубокое понимание динамики систем, что требует теории. [204] В ответ на эту критику Алемани Оливер и Вэйр предлагают использовать «абдуктивные рассуждения в качестве первого шага в исследовательском процессе, чтобы привнести контекст в цифровые следы потребителей и вызвать появление новых теорий». [205] Кроме того, было предложено объединить подходы, основанные на больших данных, с компьютерным моделированием, например, с агентными моделями. [66] [ нужна страница ] и сложные системы . Агентные модели становятся все лучше в прогнозировании исхода социальных сложностей даже неизвестных сценариев будущего с помощью компьютерного моделирования, основанного на наборе взаимозависимых алгоритмов. [206] [207] Наконец, использование многомерных методов, исследующих скрытую структуру данных, таких как факторный анализ и кластерный анализ , оказалось полезным в качестве аналитических подходов, которые выходят далеко за рамки двумерных подходов (например, таблиц непредвиденных обстоятельств ), обычно используемых с меньшими данными. наборы.

В здравоохранении и биологии традиционные научные подходы основаны на экспериментах. Для этих подходов ограничивающим фактором являются соответствующие данные, которые могут подтвердить или опровергнуть первоначальную гипотезу. [208] Сейчас в биологических науках принят новый постулат: информация, предоставляемая огромными объемами данных ( омики ) без предварительной гипотезы, дополняет, а иногда и необходима традиционным подходам, основанным на экспериментах. [209] [210] В массовых подходах ограничивающим фактором является формулировка соответствующей гипотезы для объяснения данных. [211] пределы индукции («Скандал о славе науки и философии», CD Broad , 1926). Логика поиска перевернута, и необходимо учитывать [ нужна цитата ]

Защитники конфиденциальности обеспокоены угрозой конфиденциальности, которую представляет увеличение объема хранения и интеграции личной информации ; Экспертные группы выпустили различные политические рекомендации, чтобы привести практику в соответствие с ожиданиями конфиденциальности. [212] Неправомерное использование больших данных в ряде случаев средствами массовой информации, компаниями и даже правительством позволило ликвидировать доверие почти ко всем фундаментальным институтам, поддерживающим общество. [213]

Барокас и Ниссенбаум утверждают, что одним из способов защиты отдельных пользователей является информирование о типах собираемой информации, о том, кому она передается, при каких ограничениях и для каких целей. [214]

модели « Критика V »

Модель больших данных «V» вызывает беспокойство, поскольку она сосредоточена на вычислительной масштабируемости и лишена потерь в восприятии и понятности информации. Это привело к созданию концепции когнитивных больших данных , которая характеризует приложения больших данных в соответствии с: [215]

  • Полнота данных: понимание неочевидного из данных
  • Корреляция данных, причинно-следственная связь и предсказуемость: причинность как необязательное требование для достижения предсказуемости
  • Объяснимость и интерпретируемость: люди желают понять и принять то, что они понимают, тогда как алгоритмы с этим не справляются.
  • Уровень автоматизированного принятия решений : алгоритмы, поддерживающие автоматизированное принятие решений и алгоритмическое самообучение.

новизны Критика

Большие наборы данных анализировались компьютерными машинами уже более столетия, включая анализ переписи населения США, выполняемый . перфокарточными машинами IBM, которые вычисляли статистику, включая средние значения и отклонения населения по всему континенту В последние десятилетия научные эксперименты, такие как ЦЕРН, позволили получить данные такого же масштаба, что и нынешние коммерческие «большие данные». Однако в научных экспериментах данные, как правило, анализируются с использованием специализированных высокопроизводительных вычислительных (суперкомпьютерных) кластеров и сетей, а не облаков дешевых компьютеров, как в нынешней коммерческой волне, что подразумевает разницу как в культуре, так и в технологиях. куча.

использования больших Критика данных

Ульф-Дитрих Рейпс и Уве Мацат написали в 2014 году, что большие данные стали «причудой» в научных исследованиях. [185] Исследователь Дана Бойд выразила обеспокоенность по поводу использования больших данных в науке, пренебрегая такими принципами, как выбор репрезентативной выборки , из-за чрезмерной озабоченности обработкой огромных объемов данных. [216] Такой подход может привести к результатам, которые имеют предвзятость . в той или иной степени [217] Интеграция разнородных ресурсов данных (некоторые из которых можно считать большими данными, а другие нет) представляет собой огромные логистические и аналитические проблемы, но многие исследователи утверждают, что такая интеграция, вероятно, представляет собой наиболее многообещающие новые рубежи в науке. [218] В провокационной статье «Критические вопросы для больших данных» [219] авторы называют большие данные частью мифологии : «большие наборы данных предлагают более высокую форму интеллекта и знаний [...] с аурой правды, объективности и точности». Пользователи больших данных часто «теряются в огромном количестве цифр», а «работа с большими данными все еще носит субъективный характер, и то, что они определяют количественно, не обязательно имеет больше претензий на объективную истину». [219] Последние разработки в области бизнес-аналитики, такие как упреждающая отчетность, в первую очередь направлены на повышение удобства использования больших данных за счет автоматической фильтрации бесполезных данных и корреляций . [220] Большие структуры полны ложных корреляций [221] либо из-за непричинных совпадений ( закон действительно больших чисел ), исключительно из-за природы большой случайности [222] ( теория Рэмси ), или существование неучтенных факторов , поэтому надежда первых экспериментаторов заставить большие базы данных чисел «говорить сами за себя» и совершить революцию в научном методе подвергается сомнению. [223] Кэтрин Такер указала на «ажиотаж» вокруг больших данных, написав: «Само по себе большие данные вряд ли будут иметь ценность». В статье поясняется: «Множество случаев, когда данные стоят дешево по сравнению с затратами на удержание специалистов для их обработки, позволяют предположить, что навыки обработки более важны, чем сами данные, в создании ценности для фирмы». [224]

Анализ больших данных часто оказывается поверхностным по сравнению с анализом небольших наборов данных. [225] Во многих проектах по работе с большими данными анализ больших данных не проводится, но проблема заключается в извлечении, преобразовании и загрузке части предварительной обработки данных. [225]

Большие данные — это модное словечко и «расплывчатый термин». [226] [227] но в то же время "одержимость" [227] с предпринимателями, консультантами, учеными и средствами массовой информации. Витрины больших данных, такие как Google Flu Trends, в последние годы не смогли дать хороших прогнозов, завысив количество вспышек гриппа в два раза. Точно так же награды Академии и прогнозы выборов, основанные исключительно на Твиттере, чаще оказывались неправильными, чем точными. Большие данные часто создают те же проблемы, что и малые данные; добавление дополнительных данных не решает проблемы предвзятости, но может подчеркнуть другие проблемы. В частности, такие источники данных, как Twitter, не являются репрезентативными для населения в целом, и результаты, полученные из таких источников, могут привести к неверным выводам. Google Translate , основанный на статистическом анализе текста на основе больших данных, хорошо справляется с переводом веб-страниц. Однако результаты из специализированных областей могут быть существенно искажены. С другой стороны, большие данные могут также создать новые проблемы, такие как проблема множественных сравнений : одновременная проверка большого набора гипотез может привести к множеству ложных результатов, которые ошибочно кажутся значимыми. Иоаннидис утверждал, что «большинство опубликованных результатов исследований ложны». [228] по сути, из-за одного и того же эффекта: когда каждая из множества научных групп и исследователей проводит много экспериментов (т.е. обрабатывает большой объем научных данных; хотя и не с помощью технологии больших данных), вероятность того, что «значимый» результат окажется ложным, быстро растет - даже больше так, когда публикуются только положительные результаты. Более того, результаты анализа больших данных хороши настолько, насколько хороша модель, на которой они основаны. Например, большие данные использовались при попытке предсказать результаты президентских выборов в США в 2016 году. [229] с разной степенью успеха.

Критика работы полиции и наблюдения данными большими за

Большие данные используются в полиции и наблюдении такими учреждениями, как правоохранительные органы и корпорации . [230] Из-за менее заметного характера наблюдения на основе данных по сравнению с традиционными методами полицейской деятельности, возражения против работы полиции с большими данными возникают с меньшей вероятностью. Согласно книге Сары Брейн « Наблюдение за большими данными: случай работы полиции» , [231] Работа полиции с большими данными может воспроизвести существующее социальное неравенство тремя способами:

  • Помещение людей под усиленное наблюдение с использованием математического и, следовательно, беспристрастного алгоритма.
  • Увеличение охвата и количества людей, которые подлежат отслеживанию со стороны правоохранительных органов, и усугубление существующей расовой чрезмерной представленности в системе уголовного правосудия.
  • Поощрение членов общества отказаться от взаимодействия с учреждениями, которые могут создать цифровой след, создавая тем самым препятствия для социальной интеграции.

Если эти потенциальные проблемы не будут исправлены или урегулированы, последствия контроля за большими данными могут продолжать формировать социальные иерархии. Сознательное использование больших данных может предотвратить превращение предубеждений на индивидуальном уровне в институциональные предубеждения, отмечает Брейн.

См. также [ править ]

Ссылки [ править ]

  1. ^ Гильберт, Мартин; Лопес, Присцила (2011). «Мировые технологические возможности для хранения, передачи и вычисления информации» . Наука . 332 (6025): 60–65. Бибкод : 2011Sci...332...60H . дои : 10.1126/science.1200970 . ПМИД   21310967 . S2CID   206531385 . Архивировано из оригинала 14 апреля 2016 года . Проверено 13 апреля 2016 г.
  2. ^ Брер, Том (июль 2016 г.). «Статистический анализ власти и современный «кризис» социальных наук» . Журнал маркетинговой аналитики . 4 (2–3). Лондон, Англия: Пэлгрейв Макмиллан : 61–65. дои : 10.1057/s41270-016-0001-3 . ISSN   2050-3318 .
  3. ^ Махдави-Дамгани, Бабак (2019). Модели, управляемые данными, и математические финансы: противостояние или оппозиция? (докторская диссертация). Оксфорд, Англия: Оксфордский университет . п. 21. ССНР   3521933 .
  4. ^ Перейти обратно: а б «5 В больших данных» . Перспективы здоровья Watson . 17 сентября 2016 г. Архивировано из оригинала 18 января 2021 г. Проверено 20 января 2021 г.
  5. ^ Каппа, Франческо; Ориани, Рафаэле; Перуффо, Энцо; Маккарти, Ян (2021). «Большие данные для создания и фиксации ценности в цифровой среде: анализ влияния объема, разнообразия и достоверности на эффективность деятельности фирмы» . Журнал управления инновациями в продуктах . 38 (1): 49–67. дои : 10.1111/jpim.12545 . ISSN   0737-6782 . S2CID   225209179 .
  6. ^ Бойд, Дана; Кроуфорд, Кейт (21 сентября 2011 г.). «Шесть провокаций для больших данных» . Сеть исследований социальных наук: Десятилетие времени Интернета: Симпозиум по динамике Интернета и общества . дои : 10.2139/ssrn.1926431 . S2CID   148610111 . Архивировано из оригинала 28 февраля 2020 года . Проверено 12 июля 2019 г.
  7. ^ Перейти обратно: а б с д Это ж г «Данные, данные повсюду» . Экономист . 25 февраля 2010 г. Архивировано из оригинала 27 мая 2018 г. . Проверено 9 декабря 2012 года .
  8. ^ «Требуется сообразительность сообщества» . Природа . 455 (7209): 1. Сентябрь 2008 г. Бибкод : 2008Natur.455....1. . дои : 10.1038/455001a . ПМИД   18769385 .
  9. ^ Райхман О.Дж., Джонс М.Б., член парламента Шильдхауэра (февраль 2011 г.). «Вызовы и возможности открытых данных в экологии» . Наука . 331 (6018): 703–5. Бибкод : 2011Sci...331..703R . дои : 10.1126/science.1197962 . ПМИД   21311007 . S2CID   22686503 . Архивировано из оригинала 19 октября 2020 года . Проверено 12 июля 2019 г.
  10. ^ Хеллерштейн, Джо (9 ноября 2008 г.). «Параллельное программирование в эпоху больших данных» . Блог Гигаом . Архивировано из оригинала 7 октября 2012 года . Проверено 21 апреля 2010 г.
  11. ^ Сегаран, Тоби; Хаммербахер, Джефф (2009). Красивые данные: истории создания элегантных решений для обработки данных . О'Рейли Медиа. п. 257. ИСБН  978-0-596-15711-1 . Архивировано из оригинала 12 мая 2016 года . Проверено 31 декабря 2015 г.
  12. ^ Перейти обратно: а б Хильберт М., Лопес П. (апрель 2011 г.). «Мировые технологические возможности для хранения, передачи и вычисления информации» (PDF) . Наука . 332 (6025): 60–5. Бибкод : 2011Sci...332...60H . дои : 10.1126/science.1200970 . ПМИД   21310967 . S2CID   206531385 . Архивировано (PDF) из оригинала 19 августа 2019 года . Проверено 11 мая 2019 г.
  13. ^ «IBM Что такое большие данные? – Использование больших данных на предприятии» . IBM.com. Архивировано из оригинала 24 августа 2013 года . Проверено 26 августа 2013 г.
  14. ^ Рейнзель, Дэвид; Ганц, Джон; Риднинг, Джон (13 апреля 2017 г.). «Эпоха данных 2025: эволюция данных к жизненно важным» (PDF) . seagate.com . Фрамингем, Массачусетс, США: Международная корпорация данных . Архивировано (PDF) из оригинала 8 декабря 2017 года . Проверено 2 ноября 2017 г.
  15. ^ «Согласно новому руководству IDC по расходам, глобальные расходы на решения для больших данных и аналитики достигнут 215,7 миллиардов долларов в 2021 году» . Архивировано из оригинала 23 июля 2022 года . Проверено 31 июля 2022 г.
  16. ^ «Доходы от больших данных и бизнес-аналитики в 2022 году» .
  17. ^ «Объем мирового рынка индустрии больших данных в 2011–2027 гг.» .
  18. ^ Перейти обратно: а б с Большие данные: следующий рубеж инноваций, конкуренции и производительности McKinsey Global Institute, май 2011 г.
  19. ^ Oracle и FSN, «Освоение больших данных: стратегии финансового директора по преобразованию понимания в возможности». Архивировано 4 августа 2013 г. в Wayback Machine , декабрь 2012 г.
  20. ^ Джейкобс, А. (6 июля 2009 г.). «Патологии больших данных» . ACMQueue . Архивировано из оригинала 8 декабря 2015 года . Проверено 21 апреля 2010 г.
  21. ^ Магулас, Роджер; Лорика, Бен (февраль 2009 г.). «Введение в большие данные» . Выпуск 2.0 (11). Севастополь, Калифорния: O'Reilly Media. Архивировано из оригинала 2 ноября 2021 года . Проверено 26 февраля 2021 г.
  22. ^ Джон Р. Мэши (25 апреля 1998 г.). «Большие данные… и следующая волна инфрастресса» (PDF) . Слайды из приглашенной беседы . Усеникс. Архивировано (PDF) из оригинала 12 октября 2016 г. Проверено 28 сентября 2016 г.
  23. ^ Стив Лор (1 февраля 2013 г.). «Происхождение «больших данных»: этимологический детектив» . Нью-Йорк Таймс . Архивировано из оригинала 6 марта 2016 года . Проверено 28 сентября 2016 г.
  24. ^ Перейти обратно: а б Снейдерс, Мацат и Рейпс 2012 .
  25. ^ Дедич, Н.; Станье, К. (2017). «На пути к дифференциации бизнес-аналитики, больших данных, анализа данных и открытия знаний» . Инновации в управлении и проектировании корпоративных информационных систем . Конспекты лекций по обработке деловой информации. Том. 285. Берлин; Гейдельберг: Международное издательство Springer. стр. 114–22. дои : 10.1007/978-3-319-58801-8_10 . ISBN  978-3-319-58800-1 . ISSN   1865-1356 . OCLC   909580101 . Архивировано из оригинала 27 ноября 2020 года . Проверено 7 сентября 2019 г.
  26. ^ Эвертс, Сара (2016). "Информационная перегрузка" . Дистилляции . Том. 2, нет. 2. С. 26–33. Архивировано из оригинала 3 апреля 2019 года . Проверено 22 марта 2018 г.
  27. ^ Ибрагим; Таргио Хашем, Абакер; Якуб, Ибрар; Бадрул Ануар, Нор; Мохтар, Салима; Гани, Абдулла; Улла Хан, Сами (2015). «Большие данные» об облачных вычислениях: обзор и открытые вопросы исследования». Информационные системы . 47 : 98–115. doi : 10.1016/j.is.2014.07.006 . S2CID   205488005 .
  28. ^ Граймс, Сет. «Большие данные: избегайте путаницы «Хочу V»» . Информационная неделя . Архивировано из оригинала 23 декабря 2015 года . Проверено 5 января 2016 г.
  29. ^ Фокс, Чарльз (25 марта 2018 г.). Наука о данных для транспорта . Учебники Springer по наукам о Земле, географии и окружающей среде. Спрингер. ISBN  9783319729527 . Архивировано из оригинала 1 апреля 2018 года . Проверено 31 марта 2018 г.
  30. ^ Китчин, Роб; Макардл, Гэвин (2016). «Что делает большие данные большими данными? Исследование онтологических характеристик 26 наборов данных» . Большие данные и общество . 3 : 1–10. дои : 10.1177/2053951716631130 . S2CID   55539845 .
  31. ^ Балазка, Доминик; Родигьеро, Дарио (2020). «Большие данные и маленький большой взрыв: эпистемологическая (р)эволюция» . Границы больших данных . 3 : 31. дои : 10.3389/fdata.2020.00031 . hdl : 1721.1/128865 . ПМК   7931920 . ПМИД   33693404 .
  32. ^ «Фокусизация больших данных и аналитики» (PDF) . Bigdataparis.com . Архивировано из оригинала (PDF) 25 февраля 2021 года . Проверено 8 октября 2017 г.
  33. ^ Перейти обратно: а б Биллингс С.А. «Идентификация нелинейных систем: методы NARMAX во временной, частотной и пространственно-временной областях». Уайли, 2013 г.
  34. ^ «Блог ANDSI » Большие данные DSI» . Andsi.fr . Архивировано из оригинала 10 октября 2017 года . Проверено 8 октября 2017 г.
  35. ^ Ле Эхо (3 апреля 2013 г.). «Les Echos – Большие данные потому, что данные низкой плотности? Низкая плотность информации как дискриминирующий фактор – Архивы» . Lesechos.fr . Архивировано из оригинала 30 апреля 2014 года . Проверено 8 октября 2017 г.
  36. ^ Сагироглу, Сереф ​​(2013). «Большие данные: обзор». 2013 Международная конференция по технологиям и системам совместной работы (CTS) . стр. 42–47. дои : 10.1109/CTS.2013.6567202 . ISBN  978-1-4673-6404-1 . S2CID   5724608 .
  37. ^ Китчин, Роб; Макардл, Гэвин (17 февраля 2016 г.). «Что делает большие данные большими данными? Исследование онтологических характеристик 26 наборов данных» . Большие данные и общество . 3 (1): 205395171663113. doi : 10.1177/2053951716631130 .
  38. ^ Онай, Джейлан; Озтюрк, Элиф (2018). «Обзор исследований кредитного скоринга в эпоху больших данных». Журнал финансового регулирования и соответствия . 26 (3): 382–405. дои : 10.1108/JFRC-06-2017-0054 . S2CID   158895306 .
  39. ^ Четвертая V больших данных
  40. ^ «Измерение бизнес-ценности больших данных | IBM Big Data & Analytics Hub» . www.ibmbigdatahub.com . Архивировано из оригинала 28 января 2021 года . Проверено 20 января 2021 г.
  41. ^ Китчин, Роб; Макардл, Гэвин (5 января 2016 г.). «Что делает большие данные большими данными? Исследование онтологических характеристик 26 наборов данных» . Большие данные и общество . 3 (1): 205395171663113. doi : 10.1177/2053951716631130 . ISSN   2053-9517 .
  42. ^ «Опрос: размер крупнейших баз данных приближается к 30 терабайтам» . Eweek.com . 8 ноября 2003 г. Проверено 8 октября 2017 г.
  43. ^ «LexisNexis купит Seisint за 775 миллионов долларов» . Вашингтон Пост . Архивировано из оригинала 24 июля 2008 года . Проверено 15 июля 2004 г.
  44. ^ «Вашингтон Пост» . Вашингтон Пост . Архивировано из оригинала 19 октября 2016 года . Проверено 24 августа 2017 г.
  45. Бертолуччи, Джефф «Hadoop: от эксперимента к ведущей платформе больших данных». Архивировано 23 ноября 2020 года на Wayback Machine , «Information Week», 2013. Проверено 14 ноября 2013 года.
  46. ^ Вебстер, Джон. «MapReduce: упрощенная обработка данных в больших кластерах». Архивировано 14 декабря 2009 г. на Wayback Machine , «Поисковое хранилище», 2004 г. Проверено 25 марта 2013 г.
  47. ^ «Предложение решений для больших данных» . МАЙК2.0. Архивировано из оригинала 16 марта 2013 года . Проверено 8 декабря 2013 г.
  48. ^ «Определение больших данных» . МАЙК2.0. Архивировано из оригинала 25 сентября 2018 года . Проверено 9 марта 2013 г.
  49. ^ Боя, К; Поковнику, А; Бэтаган, Л. (2012). «Распределенная параллельная архитектура для больших данных». Информатика Экономика . 16 (2): 116–127.
  50. ^ «Решение ключевых бизнес-задач с помощью большого озера данных» (PDF) . Hcltech.com . Август 2014 г. Архивировано (PDF) из оригинала 3 июля 2017 г. Проверено 8 октября 2017 г.
  51. ^ «Метод проверки отказоустойчивости фреймворков MapReduce» (PDF) . Компьютерная сеть. 2015. Архивировано (PDF) из оригинала 22 июля 2016 года . Проверено 13 апреля 2016 г.
  52. ^ Перейти обратно: а б Маньика, Джеймс; Чуй, Майкл; Бюген, Жак; Браун, Брэд; Доббс, Ричард; Роксбург, Чарльз; Байерс, Анджела Хунг (май 2011 г.). «Большие данные: следующий рубеж инноваций, конкуренции и производительности» (PDF) . Глобальный институт McKinsey. Архивировано (PDF) из оригинала 25 июля 2021 года . Проверено 22 мая 2021 г.
  53. ^ «Будущие направления в тензорных вычислениях и моделировании» (PDF) . Май 2009 г. Архивировано (PDF) из оригинала 17 апреля 2018 г. Проверено 4 января 2013 г.
  54. ^ Лу, Хайпин; Платаниотис, КН; Венецанопулос, АН (2011). «Обзор многолинейного обучения подпространства для тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. Бибкод : 2011PatRe..44.1540L . дои : 10.1016/j.patcog.2011.01.004 . Архивировано (PDF) из оригинала 10 июля 2019 года . Проверено 21 января 2013 г.
  55. ^ Планана, Сабри; Янчак, Иван; Брезани, Питер; Верер, Александр (2016). «Обзор современного уровня интеллектуального анализа данных и языков интеграционных запросов». 2011 14-я Международная конференция по сетевым информационным системам . Компьютерное общество IEEE. стр. 341–348. arXiv : 1603.01113 . Бибкод : 2016arXiv160301113P . дои : 10.1109/НБиС.2011.58 . ISBN  978-1-4577-0789-6 . S2CID   9285984 .
  56. ^ Ван, Яньдун; Голдстоун, Робин; Ю, Вэйкуань; Ван, Дэн (октябрь 2014 г.). «Характеристика и оптимизация резидентной памяти MapReduce в системах HPC». 2014 28-й Международный симпозиум IEEE по параллельной и распределенной обработке . IEEE. стр. 799–808. дои : 10.1109/IPDPS.2014.87 . ISBN  978-1-4799-3800-1 . S2CID   11157612 .
  57. ^ Л'Эрё, А.; Гролингер, К.; Эльямани, ХФ; Капрец, МАМ (2017). «Машинное обучение с большими данными: проблемы и подходы» . Доступ IEEE . 5 : 7776–7797. Бибкод : 2017IEEA...5.7776L . дои : 10.1109/ACCESS.2017.2696365 . ISSN   2169-3536 .
  58. ^ Монаш, Курт (30 апреля 2009 г.). «Два огромных хранилища данных eBay» . Архивировано из оригинала 31 марта 2019 года . Проверено 11 ноября 2010 г.
    Монаш, Курт (6 октября 2010 г.). «Продолжение eBay – выход Greenplum, Teradata > 10 петабайт, Hadoop имеет некоторую ценность и многое другое» . Архивировано из оригинала 31 марта 2019 года . Проверено 11 ноября 2010 г.
  59. ^ «Ресурсы о том, как топологический анализ данных используется для анализа больших данных» . Аясди. Архивировано из оригинала 3 марта 2013 года . Проверено 5 марта 2013 г.
  60. ^ Новости CNET (1 апреля 2011 г.). «Сети хранения данных применять не обязательно» . Архивировано из оригинала 18 октября 2013 года . Проверено 17 апреля 2013 г.
  61. ^ Гильберт, Мартин (2014). «Каково содержание мировых технологических информационных и коммуникационных возможностей: сколько текста, изображений, аудио и видео?» . Информационное общество . 30 (2): 127–143. дои : 10.1080/01972243.2013.873748 . S2CID   45759014 . Архивировано из оригинала 24 июня 2020 года . Проверено 12 июля 2019 г.
  62. ^ Раджпурохит, Анмол (11 июля 2014 г.). «Интервью: Эми Гершкофф, директор по клиентской аналитике и анализу eBay, о том, как разрабатывать собственные внутренние инструменты бизнес-аналитики» . КДнаггетс . Архивировано из оригинала 14 июля 2014 года . Проверено 14 июля 2014 г. В целом я считаю, что готовые инструменты бизнес-аналитики не отвечают потребностям клиентов, которые хотят получить индивидуальную информацию из своих данных. Поэтому для средних и крупных организаций, имеющих доступ к сильным техническим специалистам, я обычно рекомендую создавать собственные собственные решения.
  63. ^ «Правительство и большие данные: использование, проблемы и потенциал» . Компьютерный мир . 21 марта 2012 года. Архивировано из оригинала 15 сентября 2016 года . Проверено 12 сентября 2016 г.
  64. ^ «Белая книга: Большие данные для развития: возможности и вызовы» . Глобальный Пульс . Объединенные Нации. 2012. Архивировано из оригинала 1 июня 2020 года . Проверено 13 апреля 2016 г.
  65. ^ «Большие данные, большое влияние: новые возможности для международного развития» . Всемирный экономический форум и Vital Wave Consulting. Архивировано из оригинала 1 июня 2020 года . Проверено 24 августа 2012 г.
  66. ^ Перейти обратно: а б с д Это Гильберт 2016 .
  67. ^ «Елена Квочко, Четыре способа говорить о больших данных (серия «Информационно-коммуникационные технологии для развития»)» . worldbank.org. 4 декабря 2012 года. Архивировано из оригинала 15 декабря 2012 года . Проверено 30 мая 2012 г.
  68. ^ «Даниэле Медри: Большие данные и бизнес: продолжающаяся революция» . Просмотры статистики. 21 октября 2013 г. Архивировано из оригинала 17 июня 2015 г. Проверено 21 июня 2015 г.
  69. ^ Тобиас Кноблох и Юлия Манске (11 января 2016 г.). «Ответственное использование данных» . D+C, Развитие и сотрудничество . Архивировано из оригинала 13 января 2017 года . Проверено 11 января 2017 г.
  70. ^ Манн С. и Хильберт М. (2020). AI4D: Искусственный интеллект для развития. Международный журнал коммуникации, 14 (0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/ . Архивировано 22 апреля 2021 г. в Wayback Machine.
  71. ^ Блюменшток, JE (2016). Борьба с бедностью с помощью данных. Наука, 353(6301), 753–754. https://doi.org/10.1126/science.aah5217 Архивировано 1 июня 2022 г. в Wayback Machine.
  72. ^ Блюменсток Дж., Кадамуро Г. и Он Р. (2015). Прогнозирование бедности и богатства на основе метаданных мобильных телефонов. Наука, 350 (6264), 1073–1076. https://doi.org/10.1126/science.aac4420 Архивировано 1 июня 2022 г. в Wayback Machine.
  73. ^ Джин, Н., Берк, М., Се, М., Дэвис, В.М., Лобелл, Д.Б., и Эрмон, С. (2016). Сочетание спутниковых изображений и машинного обучения для прогнозирования бедности. Наука, 353 (6301), 790–794. https://doi.org/10.1126/science.aaf7894 Архивировано 1 июня 2022 г. в Wayback Machine.
  74. ^ Перейти обратно: а б Гильберт М. и Лу К. (2020). Анализ онлайн-рынка труда в Латинской Америке и странах Карибского бассейна (UN ECLAC LC/TS.2020/83; стр. 79). Экономическая комиссия ООН для Латинской Америки и Карибского бассейна. https://www.cepal.org/en/publications/45892-online-job-market-trace-latin-america-and-caribbean . Архивировано 22 сентября 2020 г. на Wayback Machine.
  75. ^ ЭКЛАК ООН (Экономическая комиссия ООН для Латинской Америки и Карибского бассейна). (2020). Отслеживание цифрового следа в Латинской Америке и Карибском бассейне: уроки, извлеченные из использования больших данных для оценки цифровой экономики (Производственное развитие, гендерные вопросы LC/TS.2020/12; Documentos de Proyecto). ЭКЛАК ООН. https://repositorio.cepal.org/handle/11362/45484. Архивировано 18 сентября 2020 г. в Wayback Machine.
  76. ^ Банерджи, Амитав; Чаудхури, Супракаш (2010). «Статистика без слез: Популяции и выборки» . Журнал промышленной психиатрии . 19 (1): 60–65. дои : 10.4103/0972-6748.77642 . ISSN   0972-6748 . ПМК   3105563 . ПМИД   21694795 .
  77. ^ Олдридж, Ирен (2016). Риск в реальном времени: что инвесторам следует знать о финансовых технологиях, высокочастотной торговле и мгновенных сбоях . Стивен Кравив. Сомерсет: John Wiley & Sons, Incorporated. ISBN  978-1-119-31906-1 . OCLC   972292212 .
  78. ^ Олдридж, Ирен (2021). Наука о больших данных в финансах . Марко Авельянеда. Хобокен, Нью-Джерси: Уайли. ISBN  978-1-119-60297-2 . OCLC   1184122216 .
  79. ^ Хузер В., Чимино Дж. Дж. (июль 2016 г.). «Надвигающиеся проблемы использования больших данных» . Международный журнал радиационной онкологии, биологии, физики . 95 (3): 890–894. дои : 10.1016/j.ijrobp.2015.10.060 . ПМК   4860172 . ПМИД   26797535 .
  80. ^ Сейдич, Эрвин; Фальк, Тьяго Х. (4 июля 2018 г.). Обработка сигналов и машинное обучение для больших биомедицинских данных . Сейдич, Эрвин, Фальк, Тьяго Х. [Место публикации не указано]. ISBN  9781351061216 . OCLC   1044733829 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  81. ^ Рагхупати В., Рагхупати В. (декабрь 2014 г.). «Аналитика больших данных в здравоохранении: перспективы и потенциал» . Информатика и системы здравоохранения . 2 (1): 3. дои : 10.1186/2047-2501-2-3 . ПМЦ   4341817 . ПМИД   25825667 .
  82. ^ Вицеконти М., Хантер П., Хоуз Р. (июль 2015 г.). «Большие данные, большие знания: большие данные для персонализированного здравоохранения» (PDF) . Журнал IEEE по биомедицинской и медицинской информатике . 19 (4): 1209–15. дои : 10.1109/JBHI.2015.2406883 . ПМИД   26218867 . S2CID   14710821 . Архивировано (PDF) из оригинала 23 июля 2018 года . Проверено 21 сентября 2019 г.
  83. ^ О'Донохью, Джон; Герберт, Джон (1 октября 2012 г.). «Управление данными в среде мобильного здравоохранения: датчики пациентов, мобильные устройства и базы данных». Журнал качества данных и информации . 4 (1): 5:1–5:20. дои : 10.1145/2378016.2378021 . S2CID   2318649 .
  84. ^ Миркес Э.М., Коутс Т.Дж., Левсли Дж., Горбан А.Н. (август 2016 г.). «Обработка недостающих данных в большом наборе медицинских данных: пример неизвестных результатов травм». Компьютеры в биологии и медицине . 75 : 203–16. arXiv : 1604.00627 . Бибкод : 2016arXiv160400627M . doi : 10.1016/j.compbiomed.2016.06.004 . ПМИД   27318570 . S2CID   5874067 .
  85. ^ Мердок Т.Б., Детский А.С. (апрель 2013 г.). «Неизбежное применение больших данных в здравоохранении». ДЖАМА . 309 (13): 1351–2. дои : 10.1001/jama.2013.393 . ПМИД   23549579 . S2CID   20462354 .
  86. ^ Вайена Э., Салате М., Мэдофф Л.К., Браунштейн Дж.С. (февраль 2015 г.). «Этические проблемы больших данных в общественном здравоохранении» . PLOS Вычислительная биология . 11 (2): e1003904. Бибкод : 2015PLSCB..11E3904V . дои : 10.1371/journal.pcbi.1003904 . ПМК   4321985 . ПМИД   25664461 .
  87. ^ Коупленд, CS (июль – август 2017 г.). «Обнаружение управления данными» (PDF) . Журнал здравоохранения Нового Орлеана : 22–27. Архивировано (PDF) из оригинала 5 декабря 2019 года . Проверено 5 декабря 2019 г.
  88. ^ Янасэ и Триантафиллу 2019 .
  89. ^ Донг Х, Бахрус Н., Садху Э., Джексон Т., Чухман М., Джонсон Р., Бойд А., Хайнс Д. (2013). «Использование платформы Hadoop для крупномасштабных приложений клинической информатики». Совместные саммиты AMIA по трансляционным научным исследованиям. Совместные саммиты AMIA по трансляционной науке . 2013 : 53. ПМИД   24303235 .
  90. ^ Клюни, Д. (2013). «Томосинтез молочной железы бросает вызов инфраструктуре цифровой визуализации» . Группа науки и медицины. Архивировано из оригинала 24 февраля 2021 года . Проверено 28 ноября 2023 г.
  91. ^ Янасэ Дж., Триантафиллу Э. (2019b). «Семь ключевых задач будущего компьютерной диагностики в медицине». Международный журнал медицинской информатики . 129 : 413–22. doi : 10.1016/j.ijmedinf.2019.06.017 . PMID   31445285 . S2CID   198287435 .
  92. ^ «Ученая степень в области больших данных: мода или быстрый путь к успеху в карьере» . Форбс . Архивировано из оригинала 3 марта 2016 года . Проверено 21 февраля 2016 г.
  93. ^ «Нью-Йорк открывает новый учебный лагерь для специалистов по обработке данных: он бесплатный, но попасть в него труднее, чем в Гарвард» . Венчурный бит . Архивировано из оригинала 15 февраля 2016 года . Проверено 21 февраля 2016 г.
  94. ^ Ведель, Мишель; Каннан, ПК (2016). «Маркетинговая аналитика для сред с большим объемом данных». Журнал маркетинга . 80 (6): 97–121. дои : 10.1509/jm.15.0413 . S2CID   168410284 .
  95. ^ Могли, Ник; Туров, Джозеф (2014). «Реклама, большие данные и очистка публичной сферы: новые подходы маркетологов к субсидированию контента». Международный журнал коммуникации . 8 : 1710–1726.
  96. ^ «Почему агентства цифровой рекламы терпят неудачу в привлечении клиентов и остро нуждаются в обновлении с помощью искусственного интеллекта» . Ишти.орг . 15 апреля 2018 года. Архивировано из оригинала 12 февраля 2019 года . Проверено 15 апреля 2018 г.
  97. ^ «Большие данные и аналитика: C4 и Genius Digital» . Ibc.org . Архивировано из оригинала 8 октября 2017 года . Проверено 8 октября 2017 г.
  98. ^ Маршалл Аллен (17 июля 2018 г.). «Медицинские страховщики собирают информацию о вас – и это может поднять ваши ставки» . www.propublica.org . Архивировано из оригинала 21 июля 2018 года . Проверено 21 июля 2018 г.
  99. ^ "QuiO Named Innovation Champion of the Accenture HealthTech Innovation Challenge". Businesswire.com. 10 January 2017. Archived from the original on 22 March 2017. Retrieved 8 October 2017.
  100. ^ "A Software Platform for Operational Technology Innovation" (PDF). Predix.com. Archived from the original (PDF) on 22 March 2017. Retrieved 8 October 2017.
  101. ^ Z. Jenipher Wang (March 2017). "Big Data Driven Smart Transportation: the Underlying Story of IoT Transformed Mobility". Archived from the original on 4 July 2018. Retrieved 4 July 2018.
  102. ^ "That Internet Of Things Thing". 22 June 2009. Archived from the original on 2 May 2013. Retrieved 29 December 2017.
  103. ^ Jump up to: a b Solnik, Ray. "The Time Has Come: Analytics Delivers for IT Operations". Data Center Journal. Archived from the original on 4 August 2016. Retrieved 21 June 2016.
  104. ^ "BigSurv: Big Data Meets Survey Science". Retrieved 15 October 2023.
  105. ^ Eck, Adam; Cazar, Ana Lucía Córdova; Callegaro, Mario; Biemer, Paul (2021). ""Big Data Meets Survey Science"". Social Science Computer Review. 39 (4): 484–488. doi:10.1177/0894439319883393.
  106. ^ "Special issue: Big data meets survey science". Journal of the Royal Statistical Society Series A. 185 (S2): S165–S166.
  107. ^ "Integrating Survey and Non-survey Data to Measure Behavior and Public Opinion". www.springeropen.com. Retrieved 19 October 2023.
  108. ^ Hill, Craig A.; Biemer, Paul P.; Buskirk, Trent D.; Japec, Lilli; Kirchner, Antje; Kolenikov, Stas; Lyberg, Lars E., eds. (13 October 2020). Big Data Meets Survey Science: A Collection of Innovative Methods (1 ed.). Wiley. doi:10.1002/9781118976357. ISBN 978-1-118-97632-6. S2CID 240797608.
  109. ^ "Past Warren J. Mitofsky Innovators Award Winners - AAPOR". 7 June 2023. Retrieved 19 October 2023.
  110. ^ Strong, C. (2015). Humanizing big data : marketing at the meeting of data, social science and consumer insight. Kogan Page.
  111. ^ Strong, C. (2015). Humanizing big data : marketing at the meeting of data, social science and consumer insight. Kogan Page.
  112. ^ Berisha, B., Mëziu, E., & Shabani, I. (2022). Big data analytics in Cloud computing: An overview. Journal of Cloud Computing, 11(1), 1-10. doi:10.1186/s13677-022-00301-w
  113. ^ Bosch, Volker (2016-11-01). "Big Data in Market Research: Why More Data Does Not Automatically Mean Better Information". NIM Marketing Intelligence Review. 8 (2): 56–63. doi:10.1515/gfkmir-2016-0017.
  114. ^ МакФарланд, Дэниел А; МакФарланд, Х. Ричард (1 декабря 2015 г.). «Большие данные и опасность быть неточными». Большие данные и общество . 2 (2): 205395171560249. дои : 10.1177/2053951715602495 . ISSN   2053-9517 .
  115. ^ Шивараджа, Утайасанкар; Камаль, Мухаммад Мустафа; Ирани, Захир; Вираккоди, Вишант (01 января 2017 г.). «Критический анализ проблем больших данных и аналитических методов». Журнал бизнес-исследований . 70 : 263–286. дои : 10.1016/j.jbusres.2016.08.001 . ISSN   0148-2963 .
  116. ^ Де Лука, Луиджи М.; Херхаузен, Деннис; Троило, Габриэле; Росси, Андреа (01 июля 2021 г.). «Как и когда окупаются инвестиции в большие данные? Роль маркетинговых возможностей и инноваций в сфере услуг». Журнал Академии маркетинговых наук . 49 (4): 790–810.
  117. ^ Де Лука, Луиджи М.; Херхаузен, Деннис; Троило, Габриэле; Росси, Андреа (01 июля 2021 г.). «Как и когда окупаются инвестиции в большие данные? Роль маркетинговых возможностей и инноваций в сфере услуг». Журнал Академии маркетинговых наук . 49 (4): 790–810.
  118. ^ Де Лука, Луиджи М.; Херхаузен, Деннис; Троило, Габриэле; Росси, Андреа (01 июля 2021 г.). «Как и когда окупаются инвестиции в большие данные? Роль маркетинговых возможностей и инноваций в сфере услуг». Журнал Академии маркетинговых наук . 49 (4): 790–810.
  119. ^ Грибаускас, Андрюс; Пилинкене, Вайда; Стунджиене, Алина (3 августа 2021 г.). «Прогнозная аналитика с использованием больших данных для рынка недвижимости во время пандемии COVID-19». Журнал больших данных . 8 (1): 105. два : 10.1186/s40537-021-00476-0 . ISSN   2196-1115 . PMC 8329615. PMID 34367876.
  120. ^ Джош Рогин (2 августа 2018 г.). «Этническая чистка возвращается – в Китае» . Нет. Вашингтон Пост. Архивировано из оригинала 31 марта 2019 года . Проверено 4 августа 2018 г. Добавьте к этому беспрецедентный режим безопасности и наблюдения в Синьцзяне, который включает в себя всеобъемлющий мониторинг на основе удостоверений личности, контрольно-пропускных пунктов, распознавания лиц и сбора ДНК у миллионов людей. Власти вводят все эти данные в машину искусственного интеллекта, которая оценивает лояльность людей к Коммунистической партии, чтобы контролировать каждый аспект их жизни.
  121. ^ «Китай: Большие данные способствуют репрессиям в регионе меньшинств: программа превентивной полицейской деятельности помечает людей для расследований и задержаний» . hrw.org . Хьюман Райтс Вотч. 26 февраля 2018 г. Архивировано из оригинала 21 декабря 2019 г. Проверено 4 августа 2018 г.
  122. ^ «Дисциплина и наказание: рождение системы социального кредита в Китае» . Нация . 23 января 2019 года. Архивировано из оригинала 13 сентября 2019 года . Проверено 8 августа 2019 г.
  123. ^ «Китайская система мониторинга поведения запрещает некоторым путешествовать и покупать недвижимость» . Новости CBS . 24 апреля 2018 г. Архивировано из оригинала 13 августа 2019 г. . Проверено 8 августа 2019 г.
  124. ^ «Сложная правда о системе социального кредита Китая» . ПРОВОДНОЙ . 21 января 2019 года. Архивировано из оригинала 8 августа 2019 года . Проверено 8 августа 2019 г.
  125. ^ «Новости: Живая Мята» . Достаточно ли индийские компании понимают большие данные? . Живая мята. 23 июня 2014 года. Архивировано из оригинала 29 ноября 2014 года . Проверено 22 ноября 2014 г.
  126. ^ «Израильский стартап использует большие данные и минимальное оборудование для лечения диабета» . Таймс Израиля . Архивировано из оригинала 1 марта 2018 года . Проверено 28 февраля 2018 г.
  127. ^ Сингх, Гурпаркаш; Шультесс, Дуэйн; Хьюз, Найджел; Ванньювенхейз, Барт; Калра, Дипак (2018). «Большие данные реального мира для клинических исследований и разработки лекарств» . Открытие наркотиков сегодня . 23 (3): 652–660. дои : 10.1016/j.drudis.2017.12.002 . ПМИД   29294362 .
  128. ^ «Последние достижения мобильных облачных вычислений и Интернета вещей для приложений больших данных: опрос» . Международный журнал сетевого управления. 11 марта 2016 г. Архивировано из оригинала 1 июня 2022 г. Проверено 14 сентября 2016 г.
  129. ^ Калил, Том (29 марта 2012 г.). «Большие данные – это большое дело» . Белый дом . Архивировано из оригинала 10 января 2017 года . Проверено 26 сентября 2012 г. - из Национального архива .
  130. ^ Администрация Президента (март 2012 г.). «Большие данные в федеральном правительстве» (PDF) . Управление научно-технической политики . Архивировано (PDF) из оригинала 21 января 2017 года . Проверено 26 сентября 2012 г. - из Национального архива .
  131. ^ Лэмпитт, Эндрю (14 февраля 2013 г.). «Реальная история о том, как анализ больших данных помог Обаме победить» . Инфомир . Архивировано из оригинала 5 июля 2014 года . Проверено 31 мая 2014 г.
  132. ^ «Ноябрь 2023 | ТОП500» . Архивировано из оригинала 7 апреля 2024 года . Проверено 20 апреля 2024 г.
  133. ^ Гувер, Дж. Николас. «10 самых мощных государственных суперкомпьютеров» . Информационная неделя . УБМ. Архивировано из оригинала 16 октября 2013 года . Проверено 26 сентября 2012 г.
  134. ^ Бэмфорд, Джеймс (15 марта 2012 г.). «АНБ строит крупнейший в стране шпионский центр (смотрите, что говорите)» . Проводной . Архивировано из оригинала 4 апреля 2012 года . Проверено 18 марта 2013 г.
  135. ^ «Проведена церемония закладки фундамента центра обработки данных в Юте стоимостью 1,2 миллиарда долларов» . Агентство национальной безопасности Центральная служба безопасности. Архивировано из оригинала 5 сентября 2013 года . Проверено 18 марта 2013 г.
  136. ^ Хилл, Кашмир. «Чертежи смехотворно дорогого центра обработки данных АНБ в штате Юта позволяют предположить, что он содержит меньше информации, чем предполагалось» . Форбс . Архивировано из оригинала 29 марта 2018 года . Проверено 31 октября 2013 г.
  137. ^ Смит, Джерри; Холлман, Бен (12 июня 2013 г.). «Споры о шпионаже АНБ подчеркивают использование больших данных» . Хаффингтон Пост . Архивировано из оригинала 19 июля 2017 года . Проверено 7 мая 2018 г.
  138. ^ Вингфилд, Ник (12 марта 2013 г.). «Более точное прогнозирование поездок на работу для потенциальных покупателей жилья» . Нью-Йорк Таймс . Архивировано из оригинала 29 мая 2013 года . Проверено 21 июля 2013 г.
  139. ^ «FICO® Falcon® Менеджер по борьбе с мошенничеством» . Фико.com. Архивировано из оригинала 11 ноября 2012 года . Проверено 21 июля 2013 г.
  140. ^ Александру, Дэн. «Проф» (PDF) . cds.cern.ch. ​ ЦЕРН. Архивировано (PDF) из оригинала 15 июля 2017 года . Проверено 24 марта 2015 г.
  141. ^ «Брошюра БАК, английская версия. Презентация самого большого и мощного ускорителя частиц в мире — Большого адронного коллайдера (БАК), запущенного в 2008 году. Для общего сведения объясняются его роль, характеристики, технологии и т. д. общественность» . ЦЕРН-Брошюра-2010-006-Рус. Брошюра по БАК, английская версия . ЦЕРН. Архивировано из оригинала 19 марта 2019 года . Проверено 20 января 2013 г.
  142. ^ «Руководство по LHC, английская версия. Сборник фактов и цифр о Большом адронном коллайдере (БАК) в форме вопросов и ответов» . ЦЕРН-Брошюра-2008-001-Рус. Руководство по БАК, английская версия . ЦЕРН. Архивировано из оригинала 7 апреля 2020 года . Проверено 20 января 2013 г.
  143. ^ Брамфил, Джефф (19 января 2011 г.). «Физика высоких энергий: по петабайтному шоссе» . Природа . 469 (7330): 282–83. Бибкод : 2011Natur.469..282B . дои : 10.1038/469282a . ПМИД   21248814 . S2CID   533166 .
  144. ^ «IBM Research – Цюрих» (PDF) . Цюрих.ibm.com . Архивировано из оригинала 1 июня 2022 года . Проверено 8 октября 2017 г.
  145. ^ «Будущие массивы телескопов стимулируют развитие обработки эксабайтов» . Арс Техника . 2 апреля 2012 г. Архивировано из оригинала 31 марта 2019 г. . Проверено 15 апреля 2015 г.
  146. ^ «Заявка Австралии на массив квадратных километров – взгляд изнутри» . Разговор . 1 февраля 2012 года. Архивировано из оригинала 12 октября 2016 года . Проверено 27 сентября 2016 г.
  147. ^ «Делорт П., Форум технологического прогнозирования ICCP ОЭСР, 2012 г.» (PDF) . ОЭСР.org . Архивировано (PDF) из оригинала 19 июня 2017 года . Проверено 8 октября 2017 г.
  148. ^ «НАСА - НАСА Годдард представляет Центр НАСА по моделированию климата» . НАСА.gov . Архивировано из оригинала 3 апреля 2016 года . Проверено 13 апреля 2016 г.
  149. ^ Вебстер, Фил. «Суперкомпьютеры климата: миссия НАСА по работе с большими данными» . ЦСК Мир . Корпорация компьютерных наук. Архивировано из оригинала 4 января 2013 года . Проверено 18 января 2013 г.
  150. ^ «Эти шесть великих идей нейробиологии могут совершить прыжок из лаборатории на рынок» . Глобус и почта . 20 ноября 2014 г. Архивировано из оригинала 11 октября 2016 г. . Проверено 1 октября 2016 г.
  151. ^ «DNAstack обрабатывает огромные и сложные наборы данных ДНК с помощью Google Genomics» . Облачная платформа Google. Архивировано из оригинала 24 сентября 2016 года . Проверено 1 октября 2016 г.
  152. ^ «23andMe – Родословная» . 23andme.com . Архивировано из оригинала 18 декабря 2016 года . Проверено 29 декабря 2016 г.
  153. ^ Перейти обратно: а б Потенца, Алессандра (13 июля 2016 г.). «23andMe хочет, чтобы исследователи использовали ее наборы, чтобы расширить свою коллекцию генетических данных» . Грань . Архивировано из оригинала 29 декабря 2016 года . Проверено 29 декабря 2016 г.
  154. ^ «Этот стартап секвенирует вашу ДНК, чтобы вы могли внести свой вклад в медицинские исследования» . Компания Фаст . 23 декабря 2016 года. Архивировано из оригинала 29 декабря 2016 года . Проверено 29 декабря 2016 г.
  155. ^ Сейф, Чарльз. «23andMe ужасен, но не по тем причинам, по которым думает FDA» . Научный американец . Архивировано из оригинала 29 декабря 2016 года . Проверено 29 декабря 2016 г.
  156. ^ Залесский, Эндрю (22 июня 2016 г.). «Этот биотехнологический стартап делает ставку на то, что ваши гены создадут следующее чудо-лекарство» . CNBC. Архивировано из оригинала 29 декабря 2016 года . Проверено 29 декабря 2016 г.
  157. ^ Регаладо, Антонио. «Как 23andMe превратила вашу ДНК в машину по разработке лекарств стоимостью 1 миллиард долларов» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 29 декабря 2016 года . Проверено 29 декабря 2016 г.
  158. ^ «23andMe сообщает о резком росте запросов на данные после исследования депрессии Pfizer | FierceBiotech» . www.fightbiotech.com . 22 августа 2016 года. Архивировано из оригинала 29 декабря 2016 года . Проверено 29 декабря 2016 г.
  159. ^ Полюбуйтесь Мойо (23 октября 2015 г.). «Ученые, работающие с данными, предсказывают поражение Спрингбока» . itweb.co.za . Архивировано из оригинала 22 декабря 2015 года . Проверено 12 декабря 2015 г.
  160. ^ Бай, Чжунбо; Бай, Сяомэй (2021). «Большие данные о спорте: управление, анализ, приложения и проблемы» . Сложность . 2021 : 1–11. дои : 10.1155/2021/6676297 .
  161. ^ Регина Пазвакавамбва (17 ноября 2015 г.). «Прогнозная аналитика, большие данные меняют спорт» . itweb.co.za . Архивировано из оригинала 22 декабря 2015 года . Проверено 12 декабря 2015 г.
  162. ^ Дэйв Райан (13 ноября 2015 г.). «Спорт: где большие данные наконец-то обретают смысл» . huffingtonpost.com . Архивировано из оригинала 22 декабря 2015 года . Проверено 12 декабря 2015 г.
  163. ^ Фрэнк Би. «Как команды Формулы-1 используют большие данные, чтобы получить преимущество» . Форбс . Архивировано из оригинала 20 декабря 2015 года . Проверено 12 декабря 2015 г.
  164. ^ Тэй, Лиз. «Внутри хранилища данных eBay объемом 90 ПБ» . ITНовости. Архивировано из оригинала 15 февраля 2016 года . Проверено 12 февраля 2016 г.
  165. ^ Лейтон, Джулия (25 января 2006 г.). «Технологии Амазонки» . Деньги.howstuffworks.com. Архивировано из оригинала 28 февраля 2013 года . Проверено 5 марта 2013 г.
  166. ^ «Масштабирование Facebook до 500 миллионов пользователей и выше» . Facebook.com. Архивировано из оригинала 5 июля 2013 года . Проверено 21 июля 2013 г.
  167. ^ Констин, Джош (27 июня 2017 г.). «У Facebook сейчас 2 миллиарда пользователей в месяц… и ответственность» . ТехКранч . Архивировано из оригинала 27 декабря 2020 года . Проверено 3 сентября 2018 г.
  168. ^ «Google по-прежнему выполняет не менее 1 триллиона поисковых запросов в год» . Земля поисковых систем . 16 января 2015 года. Архивировано из оригинала 15 апреля 2015 года . Проверено 15 апреля 2015 г.
  169. ^ Халим, Абид; Джавайд, Мохд; Хан, Ибрагим; Вайшья, Раджу (2020). «Значительные применения больших данных в условиях пандемии COVID-19» . Индийский журнал ортопедии . 54 (4): 526–528. дои : 10.1007/s43465-020-00129-z . ПМК   7204193 . ПМИД   32382166 .
  170. ^ Мананкур, Винсент (10 марта 2020 г.). «Коронавирус проверяет решимость Европы в отношении конфиденциальности» . Политик . Архивировано из оригинала 20 марта 2020 года . Проверено 30 октября 2020 г.
  171. ^ Чоудхури, Амит Рой (27 марта 2020 г.). «Правительство во времена короны» . Губернаторский инсайдер . Архивировано из оригинала 20 марта 2020 года . Проверено 30 октября 2020 г.
  172. ^ Селлан-Джонс, Рори (11 февраля 2020 г.). «Китай запускает приложение «детектор близкого контакта» с коронавирусом» . Би-би-си . Архивировано из оригинала 28 февраля 2020 года . Проверено 30 октября 2020 г.
  173. ^ Сивах, Гаутам; Эсмаилпур, Амир (март 2014 г.). Зашифрованный поиск и формирование кластеров в больших данных (PDF) . Конференция ASEE 2014 Зона I. Университет Бриджпорта , Бриджпорт , Коннектикут, США. Архивировано из оригинала (PDF) 9 августа 2014 года . Проверено 26 июля 2014 г.
  174. ^ «Администрация Обамы представляет инициативу «больших данных»: объявляет о вложении 200 миллионов долларов в новые инвестиции в исследования и разработки» (PDF) . Управление научно-технической политики . Архивировано (PDF) из оригинала 21 января 2017 года – в Национальном архиве .
  175. ^ «AMPLab в Калифорнийском университете в Беркли» . Amplab.cs.berkeley.edu. Архивировано из оригинала 6 мая 2011 года . Проверено 5 марта 2013 г.
  176. ^ «NSF возглавляет федеральные усилия в области больших данных» . Национальный научный фонд (NSF). 29 марта 2012 г. Архивировано из оригинала 31 марта 2019 г. . Проверено 6 апреля 2018 г.
  177. ^ Тимоти Хантер; Теодор Молдован; Матей Захария; Джастин Ма; Майкл Франклин; Питер Аббель ; Александр Байен (октябрь 2011 г.). Масштабирование системы Mobile Millennium в облаке . Архивировано из оригинала 31 марта 2019 года . Проверено 2 ноября 2012 г.
  178. ^ Дэвид Паттерсон (5 декабря 2011 г.). «Ученые-компьютерщики могут иметь все необходимое, чтобы помочь вылечить рак» . Нью-Йорк Таймс . Архивировано из оригинала 30 января 2017 года . Проверено 26 февраля 2017 г.
  179. ^ «Госсекретарь Чу объявляет о создании нового института, который поможет ученым улучшить исследования массивов данных на суперкомпьютерах Министерства энергетики» . Energy.gov. Архивировано из оригинала 3 апреля 2019 года . Проверено 2 ноября 2012 г.
  180. ^ Янг, Шеннон (30 мая 2012 г.). «Губернатор Массачусетского технологического института объявляет об инициативе по большим данным» . Бостон.com . Архивировано из оригинала 29 июля 2021 года . Проверено 29 июля 2021 г.
  181. ^ «Большие данные @ CSAIL» . Bigdata.csail.mit.edu. 22 февраля 2013 года. Архивировано из оригинала 30 марта 2013 года . Проверено 5 марта 2013 г.
  182. ^ «Государственно-частный форум по большим данным» . Cordis.europa.eu. 1 сентября 2012 года. Архивировано из оригинала 9 марта 2021 года . Проверено 16 марта 2020 г.
  183. ^ «Институт Алана Тьюринга будет создан для исследования больших данных» . Новости BBC . 19 марта 2014 г. Архивировано из оригинала 18 августа 2021 г. Проверено 19 марта 2014 г.
  184. ^ «День вдохновения в Университете Ватерлоо, кампус Стратфорда» . betakit.com/. Архивировано из оригинала 26 февраля 2014 года . Проверено 28 февраля 2014 г.
  185. ^ Перейти обратно: а б с Рейпс, Ульф-Дитрих; Мацат, Уве (2014). «Майнинг «больших данных» с помощью сервисов больших данных» . Международный журнал интернет-науки . 1 (1): 1–8. Архивировано из оригинала 14 августа 2014 года . Проверено 14 августа 2014 г.
  186. ^ Прейс Т., Моат Х.С., Стэнли Х.Э., Бишоп С.Р. (2012). «Количественная оценка преимуществ видения вперед» . Научные отчеты . 2 : 350. Бибкод : 2012NatSR...2E.350P . дои : 10.1038/srep00350 . ПМК   3320057 . ПМИД   22482034 .
  187. ^ Маркс, Пол (5 апреля 2012 г.). «Интернет-поиски будущего связаны с экономическим успехом» . Новый учёный . Архивировано из оригинала 8 апреля 2012 года . Проверено 9 апреля 2012 г.
  188. ^ Джонстон, Кейси (6 апреля 2012 г.). «Google Trends раскрывает информацию о менталитете более богатых стран» . Арс Техника . Архивировано из оригинала 7 апреля 2012 года . Проверено 9 апреля 2012 г.
  189. ^ Тобиас Прейс (24 мая 2012 г.). «Дополнительная информация: Индекс ориентации на будущее доступен для скачивания» (PDF) . Архивировано (PDF) из оригинала 17 января 2013 года . Проверено 24 мая 2012 г.
  190. ^ Филип Болл (26 апреля 2013 г.). «Подсчет поисковых запросов в Google предсказывает движения рынка» . Природа . дои : 10.1038/nature.2013.12879 . S2CID   167357427 . Архивировано из оригинала 27 сентября 2013 года . Проверено 9 августа 2013 г.
  191. ^ Прейс Т., Моат Х.С., Стэнли Х.Э. (2013). «Количественная оценка торгового поведения на финансовых рынках с помощью Google Trends» . Научные отчеты . 3 : 1684. Бибкод : 2013NatSR...3E1684P . дои : 10.1038/srep01684 . ПМЦ   3635219 . ПМИД   23619126 .
  192. ^ Ник Билтон (26 апреля 2013 г.). «Поисковые запросы Google могут предсказывать фондовый рынок, результаты исследования» . Нью-Йорк Таймс . Архивировано из оригинала 2 июня 2013 года . Проверено 9 августа 2013 г.
  193. ^ Кристофер Мэтьюз (26 апреля 2013 г.). «Проблемы с вашим инвестиционным портфелем? Погуглите!» . Время . Архивировано из оригинала 21 августа 2013 года . Проверено 9 августа 2013 г.
  194. ^ Филип Болл (26 апреля 2013 г.). «Подсчет поисковых запросов в Google предсказывает движения рынка» . Природа . дои : 10.1038/nature.2013.12879 . S2CID   167357427 . Архивировано из оригинала 27 сентября 2013 года . Проверено 9 августа 2013 г.
  195. ^ Бернхард Уорнер (25 апреля 2013 г.). « Исследователи больших данных обращаются к Google, чтобы победить рынки» . Блумберг Бизнесуик . Архивировано из оригинала 23 июля 2013 года . Проверено 9 августа 2013 г.
  196. ^ Хэмиш Макрей (28 апреля 2013 г.). «Хэмиш Макрей: Нужна ценная информация о настроениях инвесторов? Погуглите» . Независимый . Лондон. Архивировано из оригинала 25 июля 2018 года . Проверено 9 августа 2013 г.
  197. ^ Ричард Уотерс (25 апреля 2013 г.). «Поиск Google оказался новым словом в прогнозировании фондового рынка» . Файнэншл Таймс . Архивировано из оригинала 1 июня 2022 года . Проверено 9 августа 2013 г.
  198. ^ Джейсон Палмер (25 апреля 2013 г.). «Поисковые запросы Google предсказывают движения рынка» . Би-би-си . Архивировано из оригинала 5 июня 2013 года . Проверено 9 августа 2013 г.
  199. ^ Э. Сейдич (март 2014 г.). «Адаптировать текущие инструменты для использования с большими данными». Природа . 507 (7492): 306.
  200. ^ Крис Кимбл; Яннис Милолидакис (7 октября 2015 г.). «Большие данные и бизнес-аналитика: развенчание мифов». Глобальное деловое и организационное совершенство . 35 (1): 23–34. arXiv : 1511.03085 . дои : 10.1002/JOE.21642 . ISSN   1932-2054 . Викиданные   Q56532925 .
  201. ^ Крис Андерсон (23 июня 2008 г.). «Конец теории: поток данных делает научный метод устаревшим» . Проводной . Архивировано из оригинала 27 марта 2014 года . Проверено 5 марта 2017 г.
  202. ^ Грэм М. (9 марта 2012 г.). «Большие данные и конец теории?» . Хранитель . Лондон. Архивировано из оригинала 24 июля 2013 года . Проверено 14 декабря 2016 г.
  203. ^ Шах, Шветанк; Хорн, Эндрю; Капелла, Хайме (апрель 2012 г.). «Хорошие данные не гарантируют хороших решений» . Гарвардское деловое обозрение . Архивировано из оригинала 11 сентября 2012 года . Проверено 8 сентября 2012 г.
  204. ^ Перейти обратно: а б Большие данные требуют большого видения для больших перемен. Архивировано 2 декабря 2016 года в Wayback Machine , Гилберт, М. (2014). Лондон: TEDx UCL, x = независимо организованные выступления TED
  205. ^ Алемани Оливер, Матье; Вайр, Жан-Себастьян (2015). «Большие данные и будущее производства знаний в маркетинговых исследованиях: этика, цифровые следы и абдуктивное мышление». Журнал маркетинговой аналитики . 3 (1): 5–13. дои : 10.1057/jma.2015.1 . S2CID   111360835 .
  206. ^ Джонатан Раух (1 апреля 2002 г.). «Заглядывание за угол» . Атлантический океан . Архивировано из оригинала 4 апреля 2017 года . Проверено 5 марта 2017 г.
  207. ^ Эпштейн, Дж. М., и Экстелл, Р. Л. (1996). Рост искусственных обществ: социальные науки снизу вверх. Книга Брэдфорда.
  208. ^ «Делорт П., Большие данные в биологических науках, Большие данные, Париж, 2012» (PDF) . Бигдата Париж . Архивировано из оригинала (PDF) 30 июля 2016 года . Проверено 8 октября 2017 г.
  209. ^ «Геномика следующего поколения: интегративный подход» (PDF) . природа. Июль 2010 г. Архивировано (PDF) из оригинала 13 августа 2017 г. . Проверено 18 октября 2016 г.
  210. ^ «Большие данные в биологических науках» . Октябрь 2015 г. Архивировано из оригинала 1 июня 2022 г. Проверено 18 октября 2016 г.
  211. ^ «Большие данные: совершаем ли мы большую ошибку?» . Файнэншл Таймс . 28 марта 2014 г. Архивировано из оригинала 30 июня 2016 г. Проверено 20 октября 2016 г.
  212. ^ Ом, Пол (23 августа 2012 г.). «Не создавайте базу данных о разрушениях» . Гарвардское деловое обозрение . Архивировано из оригинала 30 августа 2012 года . Проверено 29 августа 2012 г.
  213. ^ Бонд-Грэм, Дарвин (2018). «Перспектива больших данных». Архивировано 9 ноября 2020 года на Wayback Machine . Перспектива .
  214. ^ Барокас, Солон; Ниссенбаум, Хелен; Лейн, Джулия; Стодден, Виктория; Бендер, Стефан; Ниссенбаум, Хелен (июнь 2014 г.). Конец больших данных. Анонимность и согласие . Издательство Кембриджского университета. стр. 44–75. дои : 10.1017/cbo9781107590205.004 . ISBN  9781107067356 . S2CID   152939392 .
  215. ^ Лугмайр, А.; Штоклебен, Б; Шейб, К.; Майлапарампил, М.; Месия, Н.; Ранта, Х.; Лаб, Э. (1 июня 2016 г.). «Комплексный обзор исследований больших данных и их последствий. Что действительно «нового» в больших данных? Это когнитивные большие данные!» . Архивировано из оригинала 1 июня 2022 года . Проверено 27 ноября 2023 г.
  216. ^ Дана Бойд (29 апреля 2010 г.). «Конфиденциальность и публичность в контексте больших данных» . Конференция WWW 2010 . Архивировано из оригинала 22 октября 2018 года . Проверено 18 апреля 2011 г.
  217. ^ Катьял, Соня К. (2019). «Искусственный интеллект, реклама и дезинформация» . Ежеквартальный журнал «Реклама и общество» . 20 (4). дои : 10.1353/asr.2019.0026 . ISSN   2475-1790 . S2CID   213397212 . Архивировано из оригинала 28 октября 2020 года . Проверено 18 ноября 2020 г. .
  218. ^ Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere" (PDF). Annual Review of Ecology, Evolution, and Systematics. 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031. Archived (PDF) from the original on 8 July 2019. Retrieved 19 September 2012.
  219. ^ Jump up to: a b Boyd, D.; Crawford, K. (2012). "Critical Questions for Big Data". Information, Communication & Society. 15 (5): 662–679. doi:10.1080/1369118X.2012.678878. hdl:10983/1320. S2CID 51843165.
  220. ^ Failure to Launch: From Big Data to Big Decisions Archived 6 December 2016 at the Wayback Machine, Forte Wares.
  221. ^ "15 Insane Things That Correlate with Each Other". Archived from the original on 27 June 2019. Retrieved 27 June 2019.
  222. ^ "Random structures & algorithms". Archived from the original on 27 June 2019. Retrieved 27 June 2019.
  223. ^ Cristian S. Calude, Giuseppe Longo, (2016), The Deluge of Spurious Correlations in Big Data, Foundations of Science
  224. ^ Anja Lambrecht and Catherine Tucker (2016) "The 4 Mistakes Most Managers Make with Analytics," Harvard Business Review, July 12. https://hbr.org/2016/07/the-4-mistakes-most-managers-make-with-analytics Archived 26 January 2022 at the Wayback Machine
  225. ^ Jump up to: a b Gregory Piatetsky (12 August 2014). "Interview: Michael Berthold, KNIME Founder, on Research, Creativity, Big Data, and Privacy, Part 2". KDnuggets. Archived from the original on 13 August 2014. Retrieved 13 August 2014.
  226. ^ Pelt, Mason (26 October 2015). ""Big Data" is an over used buzzword and this Twitter bot proves it". Siliconangle. Archived from the original on 30 October 2015. Retrieved 4 November 2015.
  227. ^ Jump up to: a b Harford, Tim (28 March 2014). "Big data: are we making a big mistake?". Financial Times. Archived from the original on 7 April 2014. Retrieved 7 April 2014.
  228. ^ Ioannidis JP (August 2005). "Why most published research findings are false". PLOS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. PMC 1182327. PMID 16060722.
  229. ^ Lohr, Steve; Singer, Natasha (10 November 2016). "How Data Failed Us in Calling an Election". The New York Times. ISSN 0362-4331. Archived from the original on 25 November 2016. Retrieved 27 November 2016.
  230. ^ "How data-driven policing threatens human freedom". The Economist. 4 June 2018. ISSN 0013-0613. Archived from the original on 27 October 2019. Retrieved 27 October 2019.
  231. ^ Brayne, Sarah (29 August 2017). "Big Data Surveillance: The Case of Policing". American Sociological Review. 82 (5): 977–1008. doi:10.1177/0003122417725865. PMC 10846878. PMID 38322733. S2CID 3609838.

Bibliography[edit]

Further reading[edit]

External links[edit]

  • Media related to Big data at Wikimedia Commons
  • The dictionary definition of big data at Wiktionary
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 88BEAB6626DB0FF4FF9D71607279BC6F__1718170380
URL1:https://en.wikipedia.org/wiki/Big_data
Заголовок, (Title) документа по адресу, URL1:
Big data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)