Предварительная обработка данных
Эта статья нуждается в дополнительных цитатах для проверки . ( август 2023 г. ) |
Предварительная обработка данных может относиться к манипулированию, фильтрации или дополнению данных перед их анализом. [1] и часто является важным шагом в процессе интеллектуального анализа данных . Методы сбора данных часто слабо контролируются, что приводит, к выходу значений за пределы допустимого диапазона, невозможным комбинациям данных и пропущенным значениям среди прочего, .
Используемый конвейер предварительной обработки часто может иметь большое влияние на выводы, сделанные в результате последующего анализа. представление и качество данных . Таким образом, перед проведением любого анализа необходимо [2] Часто предварительная обработка данных является наиболее важным этапом проекта машинного обучения , особенно в вычислительной биологии . [3] Если присутствует высокая доля нерелевантной и избыточной информации или зашумленных и ненадежных данных, обнаружение знаний на этапе обучения может быть более трудным. Этапы подготовки и фильтрации данных могут занять значительное время обработки. Примеры методов, используемых при предварительной обработке данных, включают очистку , выбор экземпляра , нормализацию , горячее кодирование , преобразование данных , извлечение признаков и выбор признаков .
Приложения
[ редактировать ]Интеллектуальный анализ данных
[ редактировать ]Этот раздел может потребовать очистки Википедии , чтобы соответствовать стандартам качества . Конкретная проблема: этот раздел требует исправлений грамматики и использования заглавных букв. ( Август 2023 г. ) |
Предварительная обработка данных позволяет удалять ненужные данные с помощью очистки данных. Это позволяет пользователю иметь набор данных, содержащий более ценную информацию после этапа предварительной обработки для манипулирования данными на более позднем этапе процесса интеллектуального анализа данных. Редактирование такого набора данных для исправления искажения данных или человеческой ошибки является важным шагом для получения точных количественных показателей, таких как истинно положительные, истинно отрицательные, ложноположительные и ложноотрицательные результаты, обнаруженные в матрице путаницы , которые обычно используются для медицинского диагноза. Пользователи могут объединять файлы данных вместе и использовать предварительную обработку для фильтрации ненужного шума из данных, что может обеспечить более высокую точность. Пользователи используют сценарии программирования Python в сопровождении библиотеки pandas, которая дает им возможность импортировать данные из значений, разделенных запятыми, в виде фрейма данных. Затем фрейм данных используется для манипулирования данными, которые в противном случае было бы сложно выполнить в Excel. Pandas (программное обеспечение) — мощный инструмент, позволяющий анализировать и манипулировать данными; что значительно упрощает визуализацию данных, статистические операции и многое другое. Многие также используют Язык программирования R также позволяет выполнять такие задачи.
Причина, по которой пользователь преобразует существующие файлы в новые, обусловлена многими причинами. Аспекты предварительной обработки данных могут включать в себя вменение пропущенных значений, агрегирование числовых величин и преобразование непрерывных данных в категории ( группирование данных ). [4] Более продвинутые методы, такие как анализ главных компонентов и выбор признаков, работают со статистическими формулами и применяются к сложным наборам данных, которые записываются GPS-трекерами и устройствами захвата движения.
Предварительная обработка семантических данных
[ редактировать ]Семантический анализ данных — это подмножество интеллектуального анализа данных, которое специально направлено на включение знаний предметной области , таких как формальная семантика, в процесс интеллектуального анализа данных. Знания предметной области — это знания о среде, в которой обрабатывались данные. Знания предметной области могут оказывать положительное влияние на многие аспекты интеллектуального анализа данных, например, на фильтрацию избыточных или противоречивых данных на этапе предварительной обработки. [5] Знания предметной области также действуют как ограничение. Это достигается за счет использования набора предварительных знаний, чтобы уменьшить пространство, необходимое для поиска, и выступать в качестве руководства к данным. Проще говоря, семантическая предварительная обработка направлена на более правильную и эффективную фильтрацию данных с использованием исходной среды этих данных.
Возникают все более сложные проблемы, которые требуют решения с помощью более сложных методов для лучшего анализа существующей информации. [ факт или мнение? ] Вместо создания простого сценария для агрегирования различных числовых значений в одно значение имеет смысл сосредоточиться на предварительной обработке данных на основе семантики. [6] Идея состоит в том, чтобы построить специальную онтологию , которая объясняет на более высоком уровне, в чем состоит проблема. [7] Что касается семантического интеллектуального анализа данных и семантической предварительной обработки, онтологии — это способ концептуализировать и формально определить семантические знания и данные. Protégé (программное обеспечение) — это стандартный инструмент для построения онтологии. [ нужна ссылка ] В общем, использование онтологий устраняет пробелы между данными, приложениями, алгоритмами и результатами, возникающими из-за семантических несоответствий. В результате семантический анализ данных в сочетании с онтологией имеет множество приложений, в которых семантическая неоднозначность может повлиять на полезность и эффективность систем данных. [ нужна ссылка ] Приложения включают медицинскую сферу, языковую обработку, банковское дело, [8] и даже репетиторство, [9] среди многих других.
Использование семантического анализа данных и подхода, основанного на онтологии, имеет различные преимущества. Как упоминалось ранее, эти инструменты могут помочь на этапе каждой обработки, отфильтровывая нежелательные данные из набора данных. Кроме того, хорошо структурированная формальная семантика, интегрированная в хорошо спроектированные онтологии, может возвращать мощные данные, которые могут быть легко прочитаны и обработаны машинами. [10] Особенно полезный пример этого существует в медицинском использовании обработки семантических данных. Например, пациенту требуется неотложная медицинская помощь, и его срочно доставляют в больницу. Спасатели пытаются найти лучшее лекарство, которое можно ввести, чтобы помочь пациенту. При обычной обработке данных просмотр всех медицинских данных пациента с целью убедиться, что он получает наилучшее лечение, может занять слишком много времени и поставить под угрозу здоровье или даже жизнь пациента. Однако, используя семантически обработанные онтологии, службы экстренного реагирования могут спасти жизнь пациента. Такие инструменты, как семантический анализатор, могут использовать онтологию , чтобы сделать вывод о том, какое лекарство лучше всего назначить пациенту, на основе его истории болезни, например, есть ли у него определенный рак или другие состояния, просто путем изучения естественного языка, используемого в медицинских записях пациента. . [11] Это позволило бы службам экстренного реагирования быстро и эффективно искать лекарство, не беспокоясь об истории болезни пациента, поскольку специалист по семантическому рассуждению уже проанализировал бы эти данные и нашел решения. В целом это иллюстрирует невероятную силу использования семантического анализа данных и онтологий. Они позволяют быстрее и эффективнее извлекать данные на стороне пользователя, поскольку пользователю приходится учитывать меньше переменных, поскольку семантически предварительно обработанные данные и онтология, построенная для данных, уже учтены многие из этих переменных. Однако у этого подхода есть некоторые недостатки. А именно, это требует больших вычислительных мощностей и сложности даже при относительно небольших наборах данных. [12] Это может привести к увеличению затрат и увеличению трудностей при создании и обслуживании систем семантической обработки данных. Это можно несколько смягчить, если набор данных уже хорошо организован и отформатирован, но даже в этом случае сложность все равно выше по сравнению со стандартной обработкой данных. [ тон ]
Ниже представлена простая диаграмма, объединяющая некоторые процессы, в частности семантический анализ данных и их использование в онтологии.
На диаграмме изображен набор данных, разбитый на две части: характеристики предметной области или знания предметной области, а затем фактически полученные данные. Характеристики предметной области затем обрабатываются, чтобы стать понятными пользователю знаниями предметной области, которые можно применить к данным. Тем временем набор данных обрабатывается и сохраняется, чтобы к нему можно было применить знания предметной области и продолжить процесс. Это приложение формирует онтологию. После этого онтологию можно использовать для анализа данных и обработки результатов.
Нечеткая предварительная обработка — еще один, более продвинутый метод решения сложных задач. Нечеткая предварительная обработка и нечеткий интеллектуальный анализ данных используют нечеткие множества . Эти наборы данных состоят из двух элементов: набора и функции принадлежности для набора, который содержит 0 и 1. Нечеткая предварительная обработка использует этот нечеткий набор данных для обоснования числовых значений лингвистической информацией. Необработанные данные затем преобразуются в естественный язык . В конечном счете, цель нечеткого интеллектуального анализа данных — помочь справиться с неточной информацией, например с неполной базой данных. В настоящее время нечеткая предварительная обработка, а также другие методы интеллектуального анализа данных на основе нечеткости часто используются с нейронными сетями и искусственным интеллектом. [13]
Ссылки
[ редактировать ]- ^ «Руководство по очистке данных: определение, преимущества, компоненты и способы очистки данных» . Таблица . Проверено 17 октября 2021 г.
- ^ Пайл, Д., 1999. Подготовка данных для интеллектуального анализа данных. Издательство Morgan Kaufmann, Лос-Альтос, Калифорния .
- ^ Чикко Д. (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии» . Добыча биоданных . 10 (35): 35. дои : 10.1186/s13040-017-0155-3 . ПМК 5721660 . ПМИД 29234465 .
- ^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Спрингер. ISBN 978-0-387-84884-6 .
- ^ Доу, Дэйцзин и Ван, Хао и Лю, Хайшань. «Семантический анализ данных: обзор подходов, основанных на онтологиях» (PDF) . Университет Орегона.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Калмоне, Розарио и Фальчиони, Марко и Квадрини, Микела (2014). Основанная на онтологии платформа для предварительной обработки семантических данных, направленная на распознавание человеческой деятельности . SEMAPRO 2014: Восьмая международная конференция по достижениям в области семантической обработки. Алексей Чепцов, Центр высокопроизводительных вычислений Штутгарт (HLRS). S2CID 196091422 .
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Дэвид Перес-Рей, Альберто Ангита и Хосе Креспо (2006). OntoDataClean: интеграция и предварительная обработка распределенных данных на основе онтологий . Анализ биологических и медицинских данных. Шпрингер Берлин Гейдельберг. стр. 262–272. дои : 10.1007/11946465_24 .
- ^ Ерашеня, Наталья и Болотов, Александр и Чан, Давид и Пьерантони, Габриэле (2020). «Предварительная обработка семантических данных для вычислительной модели прогнозирования банкротства на основе машинного обучения» . 22-я конференция IEEE по бизнес-информатике (CBI) 2020 г. (PDF) . IEEE. стр. 66–75. дои : 10.1109/CBI49978.2020.00015 . ISBN 978-1-7281-9926-9 . S2CID 219499599 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Чанг, Майга; Д'Аньелло, Джузеппе; Гаэта, Маттео; Орчуоли, Франческо; Сэмпсон, Деметруа; Симонелли, Кармин (2020). «Построение моделей обучения на основе онтологий для интеллектуальных систем обучения с использованием интеллектуального анализа данных» . Доступ IEEE . 8 . IEEE: 48151–48162. Бибкод : 2020IEEA...848151C . дои : 10.1109/ACCESS.2020.2979281 . S2CID 214594754 .
- ^ Доу, Дэйцзин и Ван, Хао и Лю, Хайшань. «Семантический анализ данных: обзор подходов, основанных на онтологиях» (PDF) . Университет Орегона.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Кан, Атиф и Дусетт, Джон А. и Джин, Чанцзю и Фу Лицзе и Коэн, Робин. «ОНТОЛОГИЧЕСКИЙ ПОДХОД К АНАЛИЗУ ДАННЫХ ДЛЯ НЕОТЛОЖНОЙ МЕДИЦИНСКОЙ МЕДИЦИНЫ» (PDF) . Университет Ватерлоо.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Сиричанья, Чанми и Крайсак Кесорн (2021). «Семантический анализ данных в век информации: систематический обзор» . Международный журнал интеллектуальных систем . 36 (8): 3880–3916. дои : 10.1002/int.22443 . S2CID 235506360 .
- ^ Вонг, Кок Вай и Фунг, Чун Че и Ло, Кок Вэй (2000). «Правила нечеткой предварительной обработки для улучшения модели интерпретации каротажа скважин искусственной нейронной сетью» . Труды TENCON 2000 года. Интеллектуальные системы и технологии нового тысячелетия (Кат. № 00CH37119) . Том. 1. ИИЭР. стр. 400–405. дои : 10.1109/TENCON.2000.893697 . ISBN 0-7803-6355-8 . S2CID 10384426 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка )