Редактирование данных
Редактирование данных определяется как процесс, включающий просмотр и корректировку собранных данных обследования . [1] Редактирование данных помогает определить рекомендации, которые уменьшат потенциальную погрешность и обеспечат согласованность оценок, что приведет к четкому анализу набора данных путем исправления противоречивых данных с использованием методов, описанных ниже в этой статье. [2] Целью является контроль качества собранных данных. [3] Редактирование данных может выполняться вручную, с помощью компьютера или с помощью того и другого. [4]
Способы редактирования [ править ]
Методы редактирования относятся к ряду процедур и процессов, используемых для обнаружения и обработки ошибок в данных. Редактирование данных используется с целью улучшения качества получаемых статистических данных. Эти модификации могут значительно улучшить качество аналитики, созданной с целью обнаружения и исправления ошибок. Примеры различных методов редактирования данных, таких как микроредактирование, макроредактирование, выборочное редактирование или различные инструменты, используемые для редактирования данных, такие как графическое редактирование и интерактивное редактирование.
Интерактивное редактирование [ править ]
Термин «интерактивное редактирование» обычно используется для обозначения современного ручного редактирования с помощью компьютера. Большинство инструментов интерактивного редактирования данных, применяемых в национальных статистических институтах (НСИ), позволяют проверять указанные правки во время или после ввода данных и при необходимости немедленно исправлять ошибочные данные. Для исправления ошибочных данных можно использовать несколько подходов:
- Повторно связаться с респондентом
- Сравните данные респондента с его данными за предыдущий год.
- Сравните данные респондента с данными аналогичных респондентов.
- Используйте предметные знания редактора-человека.
Интерактивное редактирование — это стандартный способ редактирования данных. Его можно использовать для редактирования как категориальных , так и непрерывных данных. [5] Интерактивное редактирование сокращает сроки, необходимые для завершения циклического процесса проверки и корректировки. [6] Интерактивное редактирование также требует понимания набора данных и возможных результатов, которые могут быть получены в результате анализа данных.
Выборочное редактирование [ править ]
Выборочное редактирование — это общий термин для нескольких методов выявления влиятельных ошибок. [примечание 1] и выбросы . [примечание 2] Методы выборочного редактирования направлены на применение интерактивного редактирования к хорошо выбранному подмножеству записей, при этом ограниченное время и ресурсы, доступные для интерактивного редактирования, выделяются тем записям, где это оказывает наибольшее влияние на качество окончательных оценок опубликованных цифр. . При выборочном редактировании данные разбиваются на два потока:
- Критический поток
- Некритический поток
Критический поток состоит из записей, которые с большей вероятностью будут содержать важные ошибки. Эти важные записи редактируются традиционным интерактивным способом. Записи в некритическом потоке, которые вряд ли будут содержать важные ошибки, не редактируются с помощью компьютера. [7]
Методы редактирования данных [ править ]
Редактирование данных может осуществляться разными способами и в первую очередь зависит от исследуемого набора данных. [8]
Достоверность и полнота данных [ править ]
Достоверность набора данных зависит от полноты ответов, предоставленных респондентами. Одним из методов редактирования данных является обеспечение заполнения всех ответов в полях, требующих числового или нечислового ответа. См. пример ниже.

Повторяющийся ввод данных [ править ]
Проверка уникальности данных — важный аспект редактирования данных, позволяющий гарантировать, что все предоставленные данные были введены только один раз. Это снижает вероятность повторения данных, которые могут исказить аналитические отчеты. См. пример ниже.

Выбросы [ править ]
В наборах данных часто можно обнаружить выбросы, которые, как описано ранее, представляют собой значения, которые плохо соответствуют модели данных. Эти экстремальные значения можно найти на основе распределения точек данных из предыдущих рядов данных или параллельных рядов данных для того же набора данных. Значения можно считать ошибочными и требуют дальнейшего анализа для проверки и определения достоверности ответа. См. пример ниже.

Логические несоответствия [ править ]
Логическая непротиворечивость – это наличие логических связей и взаимозависимости между переменными. Такое редактирование требует определенного понимания набора данных и способности выявлять ошибки в данных на основе предыдущих отчетов или информации. Этот тип редактирования данных используется для учета различий между полями данных или переменными. См. пример ниже.

Редактирование макросов [ править ]
Существует два метода редактирования макросов: [7]
Метод агрегирования [ править ]
Этому методу перед публикацией следуют почти все статистические агентства: проверяют, кажутся ли цифры, которые будут опубликованы, правдоподобными. Это достигается путем сравнения количеств в таблицах публикации с такими же количествами в предыдущих публикациях. Если наблюдается необычное значение, к отдельным записям и полям, влияющим на подозрительное количество, применяется процедура микроредактирования. [6]
Метод распространения [ править ]
Имеющиеся данные используются для характеристики распределения переменных . Затем все отдельные значения сравниваются с распределением. Записи, содержащие значения, которые можно считать необычными (с учетом распределения), являются кандидатами на дальнейшую проверку и, возможно, на редактирование. [9]
Автоматическое редактирование [ править ]
При автоматическом редактировании записи редактируются компьютером без участия человека. [10] Предварительные знания о значениях одной переменной или комбинации переменных могут быть сформулированы как набор правил редактирования, которые определяют или ограничивают допустимые значения.
Факторы редактирования данных [ править ]
Редактирование данных имеет свои ограничения, связанные с возможностями и ресурсами любого конкретного исследования. Эти детерминанты могут оказать положительное или отрицательное влияние на последующий анализ набора данных. Ниже приведены несколько факторов, определяющих редактирование данных. [8]
Доступные ресурсы: [8]
- Время, отведенное на проект
- Денежные и бюджетные ограничения
Доступное программное обеспечение: [8]
- Инструменты, используемые для анализа данных
- Доступные инструменты для выявления ошибок в наборе данных
- Немедленная доступность программного обеспечения в зависимости от целей и задач обработки данных
Источник данных: [8]
- Ограничения респондентов в ответах в соответствии с ожиданиями
- Отсутствие информации от респондентов, которая не является легкодоступной
- Последующие действия сложно поддерживать в больших пулах данных.
Координация процедуры редактирования данных: [8]
- Субъективные взгляды на набор данных
- Расхождения между общими целями данных
- Методы, используемые для редактирования данных
См. также [ править ]
- Очистка данных
- Предварительная обработка данных
- Обсуждение данных
- Итеративная пропорциональная подгонка
- Триангуляция (социальные науки)
Примечания [ править ]
Ссылки [ править ]
- ^ Фергюсон, Дания П. «ВВЕДЕНИЕ В ПРОЦЕСС РЕДАКТИРОВАНИЯ ДАННЫХ» (PDF) . unece.org/ .
- ^ «Домашняя страница Национального центра статистики образования (NCES), часть Министерства образования США» . nces.ed.gov . Проверено 6 декабря 2020 г.
- ^ «ЕЭК ООН» .
- ^ «Статистика: сила данных! Редактирование данных» . www150.statcan.gc.ca .
- ^ Ваал, Тон де и др. «Справочник по редактированию и вменению статистических данных». Публикация Wiley, 2011, стр.15.
- ^ Jump up to: Перейти обратно: а б «Домашняя страница ЕЭК ООН» . www.unece.org .
- ^ Jump up to: Перейти обратно: а б Ваал, Тон де и др. «Справочник по редактированию и вменению статистических данных». Публикация Wiley, 2011, стр.16.
- ^ Jump up to: Перейти обратно: а б с д и ж СКАД. «СКАД» . СКАД . Проверено 7 декабря 2020 г.
- ^ Бетлехем, Дж. «Прикладные методы опроса: статистическая перспектива». Публикация Wiley, 2009, стр.205.
- ^ Ваал, Тон де и др. «Справочник по редактированию и вменению статистических данных». Публикация Уайли