Jump to content

Редактирование данных

Редактирование данных определяется как процесс, включающий просмотр и корректировку собранных данных обследования . [1] Редактирование данных помогает определить рекомендации, которые уменьшат потенциальную погрешность и обеспечат согласованность оценок, что приведет к четкому анализу набора данных путем исправления противоречивых данных с использованием методов, описанных ниже в этой статье. [2] Целью является контроль качества собранных данных. [3] Редактирование данных может выполняться вручную, с помощью компьютера или с помощью того и другого. [4]

Способы редактирования [ править ]

Методы редактирования относятся к ряду процедур и процессов, используемых для обнаружения и обработки ошибок в данных. Редактирование данных используется с целью улучшения качества получаемых статистических данных. Эти модификации могут значительно улучшить качество аналитики, созданной с целью обнаружения и исправления ошибок. Примеры различных методов редактирования данных, таких как микроредактирование, макроредактирование, выборочное редактирование или различные инструменты, используемые для редактирования данных, такие как графическое редактирование и интерактивное редактирование.

Интерактивное редактирование [ править ]

Термин «интерактивное редактирование» обычно используется для обозначения современного ручного редактирования с помощью компьютера. Большинство инструментов интерактивного редактирования данных, применяемых в национальных статистических институтах (НСИ), позволяют проверять указанные правки во время или после ввода данных и при необходимости немедленно исправлять ошибочные данные. Для исправления ошибочных данных можно использовать несколько подходов:

  • Повторно связаться с респондентом
  • Сравните данные респондента с его данными за предыдущий год.
  • Сравните данные респондента с данными аналогичных респондентов.
  • Используйте предметные знания редактора-человека.

Интерактивное редактирование — это стандартный способ редактирования данных. Его можно использовать для редактирования как категориальных , так и непрерывных данных. [5] Интерактивное редактирование сокращает сроки, необходимые для завершения циклического процесса проверки и корректировки. [6] Интерактивное редактирование также требует понимания набора данных и возможных результатов, которые могут быть получены в результате анализа данных.

Выборочное редактирование [ править ]

Выборочное редактирование — это общий термин для нескольких методов выявления влиятельных ошибок. [примечание 1] и выбросы . [примечание 2] Методы выборочного редактирования направлены на применение интерактивного редактирования к хорошо выбранному подмножеству записей, при этом ограниченное время и ресурсы, доступные для интерактивного редактирования, выделяются тем записям, где это оказывает наибольшее влияние на качество окончательных оценок опубликованных цифр. . При выборочном редактировании данные разбиваются на два потока:

  • Критический поток
  • Некритический поток

Критический поток состоит из записей, которые с большей вероятностью будут содержать важные ошибки. Эти важные записи редактируются традиционным интерактивным способом. Записи в некритическом потоке, которые вряд ли будут содержать важные ошибки, не редактируются с помощью компьютера. [7]

Методы редактирования данных [ править ]

Редактирование данных может осуществляться разными способами и в первую очередь зависит от исследуемого набора данных. [8]

Достоверность и полнота данных [ править ]

Достоверность набора данных зависит от полноты ответов, предоставленных респондентами. Одним из методов редактирования данных является обеспечение заполнения всех ответов в полях, требующих числового или нечислового ответа. См. пример ниже.

В приведенной выше таблице приведен пример неполных и недействительных данных. См. столбец 1, строку 2: ответ буквенно-цифровой, тогда как остальная часть таблицы — числовая. См. столбец 3, строку 3: ответ неполный и данные отсутствуют.

Повторяющийся ввод данных [ править ]

Проверка уникальности данных — важный аспект редактирования данных, позволяющий гарантировать, что все предоставленные данные были введены только один раз. Это снижает вероятность повторения данных, которые могут исказить аналитические отчеты. См. пример ниже.

В приведенной выше таблице приведен пример данных с повторяющимися записями. См. № 1 и 4: Данные повторяются для двух разных записей с разными индексами (№ индекса).

Выбросы [ править ]

В наборах данных часто можно обнаружить выбросы, которые, как описано ранее, представляют собой значения, которые плохо соответствуют модели данных. Эти экстремальные значения можно найти на основе распределения точек данных из предыдущих рядов данных или параллельных рядов данных для того же набора данных. Значения можно считать ошибочными и требуют дальнейшего анализа для проверки и определения достоверности ответа. См. пример ниже.

В приведенной выше таблице приведен пример экстремальных значений в наборе данных, также известных как выбросы. См. «Сотрудники 2 и 6». Данные расходятся с остальной частью таблицы.

Логические несоответствия [ править ]

Логическая непротиворечивость – это наличие логических связей и взаимозависимости между переменными. Такое редактирование требует определенного понимания набора данных и способности выявлять ошибки в данных на основе предыдущих отчетов или информации. Этот тип редактирования данных используется для учета различий между полями данных или переменными. См. пример ниже.

В приведенной выше таблице приведен пример логического несоответствия в наборе данных. См. строку 2: Задокументированный возраст Салима составляет 55 см, что нелогично и, следовательно, является ошибкой в ​​наборе данных.

Редактирование макросов [ править ]

Существует два метода редактирования макросов: [7]

Метод агрегирования [ править ]

Этому методу перед публикацией следуют почти все статистические агентства: проверяют, кажутся ли цифры, которые будут опубликованы, правдоподобными. Это достигается путем сравнения количеств в таблицах публикации с такими же количествами в предыдущих публикациях. Если наблюдается необычное значение, к отдельным записям и полям, влияющим на подозрительное количество, применяется процедура микроредактирования. [6]

Метод распространения [ править ]

Имеющиеся данные используются для характеристики распределения переменных . Затем все отдельные значения сравниваются с распределением. Записи, содержащие значения, которые можно считать необычными (с учетом распределения), являются кандидатами на дальнейшую проверку и, возможно, на редактирование. [9]

Автоматическое редактирование [ править ]

При автоматическом редактировании записи редактируются компьютером без участия человека. [10] Предварительные знания о значениях одной переменной или комбинации переменных могут быть сформулированы как набор правил редактирования, которые определяют или ограничивают допустимые значения.

Факторы редактирования данных [ править ]

Редактирование данных имеет свои ограничения, связанные с возможностями и ресурсами любого конкретного исследования. Эти детерминанты могут оказать положительное или отрицательное влияние на последующий анализ набора данных. Ниже приведены несколько факторов, определяющих редактирование данных. [8]

Доступные ресурсы: [8]

  • Время, отведенное на проект
  • Денежные и бюджетные ограничения

Доступное программное обеспечение: [8]

  • Инструменты, используемые для анализа данных
  • Доступные инструменты для выявления ошибок в наборе данных
  • Немедленная доступность программного обеспечения в зависимости от целей и задач обработки данных

Источник данных: [8]

  • Ограничения респондентов в ответах в соответствии с ожиданиями
  • Отсутствие информации от респондентов, которая не является легкодоступной
  • Последующие действия сложно поддерживать в больших пулах данных.

Координация процедуры редактирования данных: [8]

  • Субъективные взгляды на набор данных
  • Расхождения между общими целями данных
  • Методы, используемые для редактирования данных

См. также [ править ]

Примечания [ править ]

  1. ^ ошибки, которые существенно влияют на показатели публикации.
  2. ^ значения, которые плохо соответствуют модели данных

Ссылки [ править ]

  1. ^ Фергюсон, Дания П. «ВВЕДЕНИЕ В ПРОЦЕСС РЕДАКТИРОВАНИЯ ДАННЫХ» (PDF) . unece.org/ .
  2. ^ «Домашняя страница Национального центра статистики образования (NCES), часть Министерства образования США» . nces.ed.gov . Проверено 6 декабря 2020 г.
  3. ^ «ЕЭК ООН» .
  4. ^ «Статистика: сила данных! Редактирование данных» . www150.statcan.gc.ca .
  5. ^ Ваал, Тон де и др. «Справочник по редактированию и вменению статистических данных». Публикация Wiley, 2011, стр.15.
  6. ^ Jump up to: Перейти обратно: а б «Домашняя страница ЕЭК ООН» . www.unece.org .
  7. ^ Jump up to: Перейти обратно: а б Ваал, Тон де и др. «Справочник по редактированию и вменению статистических данных». Публикация Wiley, 2011, стр.16.
  8. ^ Jump up to: Перейти обратно: а б с д и ж СКАД. «СКАД» . СКАД . Проверено 7 декабря 2020 г.
  9. ^ Бетлехем, Дж. «Прикладные методы опроса: статистическая перспектива». Публикация Wiley, 2009, стр.205.
  10. ^ Ваал, Тон де и др. «Справочник по редактированию и вменению статистических данных». Публикация Уайли
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fd8b99e363a89b19a5dabbc663f0bfee__1711032000
URL1:https://arc.ask3.ru/arc/aa/fd/ee/fd8b99e363a89b19a5dabbc663f0bfee.html
Заголовок, (Title) документа по адресу, URL1:
Data editing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)