Jump to content

ОткрытьУточнить

ОткрытьУточнить
Разработчик(и) Freebase , затем Google , теперь сообщество открытого исходного кода.
Первоначальный выпуск 10 ноября 2010 г .; 13 лет назад ( 10.11.2010 )
Стабильная версия
3.8.1 [1]  Отредактируйте это в Викиданных / 21 мая 2024 г .; 25 дней назад ( 21 мая 2024 г. )
Репозиторий
Написано в Ява [2]
Платформа Microsoft Windows , Linux , MacOS
Доступно в английский, итальянский, китайский, японский, французский, немецкий
Тип
Лицензия Лицензия БСД
Веб-сайт openrefine .org  Edit this on Wikidata

OpenRefine — это настольное приложение с открытым исходным кодом для очистки и преобразования данных в другие форматы. Эта деятельность широко известна как обработка данных . [3] Он похож на приложения для работы с электронными таблицами и может работать с такими форматами файлов электронных таблиц, как CSV , но ведет себя больше как база данных.

Он работает со строками данных, ячейки которых находятся под столбцами, аналогично тому, как работают таблицы реляционной базы данных . Проекты OpenRefine состоят из одной таблицы, строки которой можно фильтровать с помощью фасетов , определяющих критерии (например, показ строк, в которых данный столбец не пуст).

В отличие от электронных таблиц, большинство операций в OpenRefine выполняются со всеми видимыми строками, например преобразование всех ячеек во всех строках под один столбец, [4] или создание нового столбца на основе существующих данных. Действия, выполненные с набором данных, сохраняются в проекте и могут быть «воспроизведены» в других наборах данных. Формулы не хранятся в ячейках, а используются для преобразования данных. Трансформация производится только один раз. [5] Выражения-формулы могут быть написаны на языке General Refine Expression Language (GREL) . [6] в Jython (т.е. Python) и Clojure . [7]

Программа работает как локальное веб-приложение: она запускает веб-сервер и открывает браузер по умолчанию по адресу 127.0.0.1:3333 .

Использует [ править ]

  • Очистка беспорядочных данных : например, если вы работаете с текстовым файлом с некоторыми полуструктурированными данными, его можно редактировать с помощью преобразований, фасетов и кластеризации, чтобы сделать данные четко структурированными. [8]
  • Преобразование данных : преобразование значений в другие форматы, нормализация и денормализация.
  • Анализ данных с веб-сайтов : OpenRefine имеет функцию выборки URL-адресов, анализатор HTML jsoup и механизм DOM. [9]
  • Добавление данных в набор данных путем их получения из веб-сервисов (т. е. возврата JSON ). [10] Например, может использоваться для геокодирования адресов в географические координаты . [11]
  • Привязка к Викиданным (ранее Freebase) [12] ): это включает в себя сверку — сопоставление строковых значений в ячейках с объектами в Викиданных. [13]

Поддерживаемые форматы [ править ]

Импорт поддерживается из следующих форматов: [14]

Если входные данные имеют нестандартный текстовый формат, их можно импортировать целыми строками, без разделения на столбцы, а затем извлечь столбцы позже с помощью инструментов OpenRefine. Поддерживаются архивированные и сжатые файлы (.zip, .tar.gz, .tgz, .tar.bz2, .gz или .bz2), а Refine может загружать входные файлы по URL-адресу . Чтобы использовать веб-страницы в качестве входных данных, можно импортировать список URL-адресов, а затем вызвать функцию выборки URL-адресов.

Экспорт поддерживается в следующих форматах: [16]

Целые проекты OpenRefine в собственном формате можно экспортировать в виде архива .tar.gz .

Развитие [ править ]

OpenRefine начал свою жизнь как Freebase Gridworks, разработанный Metaweb и доступный с открытым исходным кодом с января 2010 года. [17] 16 июля 2010 года Google приобрела Metaweb. [18] создатели Freebase , а 10 ноября 2010 года Freebase Gridwords переименовали в Google Refine , выпустив версию 2.0. [19] 2 октября 2012 года первоначальный автор Дэвид Хьюн объявил, что Google вскоре прекратит активную поддержку Google Refine. [20] [21] [22] С тех пор кодовая база находилась в стадии перехода к проекту с открытым исходным кодом под названием OpenRefine. [23]

Ссылки [ править ]

  1. ^ «Выпуск 3.8.1» . Гитхаб . 21 мая 2024 г. Проверено 22 мая 2024 г.
  2. ^ «OpenRefine/OpenRefine — GitHub» . Гитхаб . Проверено 25 июня 2017 г.
  3. ^ «openrefine.github.com» . openrefine.org .
  4. ^ «Редактирование путем преобразования: вики-страница редактирования ячеек из документации Refine» . Проверено 18 апреля 2012 г.
  5. ^ «Сравнение с программным обеспечением для работы с электронными таблицами: вики-страница Cell Editing в документации Refine» . Проверено 18 апреля 2012 г.
  6. ^ Общий язык выражений Refine OpenRefine/OpenRefine Wiki GitHub . Github.com (3 апреля 2013 г.). Проверено 16 августа 2013 г.
  7. ^ «Выражения: уточнение документации» . Проверено 18 апреля 2012 г.
  8. ^ «Скринкаст: Google Refine 2.0 – Введение (1 из 3) – редактирование правительственных данных» . Ютуб . Проверено 18 апреля 2012 г.
  9. ^ «Удаление HTML: усовершенствование вики-страницы документации» . Проверено 18 апреля 2012 г.
  10. ^ «Вики-страница FetchingURLsFromWebServices: уточнение документации» . Проверено 18 апреля 2012 г.
  11. ^ «Скринкаст: Google Refine 2.0 — Увеличение данных (3 из 3) — использование Openstreetmap Nominatim для геокодирования и Freebase для расширения» . Ютуб . Проверено 18 апреля 2012 г.
  12. ^ «Выравнивание схемы: уточнение вики-страницы документации» . Проверено 18 апреля 2012 г.
  13. ^ «Документация OpenRefine: сверка» . Гитхаб . Проверено 12 марта 2017 г.
  14. ^ «Импортеры: усовершенствовать вики-страницу документации» . Проверено 18 апреля 2012 г.
  15. ^ «Изменения для 2.5» . Проверено 18 апреля 2012 г.
  16. ^ «Экспорт: вики-страница уточнения документации» . Проверено 18 апреля 2012 г.
  17. ^ «Архив кода Google — долгосрочное хранилище для хостинга проектов Google Code» . code.google.com .
  18. ^ «Официальный блог Google: более глубокое понимание Metaweb» . Проверено 18 апреля 2012 г.
  19. ^ «Блог Google Opensource: анонс Google Refine 2.0, мощного инструмента для обработки данных» . Проверено 18 апреля 2012 г.
  20. ^ «Группы Google» . groups.google.com .
  21. ^ «От Freebase Gridworks до Google Refine и теперь OpenRefine» .
  22. ^ OpenRefine. Архивировано 25 сентября 2016 г. на Wayback Machine . ОткрытьУточнить. Проверено 16 августа 2013 г.
  23. ^ google-refine — Google Refine, мощный инструмент для работы с беспорядочными данными (ранее Freebase Gridworks) — Хостинг проектов Google . Код.google.com. Проверено 16 августа 2013 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1d3b659db463109fc0a1cd078fd33dde__1705766880
URL1:https://arc.ask3.ru/arc/aa/1d/de/1d3b659db463109fc0a1cd078fd33dde.html
Заголовок, (Title) документа по адресу, URL1:
OpenRefine - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)