ОткрытьУточнить
![]() | |
Разработчик(и) | Freebase , затем Google , теперь сообщество открытого исходного кода. |
---|---|
Первоначальный выпуск | 10 ноября 2010 г |
Стабильная версия | 3.8.1 [1] ![]() |
Репозиторий | |
Написано в | Ява [2] |
Платформа | Microsoft Windows , Linux , MacOS |
Доступно в | английский, итальянский, китайский, японский, французский, немецкий |
Тип | |
Лицензия | Лицензия БСД |
Веб-сайт | openrefine ![]() |
OpenRefine — это настольное приложение с открытым исходным кодом для очистки и преобразования данных в другие форматы. Эта деятельность широко известна как обработка данных . [3] Он похож на приложения для работы с электронными таблицами и может работать с такими форматами файлов электронных таблиц, как CSV , но ведет себя больше как база данных.
Он работает со строками данных, ячейки которых находятся под столбцами, аналогично тому, как работают таблицы реляционной базы данных . Проекты OpenRefine состоят из одной таблицы, строки которой можно фильтровать с помощью фасетов , определяющих критерии (например, показ строк, в которых данный столбец не пуст).
В отличие от электронных таблиц, большинство операций в OpenRefine выполняются со всеми видимыми строками, например преобразование всех ячеек во всех строках под один столбец, [4] или создание нового столбца на основе существующих данных. Действия, выполненные с набором данных, сохраняются в проекте и могут быть «воспроизведены» в других наборах данных. Формулы не хранятся в ячейках, а используются для преобразования данных. Трансформация производится только один раз. [5] Выражения-формулы могут быть написаны на языке General Refine Expression Language (GREL) . [6] в Jython (т.е. Python) и Clojure . [7]
Программа работает как локальное веб-приложение: она запускает веб-сервер и открывает браузер по умолчанию по адресу 127.0.0.1:3333 .
Использует [ править ]
- Очистка беспорядочных данных : например, если вы работаете с текстовым файлом с некоторыми полуструктурированными данными, его можно редактировать с помощью преобразований, фасетов и кластеризации, чтобы сделать данные четко структурированными. [8]
- Преобразование данных : преобразование значений в другие форматы, нормализация и денормализация.
- Анализ данных с веб-сайтов : OpenRefine имеет функцию выборки URL-адресов, анализатор HTML jsoup и механизм DOM. [9]
- Добавление данных в набор данных путем их получения из веб-сервисов (т. е. возврата JSON ). [10] Например, может использоваться для геокодирования адресов в географические координаты . [11]
- Привязка к Викиданным (ранее Freebase) [12] ): это включает в себя сверку — сопоставление строковых значений в ячейках с объектами в Викиданных. [13]
Поддерживаемые форматы [ править ]
Импорт поддерживается из следующих форматов: [14]
- ТСВ , КСВ
- Текстовый файл с настраиваемыми разделителями или столбцами, разделенными по фиксированной ширине.
- XML
- Тройки RDF ( RDF/XML и Notation3 ) форматы сериализации
- JSON
- Таблицы Google [15]
Если входные данные имеют нестандартный текстовый формат, их можно импортировать целыми строками, без разделения на столбцы, а затем извлечь столбцы позже с помощью инструментов OpenRefine. Поддерживаются архивированные и сжатые файлы (.zip, .tar.gz, .tgz, .tar.bz2, .gz или .bz2), а Refine может загружать входные файлы по URL-адресу . Чтобы использовать веб-страницы в качестве входных данных, можно импортировать список URL-адресов, а затем вызвать функцию выборки URL-адресов.
Экспорт поддерживается в следующих форматах: [16]
- ТСВ
- CSV-файл
- Майкрософт Эксель
- HTML-таблица
- Таблицы Google
- Экспортер шаблонов: можно определить собственный шаблон для вывода данных, например, в виде MediaWiki . таблицы
Целые проекты OpenRefine в собственном формате можно экспортировать в виде архива .tar.gz .
Развитие [ править ]
OpenRefine начал свою жизнь как Freebase Gridworks, разработанный Metaweb и доступный с открытым исходным кодом с января 2010 года. [17] 16 июля 2010 года Google приобрела Metaweb. [18] создатели Freebase , а 10 ноября 2010 года Freebase Gridwords переименовали в Google Refine , выпустив версию 2.0. [19] 2 октября 2012 года первоначальный автор Дэвид Хьюн объявил, что Google вскоре прекратит активную поддержку Google Refine. [20] [21] [22] С тех пор кодовая база находилась в стадии перехода к проекту с открытым исходным кодом под названием OpenRefine. [23]
Ссылки [ править ]
- ^ «Выпуск 3.8.1» . Гитхаб . 21 мая 2024 г. Проверено 22 мая 2024 г.
- ^ «OpenRefine/OpenRefine — GitHub» . Гитхаб . Проверено 25 июня 2017 г.
- ^ «openrefine.github.com» . openrefine.org .
- ^ «Редактирование путем преобразования: вики-страница редактирования ячеек из документации Refine» . Проверено 18 апреля 2012 г.
- ^ «Сравнение с программным обеспечением для работы с электронными таблицами: вики-страница Cell Editing в документации Refine» . Проверено 18 апреля 2012 г.
- ^ Общий язык выражений Refine OpenRefine/OpenRefine Wiki GitHub . Github.com (3 апреля 2013 г.). Проверено 16 августа 2013 г.
- ^ «Выражения: уточнение документации» . Проверено 18 апреля 2012 г.
- ^ «Скринкаст: Google Refine 2.0 – Введение (1 из 3) – редактирование правительственных данных» . Ютуб . Проверено 18 апреля 2012 г.
- ^ «Удаление HTML: усовершенствование вики-страницы документации» . Проверено 18 апреля 2012 г.
- ^ «Вики-страница FetchingURLsFromWebServices: уточнение документации» . Проверено 18 апреля 2012 г.
- ^ «Скринкаст: Google Refine 2.0 — Увеличение данных (3 из 3) — использование Openstreetmap Nominatim для геокодирования и Freebase для расширения» . Ютуб . Проверено 18 апреля 2012 г.
- ^ «Выравнивание схемы: уточнение вики-страницы документации» . Проверено 18 апреля 2012 г.
- ^ «Документация OpenRefine: сверка» . Гитхаб . Проверено 12 марта 2017 г.
- ^ «Импортеры: усовершенствовать вики-страницу документации» . Проверено 18 апреля 2012 г.
- ^ «Изменения для 2.5» . Проверено 18 апреля 2012 г.
- ^ «Экспорт: вики-страница уточнения документации» . Проверено 18 апреля 2012 г.
- ^ «Архив кода Google — долгосрочное хранилище для хостинга проектов Google Code» . code.google.com .
- ^ «Официальный блог Google: более глубокое понимание Metaweb» . Проверено 18 апреля 2012 г.
- ^ «Блог Google Opensource: анонс Google Refine 2.0, мощного инструмента для обработки данных» . Проверено 18 апреля 2012 г.
- ^ «Группы Google» . groups.google.com .
- ^ «От Freebase Gridworks до Google Refine и теперь OpenRefine» .
- ^ OpenRefine. Архивировано 25 сентября 2016 г. на Wayback Machine . ОткрытьУточнить. Проверено 16 августа 2013 г.
- ^ google-refine — Google Refine, мощный инструмент для работы с беспорядочными данными (ранее Freebase Gridworks) — Хостинг проектов Google . Код.google.com. Проверено 16 августа 2013 г.
Внешние ссылки [ править ]
- Бесплатное программное обеспечение, написанное на Java (языке программирования).
- программное обеспечение Google
- Программное обеспечение для управления данными
- Извлечение, преобразование, загрузка инструментов
- Кроссплатформенное бесплатное программное обеспечение (Linux; macOS; Windows)
- Программное обеспечение, использующее лицензию BSD