простор
![]() | |
Оригинальный автор(ы) | Мэтью Хоннибал |
---|---|
Разработчик(и) | Взрывной ИИ, различные |
Первоначальный выпуск | февраль 2015 г [1] |
Стабильная версия | 3.7.4 [2] ![]() |
Репозиторий | |
Написано в | Питон , Китон |
Операционная система | Linux , Windows , macOS , ОС |
Платформа | Кросс-платформенный |
Тип | Обработка естественного языка |
Лицензия | МОЯ лицензия |
Веб-сайт | просторный |
spaCy ( / s p eɪ ˈ s iː / spay- SEE ) — это программная библиотека с открытым исходным кодом для расширенной обработки естественного языка , написанная на языках программирования Python и Cython . [3] [4] Библиотека издается под лицензией MIT , а ее основными разработчиками являются Мэтью Хоннибал и Инес Монтани , основатели компании-разработчика программного обеспечения Explosion.
В отличие от NLTK , который широко используется для обучения и исследований, spaCy фокусируется на предоставлении программного обеспечения для производственного использования. [5] [6] spaCy также поддерживает рабочие процессы глубокого обучения , которые позволяют подключать статистические модели, обученные популярными машинного обучения библиотеками , такими как TensorFlow , PyTorch или MXNet, через собственную библиотеку машинного обучения Thinc. [7] [8] Используя Thinc в качестве серверной части, spaCy предлагает сверточных нейронных сетей модели для маркировки частей речи , анализа зависимостей , категоризации текста и распознавания именованных объектов (NER) . Готовые статистические модели нейронных сетей для выполнения этих задач доступны для 23 языков, включая английский, португальский, испанский, русский и китайский, а также имеется многоязычная модель NER . Дополнительная поддержка токенизации для более чем 65 языков позволяет пользователям обучать собственные модели на собственных наборах данных. [9]
История [ править ]
- Версия 1.0 была выпущена 19 октября 2016 г. и включала предварительную поддержку рабочих процессов глубокого обучения за счет поддержки пользовательских конвейеров обработки. [10] Кроме того, он включал средство сопоставления правил, поддерживающее аннотации сущностей , и официально документированный API обучения.
- Версия 2.0 была выпущена 7 ноября 2017 года и представила модели сверточных нейронных сетей для 7 разных языков. [11] Он также поддерживал пользовательские компоненты конвейера обработки и атрибуты расширения, а также имел встроенный обучаемый компонент классификации текста .
- Версия 3.0 была выпущена 1 февраля 2021 года и представила современные конвейеры на основе трансформаторов . [12] Также была представлена новая система конфигурации и рабочий процесс обучения, а также подсказки по типам и шаблоны проектов. В этой версии прекращена поддержка Python 2 .
Основные возможности [ править ]
- Неразрушающая токенизация
- Поддержка «Альфа-токенизации» для более чем 65 языков. [13]
- Встроенная поддержка обучаемых компонентов конвейера, таких как распознавание именованных объектов , маркировка частей речи , анализ зависимостей , классификация текста , связывание сущностей и многое другое.
- Статистические модели для 19 языков [14]
- Многозадачное обучение с предварительно обученными преобразователями, такими как BERT
- Поддержка пользовательских моделей в PyTorch, TensorFlow и других платформах.
- Современная скорость и точность [15]
- Готовая к производству система обучения
- Встроенные визуализаторы синтаксиса и именованных объектов.
- Простая упаковка модели, развертывание и управление рабочими процессами
Расширения и визуализаторы [ править ]

SpaCy поставляется с несколькими расширениями и визуализациями, которые доступны в виде бесплатных библиотек с открытым исходным кодом :
- Thinc: библиотека машинного обучения , оптимизированная для использования ЦП и глубокого обучения с вводом текста.
- sense2vec: библиотека для вычисления сходства слов, основанная на Word2vec . [16]
- displaCy: с открытым исходным кодом, зависимостей визуализатор дерева разбора созданный с использованием JavaScript , CSS и SVG .
- дисплей ЛОР : с открытым исходным кодом, визуализатор именованных сущностей созданный с использованием JavaScript и CSS .
Ссылки [ править ]
- ^ «Представляем SpaCy» . взрыв.ай . Проверено 18 декабря 2016 г.
- ^ «Выпуск 3.7.4» . 15 февраля 2024 г. Проверено 20 февраля 2024 г.
- ^ Чой и др. (2015). Это зависит: сравнение анализатора зависимостей с использованием веб-инструмента оценки .
- ^ «Новый искусственный интеллект Google не может понять эти предложения. Сможете ли вы?» . Вашингтон Пост . Проверено 18 декабря 2016 г.
- ^ «Факты и цифры — SpaCy» . spacy.io . Проверено 4 апреля 2020 г.
- ^ Берд, Стивен; Кляйн, Юэн; Лопер, Эдвард; Болдридж, Джейсон (2008). «Мультидисциплинарное обучение с набором инструментов естественного языка» (PDF) . Материалы третьего семинара по проблемам преподавания компьютерной лингвистики, ACL : 62. doi : 10.3115/1627306.1627317 . ISBN 9781932432145 . S2CID 16932735 .
- ^ «PyTorch, TensorFlow и MXNet» . думаю.ай . Проверено 4 апреля 2020 г.
- ^ «взрыв/тонкий» . Гитхаб . Проверено 30 декабря 2016 г.
- ^ «Модели и языки | Документация по использованию SpaCy» . spacy.io . Проверено 10 марта 2020 г.
- ^ "взрыв/спаСи" . Гитхаб . Проверено 08 февраля 2021 г.
- ^ "взрыв/спаСи" . Гитхаб . Проверено 08 февраля 2021 г.
- ^ "взрыв/спаСи" . Гитхаб . Проверено 08 февраля 2021 г.
- ^ «Модели и языки — SpaCy» . spacy.io . Проверено 08 февраля 2021 г.
- ^ «Модели и языки | Документация по использованию SpaCy» . spacy.io . Проверено 8 февраля 2021 г.
- ^ «Бенчмарки | Документация по использованию SpaCy» . spacy.io . Проверено 08 февраля 2021 г.
- ^ Траск и др. (2015). sense2vec — быстрый и точный метод устранения неоднозначности смысла слов в нейронных встраиваниях слов .