Генерал
![]() | |
Оригинальный автор(ы) | Радим Регурек |
---|---|
Разработчик(и) | РЕДКИЕ Технологии, ООО |
Первоначальный выпуск | 2009 |
Стабильная версия | 4.3.2 [1] / 24 августа 2023 г |
Репозиторий | github |
Написано в | Питон |
Операционная система | Линукс , Виндовс , МакОС |
Тип | Поиск информации |
Лицензия | LGPL |
Веб-сайт | радимрехурек |
Gensim — это библиотека с открытым исходным кодом для неконтролируемого тематического моделирования , индексации документов , поиска по сходству и других обработки естественного языка функций с использованием современного статистического машинного обучения .
Gensim реализован на Python и Cython для повышения производительности. Gensim предназначен для обработки больших коллекций текста с использованием потоковой передачи данных и дополнительных онлайн-алгоритмов, что отличает его от большинства других пакетов программного обеспечения для машинного обучения, ориентированных только на обработку в памяти.
Основные характеристики
[ редактировать ]Gensim включает в себя потоковые параллельные реализации fastText , [2] алгоритмы word2vec и doc2vec, [3] а также скрытый семантический анализ (LSA, LSI, SVD), факторизация неотрицательной матрицы (NMF), скрытое распределение Дирихле (LDA), tf-idf и случайные проекции . [4]
Некоторые из новых онлайн-алгоритмов в Gensim также были опубликованы в докторской диссертации 2011 года « Масштабируемость семантического анализа в обработке естественного языка» Радима Ржегуржека, создателя Gensim. [5]
Использование Генсима
[ редактировать ]По состоянию на 2018 год библиотека Gensim использовалась и цитировалась в более чем 1400 коммерческих и академических приложениях. [6] в самых разных дисциплинах: от медицины до анализа страховых претензий и патентного поиска. [7] О программном обеспечении было рассказано в нескольких новых статьях, подкастах и интервью. [8] [9] [10]
Бесплатная и коммерческая поддержка
[ редактировать ]Открытый исходный код разработан и размещен на GitHub. [11] и форум общественной поддержки поддерживается в группах Google. [12] и сетка . [13]
Gensim имеет коммерческую поддержку со стороны компании Rare-technologies.com, которая также предоставляет студенческое наставничество и проекты академических диссертаций для Gensim через свою программу Студенческий инкубатор. [14]
Ссылки
[ редактировать ]- ^ «Выпуск 4.3.2» . 24 августа 2023 г. Проверено 18 сентября 2023 г.
- ^ Масштабируемое *2vec обучение
- ^ Глубокое обучение с помощью word2vec и Gensim.
- ^ Радим Ржегуржек и Петр Сойка (2010). Программная среда для тематического моделирования с использованием больших корпусов . Учеб. Семинар LREC по новым проблемам в рамках НЛП
- ^ Ржегуржек, Радим (2011). «Масштабируемость семантического анализа при обработке естественного языка» (PDF) . Проверено 27 января 2015 г.
мой пакет программного обеспечения gensim с открытым исходным кодом , который сопровождает эту диссертацию
- ^ Академические цитаты Генсима
- ^ Коммерческие пользователи Gensim
- ^ Podcast.__init__, эпизод № 71 на Gensim
- ^ Интервью с Радимом Ржегуржеком, создателем Gensim.
- ^ «Интервью DecisionStats с Радимом Ржегуржеком Генсимом #python» . 8 декабря 2015 г.
- ^ Исходный код Gensim на Github.
- ^ Список рассылки Gensim в группах Google.
- ^ Чат Gensim на Gitter
- ^ Инкубатор Gensim с открытым исходным кодом