глубоко посаженный
Тип компании | Частный |
---|---|
Промышленность | Обработка естественного языка |
Основан | 22 июня 2018 г |
Основатели |
|
Штаб-квартира | , |
Продукты | Стог сена, глубокое облако |
Количество сотрудников | > 50 |
Веб-сайт | www |
Deepset — поставщик корпоративного программного обеспечения, который предоставляет разработчикам инструменты для создания готовых к использованию систем обработки естественного языка (NLP) . Он был основан в 2018 году в Берлине Милошем Русичем, Мальте Питчем и Тимо Мёллером. [1] Deepset является автором и поддерживает программное обеспечение с открытым исходным кодом Haystack. [2] и коммерческое SaaS- предложение Deepset Cloud. [3]
История
[ редактировать ]В июне 2018 года Милош Русич, Мальте Питч и Тимо Мёллер основали компанию Deepset в Берлине , Германия . [1] В том же году компания обслужила первых клиентов, которые хотели внедрить услуги НЛП , адаптировав языковые модели BERT к своей предметной области.
В июле 2019 года компания выпустила начальную версию программного обеспечения с открытым исходным кодом FARM. [4]
В ноябре 2019 года компания выпустила начальную версию программного обеспечения с открытым исходным кодом Haystack. [2]
В течение 2020 и 2021 годов Deepset опубликовал несколько прикладных исследовательских работ на EMNLP , COLING и ACL , ведущих конференциях в области НЛП . В 2020 году исследовательский вклад включал модели немецкого языка GBERT и GELECTRA. [5] и набор данных с ответами на вопросы, посвященный пандемии COVID-19 , под названием COVID-QA, который был создан в сотрудничестве с Intel и прокомментирован биомедицинскими экспертами. [6]
В 2021 году исследовательский вклад включал немецкие модели и наборы данных для ответов на вопросы и поиска отрывков под названием GermanQuAD и GermanDPR. [7] семантическая метрика сходства ответов , [8] и подход к мультимодальному поиску текстов и таблиц, позволяющий отвечать на вопросы по табличным данным. [9] Haystack содержит реализации всех трех материалов, что позволяет использовать исследования через среду с открытым исходным кодом.
В ноябре 2021 года разработка фреймворка FARM была прекращена, а его основные функции были интегрированы в фреймворк Haystack. [4]
В апреле 2022 года компания анонсировала коммерческое SaaS- предложение Deepset Cloud. [3]
По состоянию на август 2023 года самая популярная доработанная языковая модель, созданная Deepset, была загружена более 52 миллионов раз. [10]
Продукты и приложения
[ редактировать ]Haystack — это платформа Python с открытым исходным кодом для создания пользовательских приложений с большими языковыми моделями . Благодаря модульным строительным блокам разработчики программного обеспечения могут реализовывать конвейеры для решения различных задач поиска в больших коллекциях документов, таких как поиск документов , семантический поиск , генерация текста , ответы на вопросы или обобщение . Он интегрируется с Hugging Face Transformers , Elasticsearch , OpenSearch , OpenAI , Cohere , Anthropic и другими. есть У фреймворка активное сообщество на Discord с более чем 1,8 тыс. участников и GitHub , где на данный момент более 200 человек внесли свой вклад в его постоянное развитие. [11] а также у него активное сообщество на Meetup . [12] Эту платформу используют тысячи организаций, в том числе предприятия из списка Global 500, такие как Airbus , Intel , Netflix , Apple или Infineon , Alcatel-Lucent Enterprise , BetterUp, Etalab, Sooth.ai и Lego . [13] [14]
Платформа Deepset Cloud помогает клиентам создавать масштабируемые приложения НЛП , охватывая весь процесс прототипирования, экспериментирования, развертывания и мониторинга. [15] Он построен на Haystack.
FARM представляла собой основу для адаптации моделей представления. [4] Одной из его основных концепций была реализация адаптивных моделей, которые включали языковые модели и произвольное количество прогнозирующих голов. FARM поддерживала адаптацию предметной области и точную настройку этих моделей с помощью расширенных опций, таких как накопление градиента, перекрестная проверка или автоматическое обучение смешанной точности . Его основные функции были интегрированы в Haystack в ноябре 2021 года, и на тот момент его разработка была прекращена. [16]
Финансирование
[ редактировать ]9 августа 2023 года компания Deepset объявила об инвестиционном раунде серии B на сумму 30 миллионов долларов США, возглавляемом Balderton Capital и включающем участие существующих инвесторов GV , System.One, Lunar Ventures и Harpoon Ventures. [17] [18] [19] [20] 28 апреля 2022 года компания Deepset объявила об инвестиционном раунде серии A на сумму 14 миллионов долларов США под руководством GV с участием Harpoon Ventures, Acequia Capital и команды опытных основателей коммерческого программного обеспечения с открытым исходным кодом и машинного обучения , таких как Алекс Ратнер (Snorkel AI). ), Мустафа Сулейман ( Deepmind ), Спенсер Кимбалл ( Cockroach Labs ), Джефф Хаммербахер ( Cloudera ) и Эмиль Эйфрем ( Neo4j ). [1] Предыдущий раунд предварительных инвестиций в размере $1,6 млн, состоявшийся 8 марта 2021 года, проводился System.One и Lunar Ventures, которые также участвовали в последующем раунде серии A.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Виггерс, Кайл (28 апреля 2022 г.). «Deepset собирает 14 миллионов долларов, чтобы помочь компаниям создавать приложения НЛП» . ТехКранч . Проверено 31 августа 2022 г.
- ^ Jump up to: а б "deepset-ai/стог сена" . Гитхаб . Проверено 31 августа 2022 г.
- ^ Jump up to: а б «глубокое облако» . глубокая посадка . Проверено 31 августа 2022 г.
- ^ Jump up to: а б с "deepset-ai/ФЕРМА" . Гитхаб . Проверено 31 августа 2022 г.
- ^ Чан, Бранден; Шветер, Стефан; Мёллер, Тимо (2020). «Следующая языковая модель немецкого языка» . Материалы 28-й Международной конференции по компьютерной лингвистике . Барселона, Испания (онлайн): Международный комитет по компьютерной лингвистике. стр. 6788–6796. doi : 10.18653/v1/2020.coling-main.598 .
- ^ Мёллер, Тимо; Рейна, Энтони; Джаякумар, Рагхаван; Питч, Мальте (9 июля 2020 г.). «COVID-QA: набор данных с ответами на вопросы по COVID-19» . Материалы 1-го семинара по НЛП при COVID-19 на ACL 2020 . Онлайн: Ассоциация компьютерной лингвистики.
- ^ Мёллер, Тимо; Риш, Джулиан; Питч, Мальте (2021). « GermanQuAD и GermanDPR: улучшение ответов на неанглийские вопросы и поиск отрывков» . Материалы 3-го семинара по машинному чтению для ответов на вопросы . Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики: 42–50. arXiv : 2104.12741 . дои : 10.18653/v1/2021.mrqa-1.4 .
- ^ Риш, Джулиан; Мёллер, Тимо; Гуч, Джулиан; Питч, Мальте (2021). «Семантическое сходство ответов для оценки моделей ответов на вопросы» . Материалы 3-го семинара по машинному чтению для ответов на вопросы . Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики: 149–157. arXiv : 2108.06130 . дои : 10.18653/v1/2021.mrqa-1.15 .
- ^ Костич, Богдан; Риш, Джулиан; Мёллер, Тимо (2021). «Мультимодальный поиск таблиц и текстов с использованием моделей трехкодировщиков» . Материалы 3-го семинара по машинному чтению для ответов на вопросы . Пунта-Кана, Доминиканская Республика: Ассоциация компьютерной лингвистики: 82–91. arXiv : 2108.04049 . дои : 10.18653/v1/2021.mrqa-1.8 .
- ^ "deepset/roberta-base-squad2 · Обнимающее лицо" . Huggingface.co . Проверено 12 октября 2022 г.
- ^ «Соавторы deepset-ai/haystack» . Гитхаб . Проверено 31 августа 2022 г.
- ^ «Открытая группа НЛП» . Встреча . Проверено 31 августа 2022 г.
- ^ Лафлин, Элени (28 апреля 2022 г.). «Deepset привлекает 14 миллионов долларов в рамках серии A под руководством GV для усовершенствованной платформы НЛП» . Деловой провод . Проверено 31 августа 2022 г.
- ^ «Кто использует Haystack» . Гитхаб . Проверено 31 августа 2022 г.
- ^ «глубокое облако» . ВенчурБит . 28 апреля 2022 г. Проверено 1 ноября 2022 г.
- ^ Чжоу, Цзяюань; Пачеко, Майкл; Ван, Чжиюань; Ся, Синь; Ло, Дэвид; Ван, Юань; Хасан, Ахмед Э. (2021). «В поисках иголки в стоге сена: автоматический поиск скрытых исправлений уязвимостей» . 2021 36-я Международная конференция IEEE/ACM по автоматизированной разработке программного обеспечения (ASE) . стр. 705–716. дои : 10.1109/ase51524.2021.9678720 . ISBN 978-1-6654-0337-5 . S2CID 246081539 . Проверено 13 ноября 2023 г.
- ^ «Deepset привлекает 30 миллионов долларов, чтобы помочь предприятиям раскрыть ценность LLM» . ВенчурБит . 9 августа 2023 г. Проверено 22 августа 2023 г.
- ^ «Deepset получает 30 миллионов долларов для расширения своих предложений MLOps, ориентированных на LLM» . ТехКранч . 9 августа 2023 г. Проверено 22 августа 2023 г.
- ^ «Deepset, стартап в области искусственного интеллекта, который помогает компаниям создавать приложения с помощью LLM, только что собрал 30 миллионов долларов с помощью этой презентации из 12 слайдов» . Бизнес-инсайдер . Проверено 22 августа 2023 г.
- ^ «Deepset привлекает 30 миллионов долларов, чтобы помочь крупнейшим компаниям мира реализовать обещания LLM» . Балдертон . 9 августа 2023 г. Проверено 22 августа 2023 г.