Пиранья (программное обеспечение)
Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Октябрь 2023 г. ) |
Piranha — это система интеллектуального анализа текста . Он был разработан для Министерства энергетики США (DOE) Национальной лабораторией Ок-Ридж (ORNL). Программное обеспечение обрабатывает документы с произвольным текстом и показывает взаимосвязи между ними — метод, ценный во многих областях данных, от мошенничества в сфере здравоохранения до национальной безопасности. Результаты представлены в кластерах по приоритетности. Piranha использует метод взвешивания терминов по частоте/обратной корпусной частоте, который обеспечивает надежную параллельную обработку текстовой информации и, следовательно, возможность анализировать большие наборы документов.
Пиранья имеет шесть основных элементов:
- Сбор и извлечение: можно собирать миллионы документов из таких источников, как базы данных и социальные сети, и извлекать текст из сотен файловых форматов; Эту информацию можно перевести на другие языки.
- Хранение и индексирование. Документы на поисковых серверах, в реляционных базах данных и т. д. можно хранить и индексировать.
- Рекомендую: Система может выделить наиболее ценную информацию для конкретных пользователей.
- Категоризация: группировка элементов с помощью контролируемых и полуконтролируемых методов машинного обучения и целевых списков поиска.
- Кластеризация. Сходство используется для иерархической группировки документов.
- Визуализация: отображение связей между документами, чтобы пользователи могли быстро распознавать связи.
Результатом этой работы стало получение восьми патентов (9 256 649, 8 825 710, 8 473 314, 7 937 389, 7 805 446, 7 693 9037, 7 315 858, 7 072 883) и коммерческих лицензий (включая TextOre и Pro2Serve), дочерней компании с изобретателями. здоровье венанта и Pro2Serve назвала VortexT Analytics, получила две награды R&D 100 Awards и множество рецензируемых исследовательских публикаций.
Ссылки
[ редактировать ]- Кюи, X., Бивер, Дж., Сент-Чарльз, Дж., Поток, Т. (сентябрь 2008 г.). Материалы симпозиума IEEE Swarm Intelligence, Сент-Луис, Миссури. Уменьшение размерности для кластеризации роя крупномерных частиц .
- Ясин, Ратрелл (29 ноября 2012 г.) GCN. Piranha из энергетической лаборатории приступает к анализу текста
- Франклин-младший, Кертис (30 ноября 2012 г.) Эффективность предприятия. Piranha предоставляет правительству доступные большие данные
- Бриден II, Джон (7 декабря 2012 г.) GCN. Плавание с Пираньей: тестирование инструмента анализа текста в Ок-Ридже
- Кирби, Боб (лето 2013 г.) FedTech. Большие данные могут помочь федеральному правительству свернуть горы. Вот как.
- Р.М. Паттон, Б.Г. Беккерман, Т.Е. Поток, Г. Турасси, «Рекомендательная система для обнаружения и уточнения информации, которую ищут радиологи, через Интернет», Радиологическое общество Северной Америки (RSNA), Ежегодное собрание 2012 г., ноябрь 2012 г., Чикаго, Иллинойс , США.
- Р.М. Паттон, Т.Е. Поток, Б.А. Уорли, «Обнаружение и уточнение научной информации с помощью рекомендательной системы», Вторая международная конференция по передовым коммуникациям и вычислениям, октябрь 2012 г., Венеция, Италия.
- Дж. В. Рид, Т. Э. Поток и Р. М. Паттон, «Мультиагентная система для распределенного кластерного анализа», в материалах третьего международного семинара по разработке программного обеспечения для крупномасштабных мультиагентных систем (SELMAS'04)», семинар W16L - 26-й международный семинар. Конференция по разработке программного обеспечения, Эдинбург, Шотландия, Великобритания: IEE, 2004, стр. 152–5.
- Дж. Рид, Ю. Цзяо, Т. Е. Поток, Б. Кламп, М. Элмор и А. Р. Херсон, «TF-ICF: новая схема взвешивания терминов для кластеризации потоков динамических данных», в материалах 5-й Международной конференции по машинному обучению и Приложения (ICMLA'06). том. 0 ОРЛАНДО, Флорида, 2006, стр. 258–263.
Награды
[ редактировать ]- Премия журнала R&D 100 2007 года «Пиранья» (программное обеспечение)
Патенты
[ редактировать ]- Патент США 7 072 883 – Система сбора и обобщения информации в Интернете.
- Патент США 7 315 858 – Метод сбора и обобщения информации в Интернете.
- Патент США 7 693 903
- Патент США 7 805 446 – Агентный метод распределенной кластеризации текстовой информации.
- Патент США 7 937 389 – Динамическое уменьшение размеров вектора документа в системе поиска документов.
- Патент США 8 473 314 – Способ и система определения предвестников нарушений здоровья на основе обработки медицинских записей.
Внешние ссылки
[ редактировать ]- Портал энергетических инноваций Министерства энергетики США (2014 г.) Агентское программное обеспечение для сбора и обобщения текстовой и интернет-информации .
- Сайт ORNL Пиранья