Jump to content

Пиранья (программное обеспечение)

Piranha — это система интеллектуального анализа текста . Он был разработан для Министерства энергетики США (DOE) Национальной лабораторией Ок-Ридж (ORNL). Программное обеспечение обрабатывает документы с произвольным текстом и показывает взаимосвязи между ними — метод, ценный во многих областях данных, от мошенничества в сфере здравоохранения до национальной безопасности. Результаты представлены в кластерах по приоритетности. Piranha использует метод взвешивания терминов по частоте/обратной корпусной частоте, который обеспечивает надежную параллельную обработку текстовой информации и, следовательно, возможность анализировать большие наборы документов.

Пиранья имеет шесть основных элементов:

  • Сбор и извлечение: можно собирать миллионы документов из таких источников, как базы данных и социальные сети, и извлекать текст из сотен файловых форматов; Эту информацию можно перевести на другие языки.
  • Хранение и индексирование. Документы на поисковых серверах, в реляционных базах данных и т. д. можно хранить и индексировать.
  • Рекомендую: Система может выделить наиболее ценную информацию для конкретных пользователей.
  • Категоризация: группировка элементов с помощью контролируемых и полуконтролируемых методов машинного обучения и целевых списков поиска.
  • Кластеризация. Сходство используется для иерархической группировки документов.
  • Визуализация: отображение связей между документами, чтобы пользователи могли быстро распознавать связи.

Результатом этой работы стало получение восьми патентов (9 256 649, 8 825 710, 8 473 314, 7 937 389, 7 805 446, 7 693 9037, 7 315 ​​858, 7 072 883) и коммерческих лицензий (включая TextOre и Pro2Serve), дочерней компании с изобретателями. здоровье венанта и Pro2Serve назвала VortexT Analytics, получила две награды R&D 100 Awards и множество рецензируемых исследовательских публикаций.

  • Кюи, X., Бивер, Дж., Сент-Чарльз, Дж., Поток, Т. (сентябрь 2008 г.). Материалы симпозиума IEEE Swarm Intelligence, Сент-Луис, Миссури. Уменьшение размерности для кластеризации роя крупномерных частиц .
  • Ясин, Ратрелл (29 ноября 2012 г.) GCN. Piranha из энергетической лаборатории приступает к анализу текста
  • Франклин-младший, Кертис (30 ноября 2012 г.) Эффективность предприятия. Piranha предоставляет правительству доступные большие данные
  • Бриден II, Джон (7 декабря 2012 г.) GCN. Плавание с Пираньей: тестирование инструмента анализа текста в Ок-Ридже
  • Кирби, Боб (лето 2013 г.) FedTech. Большие данные могут помочь федеральному правительству свернуть горы. Вот как.
  • Р.М. Паттон, Б.Г. Беккерман, Т.Е. Поток, Г. Турасси, «Рекомендательная система для обнаружения и уточнения информации, которую ищут радиологи, через Интернет», Радиологическое общество Северной Америки (RSNA), Ежегодное собрание 2012 г., ноябрь 2012 г., Чикаго, Иллинойс , США.
  • Р.М. Паттон, Т.Е. Поток, Б.А. Уорли, «Обнаружение и уточнение научной информации с помощью рекомендательной системы», Вторая международная конференция по передовым коммуникациям и вычислениям, октябрь 2012 г., Венеция, Италия.
  • Дж. В. Рид, Т. Э. Поток и Р. М. Паттон, «Мультиагентная система для распределенного кластерного анализа», в материалах третьего международного семинара по разработке программного обеспечения для крупномасштабных мультиагентных систем (SELMAS'04)», семинар W16L - 26-й международный семинар. Конференция по разработке программного обеспечения, Эдинбург, Шотландия, Великобритания: IEE, 2004, стр. 152–5.
  • Дж. Рид, Ю. Цзяо, Т. Е. Поток, Б. Кламп, М. Элмор и А. Р. Херсон, «TF-ICF: новая схема взвешивания терминов для кластеризации потоков динамических данных», в материалах 5-й Международной конференции по машинному обучению и Приложения (ICMLA'06). том. 0 ОРЛАНДО, Флорида, 2006, стр. 258–263.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 042293f61970c25ddf9705f82ec370cd__1722390000
URL1:https://arc.ask3.ru/arc/aa/04/cd/042293f61970c25ddf9705f82ec370cd.html
Заголовок, (Title) документа по адресу, URL1:
Piranha (software) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)