Кристофер Д. Пейс
Кристофер Д. Пейс был одним из пионеров исследований в области стемминга . Стеммер Пейса-Хаска был опубликован в 1990 году, и его метод оценки производительности стеммера с помощью коэффициента ошибок по отношению к усечению (ERRT) был первым прямым методом сравнения ошибок недостаточного и избыточного стембинга. Помимо своей новаторской работы по алгоритмам и методам оценки, он внес и другие исследовательские вклады в области поиска информации , разрешения анафор и автоматического абстрагирования. [1] [2]
Преподавательская карьера
[ редактировать ]Кристофер Д. Пейс был членом Школы вычислительной техники и коммуникаций (SCC) Ланкастерского университета , Великобритания , около сорока лет, сначала присоединившись к тогдашнему факультету компьютерных исследований в качестве научного сотрудника в 1969-70 годах; затем переходим к преподавательской деятельности. Он исполнял обязанности начальника отдела в 1977-78 годах, начальника отдела в 1979-82 годах и вышел на пенсию в 2009 году. [3]
Алгоритм стемминга Пейса-Хаска
[ редактировать ]Стеммер Paice-Husk был разработан Крисом Д. Пейсом при содействии Гарета Хаска из вычислительного факультета Ланкастерского университета в конце 1980-х годов. Он имеет внешне хранимый набор правил стемминга, и эта гибкость по сравнению со стеммером Портера сделала его более интерес для ряда исследователей. [4]
Первоначально реализованный на языке программирования Паскаль, дальнейшие реализации были выполнены с использованием ANSI C и Java. Версия Perl была реализована Мэри Таффет в Центре обработки естественного языка Сиракузского университета, США. [5]
Стеммер состоит из алгоритма стемминга и отдельного набора правил стемминга. Стандартный набор правил обеспечивает «сильный» стеммер. Сила Стеммера — это качество, которое выгодно для сжатия индекса, однако оно приводит к большему количеству ошибок перестемминга по сравнению с количеством ошибок недооценки; пользователи, которым нужен более легкий стеммер, могут легко разработать свой собственный набор правил.
Стеммер является итеративным (т. е. окончания удаляются по частям за неопределенное количество этапов), и правила могут определять удаление или замену окончания. Метод замены позволяет избежать необходимости в отдельном этапе процесса перекодирования или обеспечения частичного сопоставления; это помогает поддерживать эффективность алгоритма. Правила индексируются по последней букве окончания, чтобы обеспечить эффективный поиск. [6]
Оценка голосов
[ редактировать ]Помимо самого стеммера, Крис Пейс разработал метод прямого измерения производительности стеммеров с использованием сгруппированных списков слов, примененных к стеммеру, подсчета количества ошибок превышения и недооценки стеммеров, а затем сравнения результатов с тем, что было бы получено с помощью стеммера. набор стеммеров усечения. Последней мерой является частота ошибок относительно усечения (ERRT). [7] [8]
Личная жизнь
[ редактировать ]Кристофер Д. Пейс родился в 1941 году. Он женился на Кэтлин Ф. Мосс в 1965 году в регистрационном округе Манчестера. В 2015 году у него диагностировали агрессивную опухоль головного мозга; вскоре после того, как он и его жена переехали из Камбрии в Стратфорд, он скончался 21 апреля 2016 года.
Публикации
[ редактировать ]- Компакт-диск Пейс (1977). Информационный поиск и компьютер . Макдональд и Джейн, Лондон.
- Компакт-диск Пейс (1980). Труды SIGIR '80 Автоматическое создание рефератов литературы: подход, основанный на идентификации самоуказательных фраз . Баттерворт. ISBN 0-408-10775-8 .
- Компакт-диск Пейс (1984). Приложения для исследований в области информационных технологий: Том 3, выпуск 1, Мягкая оценка логических поисковых запросов в системах поиска информации . Баттерворт.
- компакт-диск «Мир»; В. Арагон-Рамирес (1985). RIAO '85: Компьютерный поиск информации. Вычисление сходства между строками из нескольких слов с использованием тезауруса . ЦЕНТР ПЕРЕДОВЫХ МЕЖДУНАРОДНЫХ ИССЛЕДОВАНИЙ В ДОКУМЕНТАЛЬНОЙ ИНФОРМАТИКЕ.
- Компакт-диск Пейс (1986). Труды ASLIB: Том 38, выпуск 10, Экспертные системы для поиска информации? . Аслиб, Ассоциация по управлению информацией.
- Компакт-диск Пейс (1990). Обработка информации и управление: международный журнал, том 26, выпуск 1. Построение рефератов литературы с помощью компьютера: методы и перспективы . Пергамон Пресс, Инк.
- Компакт-диск Пейс (1990). Обработка информации и управление: международный журнал, том 27, выпуск 5. Тезауральная модель поиска информации . Пергамон Пресс, Инк.
- Компакт-диск Пейс (1991). Форум ACM SIGIR: Том 24 Выпуск 3 Ещё один стеммер . АКМ.
- ФК Джонсон; компакт-диск Пайс; У. Дж. Блэк; А. П. Нил (1997). Чтения по поиску информации: применение лингвистической обработки для автоматического создания рефератов . Морган Кауфманн Паблишерс Инк.
- Майкл Б. Твидейл; Дэвид М. Николс; Крис Д. Пейс (1997). Обработка информации и управление: Международный журнал: Том 33, выпуск 6, Просмотр — это совместный процесс . Пергамон Пресс, Инк.
- Майкл П. Оукс; Компакт-диск Пейс (1999). IRSG'99: Материалы 21-й ежегодной конференции BCS-IRSG по исследованиям в области информационного поиска. Автоматическое создание шаблонов для автоматического реферирования . БКС.
- Компакт-диск Пейс (2009). Лексический анализ текстовых данных. Энциклопедия систем баз данных . Спрингер, США. стр. 1606–1610. ISBN 978-0-387-35544-3 .
- Компакт-диск Пейс (2009). Стемминг. Энциклопедия систем баз данных . Спрингер, США. стр. 2790–2793. ISBN 978-0-387-35544-3 .
Ссылки
[ редактировать ]- ^ [1] , Трирский университет, Библиография по компьютерным наукам DBLP
- ^ [2] , Страница автора ACM, CD Paice
- ^ [3] , Ланкастерский университет, Памяти Криса Пейса
- ^ [4] , Улучшения алгоритма голосования Ланкастера (голосования Пейса-Хаска), Антонио Самора
- ^ [5] , GitHub, Paice-Husk Stemmer на нескольких языках.
- ^ «Пайс/Хаск Стеммер» . Архивировано из оригинала 22 августа 2006 г. Проверено 22 августа 2006 г.
- ^ Пейс, К.Д., (1994) Метод оценки алгоритмов стемминга, Крофт, В.Б. и ван Рейсберген, К.Дж. (ред.), Материалы 17-й конференции ACM SIGIR, состоявшейся в Дублине, 3–6 июля 1994 г.; стр. 42-50.
- ^ Пейс, CD (1996) Метод оценки алгоритмов стемминга на основе подсчета ошибок, JASIS, 47 (8): 632-649