Проверка орфографии
В программном обеспечении проверка орфографии (или проверка орфографии или проверка орфографии ) — это функция программного обеспечения , которая проверяет наличие орфографических ошибок в тексте . Функции проверки орфографии часто встроены в программное обеспечение или службы, такие как текстовый процессор , почтовый клиент , электронный словарь или поисковая система .
Глаз есть проверка орфографии,
Он пришел с моим Гороховым морем.
Это самолет Ли отмечает четыре моего ревю
Мисс Стейкс, я могу завязать морской узел.
Взгляните на набережную и напечатайте жужжание
И вес четыре, два говорят
Глаз погоды, я пишу весло неправильно
Это говорит мне прямо о взвешивании.
Глаз пробежал это стихотворение, бросил его,
Ваш берег очень рад двум нет.
Его вес варьируется от полировки.
Моя шашка сказала мне шить.
Шашка – вещь благодатная,
Он замораживает тисовые жилки тимьяна.
Это помогает мне исправить все стили исправления,
И помогает мне, когда на глазах налипает иней.
Каждая драка появляется на моем экране.
Глаз сросся тоже на джоуль.
Проверка льет каждое слово
Правило написания двух контрольных сумм.
Дизайн
[ редактировать ]Базовая проверка орфографии выполняет следующие процессы:
- Он сканирует текст и извлекает содержащиеся в нем слова.
- Затем он сравнивает каждое слово с известным списком правильно написанных слов (т.е. со словарем). Он может содержать только список слов или дополнительную информацию, например точки переноса или лексические и грамматические атрибуты.
- Дополнительным шагом является языково-зависимый алгоритм обработки морфологии . Даже для языка с небольшими изменениями, такого как английский , программе проверки орфографии придется учитывать различные формы одного и того же слова, такие как множественное число, глагольные формы, сокращения и притяжательные падежи . Для многих других языков, например тех, в которых присутствует агглютинация и более сложное склонение и спряжение, эта часть процесса более сложна.
Неясно, дает ли морфологический анализ, допускающий использование многих форм слова в зависимости от его грамматической роли, значительную пользу для английского языка, хотя его преимущества для высокосинтетических языков, таких как немецкий, венгерский или турецкий, очевидны.
программы В качестве дополнения к этим компонентам пользовательский интерфейс позволяет пользователям утверждать или отклонять замены, а также изменять работу программы.
Программы проверки орфографии могут использовать алгоритмы приблизительного сопоставления строк, такие как расстояние Левенштейна, чтобы найти правильное написание слов с ошибками. [ 1 ] Альтернативный тип проверки правописания использует исключительно статистическую информацию, такую как n-граммы , для распознавания ошибок вместо правильно написанных слов. Этот подход обычно требует больших усилий для получения достаточной статистической информации. Ключевые преимущества включают необходимость меньшего объема памяти во время выполнения и возможность исправлять ошибки в словах, которые не включены в словарь. [ 2 ]
В некоторых случаях средства проверки правописания используют фиксированный список орфографических ошибок и предложения по их исправлению; этот менее гибкий подход часто используется в бумажных методах исправления, например, в статьях энциклопедий.
Алгоритмы кластеризации также использовались для проверки орфографии. [ 3 ] в сочетании с фонетической информацией. [ 4 ]
История
[ редактировать ]Предварительный ПК
[ редактировать ]В 1961 году Лес Эрнест , возглавлявший исследования этой многообещающей технологии, счел необходимым включить первую программу проверки правописания, которая имела доступ к списку из 10 000 допустимых слов. [ 5 ] Ральф Горин, в то время аспирант Эрнеста, создал первую настоящую программу проверки орфографии, написанную как прикладную программу (а не исследование) для общего английского текста: SPELL для DEC PDP-10 в Лаборатории искусственного интеллекта Стэнфордского университета в феврале. 1971. [ 6 ] Горин написал SPELL на языке ассемблера , для более быстрого действия; он создал первый корректор орфографии, выполнив поиск в списке слов правдоподобных правильных вариантов написания, которые отличаются одной буквой или транспозицией соседних букв, и представил их пользователю. Горин сделал SPELL общедоступным, как это было сделано с большинством программ SAIL (Стэнфордской лаборатории искусственного интеллекта), и вскоре он распространился по всему миру через новую сеть ARPAnet, примерно за десять лет до того, как персональные компьютеры стали широко использоваться. [ 7 ] SPELL, его алгоритмы и структуры данных вдохновили программу ispell для Unix .
Первые средства проверки правописания были широко доступны на мэйнфреймах в конце 1970-х годов. Группа из шести лингвистов из Джорджтаунского университета разработала первую систему проверки орфографии для корпорации IBM. [ 8 ]
Генри Кучера изобрел один для машин VAX компании Digital Equipment Corp в 1981 году. [ 9 ]
Юникс
[ редактировать ]Программа International Ispell , обычно используемая в Unix, основана на SPELL Р.Е. Горина. Он был преобразован в C Пейсом Уиллиссоном из Массачусетского технологического института. [ 10 ]
В проекте GNU есть своя программа проверки правописания GNU Aspell . Основное улучшение Aspell заключается в том, что он может более точно предлагать правильные альтернативы английским словам с ошибками. [ 11 ]
Из-за неспособности традиционных средств проверки орфографии проверять слова в языках со сложными флексиями, венгр Ласло Немет разработал Hunspell , программу проверки орфографии, которая поддерживает агглютинативные языки и сложные составные слова. Hunspell также использует Unicode в своих словарях. [ 12 ] Hunspell заменил предыдущий MySpell в OpenOffice.org в версии 2.0.2.
Enchant — еще одна общая программа проверки правописания, созданная на основе AbiWord . Его цель — объединить в одном интерфейсе программы, поддерживающие разные языки, такие как Aspell, Hunspell, Nuspell, Hspell (иврит), Voikko (финский), Zemberek (турецкий) и AppleSpell. [ 13 ]
ПК
[ редактировать ]Первые средства проверки правописания для персональных компьютеров появились в 1980 году, например, «WordCheck» для систем Commodore, выпущенная в конце 1980 года, как раз к тому моменту, когда рекламные объявления пойдут в печать в январе 1981 года. [ 14 ] Такие разработчики, как Мария Мариани [ 8 ] и Рэндом Хаус [ 15 ] бросили OEM- пакеты или продукты для конечных пользователей на быстро растущий рынок программного обеспечения. На компьютерах до Windows эти программы проверки правописания представляли собой автономные программы, многие из которых можно было запускать в резидентном режиме «завершить и остаться» из пакетов текстовых процессоров на ПК с достаточным объемом памяти.
Однако рынок автономных пакетов просуществовал недолго, поскольку к середине 1980-х годов разработчики популярных пакетов текстовых процессоров, таких как WordStar и WordPerfect, включили в свои пакеты средства проверки орфографии, в основном по лицензии вышеупомянутых компаний, которые быстро расширили поддержку всего лишь Английский для многих европейских и, в конечном итоге, даже азиатских языков . Однако это потребовало усложнения морфологических процедур программного обеспечения, особенно в отношении сильно агглютинативных языков, таких как венгерский и финский . Хотя размер рынка текстовых процессоров в такой стране, как Исландия , возможно, не оправдал инвестиций во внедрение программы проверки орфографии, такие компании, как WordPerfect, тем не менее, стремились локализовать свое программное обеспечение для как можно большего числа национальных рынков в рамках своей глобальной маркетинговой стратегии.
Когда Apple разработала «общесистемную программу проверки орфографии» для Mac OS X, чтобы «операционная система взяла на себя исправления орфографии», [ 16 ] это было впервые: «не нужно было поддерживать отдельную программу проверки орфографии для каждой» программы. [ 17 ] Проверка орфографии в Mac OS X включает практически все встроенные и сторонние приложения.
компании Visual Tools VT Speller , представленный в 1994 году, был «предназначен для разработчиков приложений, поддерживающих Windows». [ 18 ] [ 19 ] Он поставлялся со словарем, но имел возможность создавать и использовать вторичные словари. [ 20 ]
Браузеры
[ редактировать ]Веб-браузеры, такие как Firefox и Google Chrome, поддерживают проверку орфографии с помощью Hunspell . До использования Hunspell Firefox и Chrome использовали MySpell и GNU Aspell соответственно. [ 21 ]
Специальности
[ редактировать ]Некоторые программы проверки орфографии имеют отдельную поддержку медицинских словарей, что помогает предотвратить медицинские ошибки. [ 22 ] [ 23 ] [ 24 ]
Функциональность
[ редактировать ]Первые программы проверки орфографии были «проверщиками», а не «корректорами». Они не предлагали никаких предложений относительно неправильно написанных слов. Это помогало при опечатках , но не при логических или фонетических ошибках. Проблема, с которой столкнулись разработчики, заключалась в том, что им было трудно предлагать полезные предложения для слов с ошибками. Это требует приведения слов к скелетной форме и применения алгоритмов сопоставления с образцом.
Может показаться логичным, что в отношении словарей для проверки орфографии принцип «чем больше, тем лучше», чтобы правильные слова не помечались как неправильные. Однако на практике оптимальный размер для английского языка составляет около 90 000 записей. Если их больше, неправильно написанные слова могут быть пропущены, поскольку их принимают за другие. Например, лингвист может на основе корпусной лингвистики определить , что слово «бат» чаще является орфографической ошибкой слова «бат» или «бат» , чем ссылкой на тайскую валюту. Следовательно, обычно было бы полезнее, если бы несколько человек, пишущих о тайской валюте, испытывали небольшое неудобство, чем если бы орфографические ошибки многих других людей, обсуждающих бани, были упущены из виду.
Первые средства проверки орфографии MS-DOS в основном использовались в режиме проверки из пакетов текстовых процессоров. После подготовки документа пользователь просматривал текст на предмет орфографических ошибок. Позже, однако, пакетная обработка была предложена в таких пакетах, как . недолговечный CoAuthor от Oracle, и позволила пользователю просматривать результаты после обработки документа и исправлять только те слова, которые были заведомо неправильными Когда памяти и вычислительной мощности стало много, проверка орфографии выполнялась в фоновом режиме в интерактивном режиме, как это было в случае с программой Spellbound, созданной Sector Software, выпущенной в 1987 году, и Microsoft Word, начиная с Word 95.
Средства проверки правописания становились все более изощренными; теперь способен распознавать грамматические ошибки. Однако даже в своих лучших проявлениях они редко улавливают все ошибки в тексте (например, ошибки омофонов ) и помечают неологизмы и иностранные слова как орфографические ошибки. Тем не менее, средства проверки орфографии можно рассматривать как своего рода средство письма на иностранном языке , на которое могут положиться изучающие язык, не являющийся родным, для обнаружения и исправления своих орфографических ошибок на целевом языке. [ 25 ]
Проверка орфографии для языков, отличных от английского
[ редактировать ]Английский необычен тем, что большинство слов, используемых в формальном письме, имеют одно написание, которое можно найти в обычном словаре, за исключением некоторых жаргонизмов и модифицированных слов. Во многих языках слова часто объединяются в новые комбинации слов. В немецком языке сложные существительные часто образуются из других существующих существительных. Некоторые сценарии не позволяют четко отделить одно слово от другого, поэтому требуются алгоритмы разделения слов. Каждый из них представляет собой уникальную задачу для тех, кто проверяет орфографию не на английском языке.
Контекстно-зависимая проверка правописания
[ редактировать ]Было проведено исследование по разработке алгоритмов, способных распознавать слово с ошибкой, даже если само слово есть в словаре, на основе контекста окружающих слов. Это не только позволяет уловить такие слова, как те, что в стихотворении выше, но и смягчает вредный эффект расширения словарей, позволяя распознавать больше слов. Например, слово «бат» в том же параграфе, что и «Тайский» или «Таиланд», не будет признано ошибкой в написании слова «бат» . Наиболее распространенным примером ошибок, обнаруживаемых такой системой, являются ошибки омофонов , например, слова, выделенные жирным шрифтом в следующем предложении:
- Их приближение слишком велико, если его катить .
Самым успешным алгоритмом на сегодняшний день является « Алгоритм исправления орфографии на основе Winnow » Эндрю Голдинга и Дэна Рота. [ 26 ] опубликованный в 1999 году, который способен распознавать около 96% контекстно-зависимых орфографических ошибок, помимо обычных орфографических ошибок, не связанных со словами. Контекстно-зависимые средства проверки орфографии появились в ныне несуществующих приложениях Microsoft Office 2007. [ 27 ] и Гугл Вейв . [ 28 ]
Программы проверки грамматики пытаются исправить проблемы с грамматикой, помимо орфографических ошибок, включая неправильный выбор слов.
См. также
[ редактировать ]- Эффект Купертино
- Проверка грамматики
- Проблема с привязкой записи
- Предложение по написанию
- Слова (Unix)
- Автокоррекция
- Языковой инструмент
Ссылки
[ редактировать ]- ^ Пернер, Петра (5 июля 2010 г.). Достижения в области интеллектуального анализа данных: приложения и теоретические аспекты: 10-я Промышленная конференция ICDM 2010, Берлин, Германия, 12-14 июля 2010 г. Материалы . Springer Science & Business Media. ISBN 978-3-642-14399-1 .
- ^ Патент США 6618697, Метод исправления орфографических и грамматических ошибок на основе правил.
- ^ де Аморим, RC; Зампиери, М. (2013) Эффективные методы проверки орфографии с использованием алгоритмов кластеризации. Архивировано 17 августа 2017 г. в журнале Wayback Machine Proceedings of Recent Advances in Natural Language Processing (RANLP2013). Хисар, Болгария. п. 172-178.
- ^ Зампиери, М.; де Аморим, RC (2014) Между звуком и правописанием: сочетание фонетики и алгоритмов кластеризации для улучшения восстановления целевого слова. Материалы 9-й Международной конференции по обработке естественного языка (PolTAL). Конспекты лекций по информатике (LNCS). Спрингер. п. 438-449.
- ^ Эрнест, Лес. «Первые три средства проверки правописания» (PDF) . Стэнфордский университет. Архивировано из оригинала (PDF) 22 октября 2012 года . Проверено 10 октября 2011 г.
- ^ Петерсон, Джеймс (декабрь 1980 г.). Компьютерные программы для обнаружения и исправления орфографических ошибок (PDF) . Проверено 18 февраля 2011 г.
- ^ Эрнест, Лес. Видимое наследие 3000 года (PDF) . Архивировано из оригинала (PDF) 20 июля 2011 г. Проверено 18 февраля 2011 г.
- ^ Jump up to: а б «Преподаватели и сотрудники Джорджтаунского университета: Центр языка, образования и развития» . Архивировано из оригинала 5 февраля 2009 г. Проверено 18 декабря 2008 г. , цитата: «Мария Мариани... была одной из шести лингвистов из Джорджтаунского университета, которые разработали первую систему проверки правописания для корпорации IBM».
- ^ Харви, Шарлотта Брюс (май – июнь 2010 г.). «Обучение компьютеров правописанию (некролог Генри Кучеры)» . Журнал выпускников Брауна . п. 79.
- ^ «Интернэшнл Испелл» . www.cs.hmc.edu . Проверено 19 февраля 2023 г.
- ^ «ГНУ Аспелл» . aspell.net . Проверено 19 февраля 2023 г.
- ^ «Ханспелл: О» . hunspell.github.io . Проверено 19 февраля 2023 г.
- ^ AbiWord/enchant , AbiWord, 13 февраля 2023 г. , получено 19 февраля 2023 г.
- ^ Реклама (январь 1981 г.). «Микро Компьютер Индастриз, Лтд» (PDF) . Вычислите! Журнал, Выпуск 8, Том. 3, № 1 . п. 119.
- ^ Реклама (ноябрь 1982 г.). «Пчела по орфографии окончена» . Журнал ПК . п. 165 . Проверено 21 октября 2013 г.
- ^ Дэвид Пог (2009). Mac OS X Snow Leopard: недостающее руководство .
- ^ Дэвид Пог (2015). Переход на Mac: недостающее руководство . «О'Рейли Медиа, Инк.». ISBN 9781491948125 .
- ^ «VisualTools VT-Speller». Компьютерный мир . 21 февраля 1994 г. с. 68.
- ^ «Обзор 27 сентября 1993 года» .
ВТ-СПЕЛЛЕР
- ^ Питер Г. Эйткен (8 ноября 1994 г.). «Проверка орфографии в ваших приложениях». Журнал ПК . п. 299.
- ^ «Аспелл и Ханспелл: история о двух программах проверки орфографии» . Battlepenguin.com .
- ^ «Медицинская проверка правописания для Firefox и Thunderbird» . электронные медицинские инструменты. 2017. Архивировано из оригинала 4 мая 2019 г. Проверено 29 августа 2018 г.
- ^ Кватамер, доктор Тобиас (2016). «Немецкий медицинский словарь» . Доктор Тобиас Куатамер . Проверено 29 августа 2018 г.
- ^ Фридман, Ричард А.; Д, М (2003). «СЛУЧАИ; имеют ли значение орфография и почерк? В медицине, будьте уверены» . Нью-Йорк Таймс . Проверено 29 августа 2018 г.
- ^ Бэнкс, Т. (2008). Трудности изучения иностранного языка и стратегии преподавания . (стр. 29). Магистерская диссертация, Доминиканский университет Калифорнии. Проверено 19 марта 2012 г.
- ^ Голдинг, Эндрю Р.; Рот, Дэн (1999). «Журнальная статья». Машинное обучение . 34 . СпрингерЛинк: 107–130. дои : 10.1023/А:1007545901558 . S2CID 12283016 .
- ^ Уолт Моссберг (4 января 2007 г.). "Обзор" . Уолл Стрит Джорнал . Проверено 24 сентября 2010 г.
- ^ «Операционная система Google» . googlesystem.blogspot.com. 29 мая 2009 года . Проверено 25 сентября 2010 г. «Контекстно-зависимая проверка орфографии Google» . 29 мая 2009 года . Проверено 25 сентября 2010 г.
Внешние ссылки
[ редактировать ]- Список программ проверки правописания в Curlie
- Norvig.com , «Как написать корректор орфографии», Питер Норвиг
- BBK.ac.uk , «Проверка орфографии с помощью компьютера», Роджер Миттон.
- CBSNews.com , «Костыль проверки орфографии ограничивает правильность», Ллойд де Врис
- История и текст книги Марка Экмана и Джерролда Х. Зара «Кандидат на сюрприз для курицы».