~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ F5008F1FB3F56969B1EE3D0D39505013__1712509920 ✰
Заголовок документа оригинал.:
✰ Spell checker - Wikipedia ✰
Заголовок документа перевод.:
✰ Проверка орфографии — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Spell_checker ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/f5/13/f5008f1fb3f56969b1ee3d0d39505013.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/f5/13/f5008f1fb3f56969b1ee3d0d39505013__translat.html ✰
Дата и время сохранения документа:
✰ 22.06.2024 16:44:41 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 7 April 2024, at 20:12 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Проверка орфографии — Википедия Jump to content

Программа проверки орфографии

Из Википедии, бесплатной энциклопедии

В программном обеспечении ( проверка орфографии или проверка орфографии или проверка орфографии ) — это функция программного обеспечения , которая проверяет наличие орфографических ошибок в тексте . Функции проверки орфографии часто встроены в программное обеспечение или службы, такие как текстовый процессор , почтовый клиент , электронный словарь или поисковая система .

Глаз есть проверка орфографии,
Он пришел с моим Гороховым морем.
Это самолет Ли отмечает четыре моего ревю
Мисс Стейкс, я могу завязать морской узел.

Взгляните на набережную и напечатайте жужжание
И вес четыре, два говорят
Глаз погоды, я пишу весло неправильно
Это говорит мне прямо о взвешивании.

Глаз пробежал это стихотворение, бросил его,
Ваш берег очень рад двум нет.
Его вес варьируется от полировки.
Моя шашка сказала мне шить.

Шашка – вещь благодатная,
Он замораживает тисовые жилки тимьяна.
Это помогает мне исправить все стили исправления,
И помогает мне, когда на глазах налипает иней.

Каждая драка появляется на моем экране.
Глаз завязан слишком пчелиным джоулем.
Проверка льет каждое слово
Правило написания двух контрольных сумм.

Первоначальная версия этого стихотворения была написана Джерролдом Х. Заром в 1992 году. Неискушенная программа проверки орфографии не найдет практически никаких ошибок в этом стихотворении, поскольку оно проверяет слова изолированно. Более сложная программа проверки правописания будет использовать языковую модель для учета контекста, в котором встречается слово.
Проверка орфографии Google Chrome в приведенном выше стихотворении, слово «проверка» помечено как нераспознанное слово.

Дизайн [ править ]

Базовая проверка орфографии выполняет следующие процессы:

  • Он сканирует текст и извлекает содержащиеся в нем слова.
  • Затем он сравнивает каждое слово с известным списком правильно написанных слов (т.е. со словарем). Он может содержать только список слов или дополнительную информацию, например точки переноса или лексические и грамматические атрибуты.
  • Дополнительным шагом является языково-зависимый алгоритм обработки морфологии . Даже для языка с небольшими изменениями, такого как английский , программе проверки орфографии придется учитывать различные формы одного и того же слова, такие как множественное число, глагольные формы, сокращения и притяжательные падежи . Для многих других языков, например тех, в которых присутствует агглютинация и более сложное склонение и спряжение, эта часть процесса более сложна.

Неясно, дает ли морфологический анализ, допускающий использование многих форм слова в зависимости от его грамматической роли, значительную пользу для английского языка, хотя его преимущества для высокосинтетических языков, таких как немецкий, венгерский или турецкий, очевидны.

программы В качестве дополнения к этим компонентам пользовательский интерфейс позволяет пользователям одобрять или отклонять замены, а также изменять работу программы.

Программы проверки орфографии могут использовать алгоритмы приблизительного сопоставления строк, такие как расстояние Левенштейна , чтобы найти правильное написание слов с ошибками. [1] Альтернативный тип проверки правописания использует исключительно статистическую информацию, такую ​​как n-граммы , для распознавания ошибок вместо правильно написанных слов. Этот подход обычно требует больших усилий для получения достаточной статистической информации. Ключевые преимущества включают необходимость меньшего объема памяти во время выполнения и возможность исправлять ошибки в словах, которые не включены в словарь. [2]

В некоторых случаях средства проверки орфографии используют фиксированный список орфографических ошибок и предложения по их исправлению; этот менее гибкий подход часто используется в бумажных методах исправления, например, в статьях энциклопедий.

Алгоритмы кластеризации также использовались для проверки орфографии. [3] в сочетании с фонетической информацией. [4]

История [ править ]

Предварительный ПК [ править ]

В 1961 году Лес Эрнест , возглавлявший исследования этой многообещающей технологии, счел необходимым включить первую программу проверки орфографии, которая имела доступ к списку из 10 000 допустимых слов. [5] Ральф Горин, в то время аспирант Эрнеста, создал первую настоящую программу проверки орфографии, написанную как прикладную программу (а не исследование) для общего английского текста: SPELL для DEC PDP-10 в Лаборатории искусственного интеллекта Стэнфордского университета в феврале. 1971. [6] Горин написал SPELL на языке ассемблера , для более быстрого действия; он создал первый корректор орфографии, выполнив поиск в списке слов возможных правильных вариантов написания, которые отличаются одной буквой или транспозицией соседних букв, и представил их пользователю. Горин сделал SPELL общедоступным, как это было сделано с большинством программ SAIL (Стэнфордской лаборатории искусственного интеллекта), и вскоре он распространился по всему миру через новую сеть ARPAnet, примерно за десять лет до того, как персональные компьютеры стали широко использоваться. [7] SPELL, его алгоритмы и структуры данных вдохновили программу ispell для Unix .

Первые средства проверки правописания были широко доступны на мэйнфреймах в конце 1970-х годов. Группа из шести лингвистов из Джорджтаунского университета разработала первую систему проверки правописания для корпорации IBM. [8]

Генри Кучера изобрел один для машин VAX компании Digital Equipment Corp в 1981 году. [9]

Юникс [ править ]

Программа International Ispell, обычно используемая в Unix, основана на SPELL Р.Е. Горина. Он был преобразован в C Пейсом Уиллиссоном из Массачусетского технологического института. [10]

В проекте GNU есть своя программа проверки правописания GNU Aspell . Основное улучшение Aspell заключается в том, что он может более точно предлагать правильные альтернативы английским словам с ошибками. [11]

Из-за неспособности традиционных средств проверки орфографии проверять слова в языках со сложными флексиями, венгр Ласло Немет разработал Hunspell , программу проверки орфографии, которая поддерживает агглютинативные языки и сложные составные слова. Hunspell также использует Unicode в своих словарях. [12] Hunspell заменил предыдущий MySpell в OpenOffice.org в версии 2.0.2.

Enchant — еще одна общая программа проверки правописания, созданная на основе AbiWord . Его цель — объединить в одном интерфейсе программы, поддерживающие разные языки, такие как Aspell, Hunspell, Nuspell, Hspell (иврит), Voikko (финский), Zemberek (турецкий) и AppleSpell. [13]

ПК [ править ]

Первые средства проверки орфографии для персональных компьютеров появились в 1980 году, например, «WordCheck» для систем Commodore, выпущенная в конце 1980 года, как раз к тому времени, когда рекламные объявления были напечатаны в январе 1981 года. [14] Такие разработчики, как Мария Мариани [8] и Рэндом Хаус [15] бросили OEM- пакеты или продукты для конечных пользователей на быстро растущий рынок программного обеспечения. На ПК до Windows эти средства проверки правописания представляли собой автономные программы, многие из которых можно было запускать в резидентном режиме «завершить и остаться» из пакетов текстовых процессоров на ПК с достаточным объемом памяти.

Однако рынок автономных пакетов просуществовал недолго, поскольку к середине 1980-х годов разработчики популярных пакетов текстовых процессоров, таких как WordStar и WordPerfect , включили в свои пакеты средства проверки орфографии, в основном по лицензии вышеупомянутых компаний, которые быстро расширили поддержку всего лишь Английский для многих европейских и, в конечном итоге, даже азиатских языков . Однако это потребовало усложнения морфологических процедур программного обеспечения, особенно в отношении сильно агглютинативных языков, таких как венгерский и финский . Хотя размер рынка текстовых процессоров в такой стране, как Исландия , возможно, не оправдал инвестиций во внедрение системы проверки правописания, такие компании, как WordPerfect, тем не менее, стремились локализовать свое программное обеспечение для как можно большего числа национальных рынков в рамках своей глобальной маркетинговой стратегии.

Когда Apple разработала «общесистемную программу проверки орфографии» для Mac OS X, чтобы «операционная система взяла на себя исправления орфографии», [16] это было впервые: «не нужно было поддерживать отдельную программу проверки орфографии для каждой» программы. [17] Проверка орфографии в Mac OS X включает практически все встроенные и сторонние приложения.

компании Visual Tools VT Speller , представленный в 1994 году, был «предназначен для разработчиков приложений, поддерживающих Windows». [18] [19] Он поставлялся со словарем, но имел возможность создавать и использовать вторичные словари. [20]

Браузеры [ править ]

Веб-браузеры, такие как Firefox и Google Chrome, поддерживают проверку орфографии с помощью Hunspell . До использования Hunspell Firefox и Chrome Chrome использовали MySpell и GNU Aspell соответственно. [21]

Специальности [ править ]

Некоторые программы проверки орфографии имеют отдельную поддержку медицинских словарей, что помогает предотвратить медицинские ошибки. [22] [23] [24]

Функциональность [ править ]

Первые программы проверки правописания были «проверителями», а не «корректорами». Они не предлагали никаких предложений относительно неправильно написанных слов. Это было полезно при опечатках, но не при логических или фонетических ошибках. Проблема, с которой столкнулись разработчики, заключалась в том, что им было трудно предлагать полезные предложения для слов с ошибками. Это требует приведения слов к скелетной форме и применения алгоритмов сопоставления с образцом.

Может показаться логичным, что в отношении словарей для проверки орфографии принцип «чем больше, тем лучше», чтобы правильные слова не помечались как неправильные. Однако на практике оптимальный размер для английского языка составляет около 90 000 записей. Если их больше, неправильно написанные слова могут быть пропущены, поскольку их принимают за другие. Например, лингвист может на основе корпусной лингвистики определить , что слово «бат» чаще является орфографической ошибкой слова «бат» или «бат» , чем ссылкой на тайскую валюту. Следовательно, обычно было бы полезнее, если бы несколько человек, пишущих о тайской валюте, испытывали небольшое неудобство, чем если бы игнорировались орфографические ошибки гораздо большего числа людей, обсуждающих бани.

Скриншот Enchant , AbiWord. средства проверки правописания

Первые средства проверки орфографии MS-DOS в основном использовались в режиме проверки из пакетов текстовых процессоров. После подготовки документа пользователь просматривал текст на предмет орфографических ошибок. Позже, однако, пакетная обработка была предложена в таких пакетах, как . недолговечный CoAuthor от Oracle, и позволила пользователю просматривать результаты после обработки документа и исправлять только те слова, которые были заведомо неправильными Когда памяти и вычислительной мощности стало много, проверка орфографии выполнялась в фоновом режиме в интерактивном режиме, как это было в случае с программой Spellbound, созданной Sector Software, выпущенной в 1987 году, и Microsoft Word, начиная с Word 95.

Средства проверки правописания становились все более изощренными; теперь способен распознавать грамматические ошибки. Однако даже в своих лучших проявлениях они редко улавливают все ошибки в тексте (например, ошибки омофонов ) и помечают неологизмы и иностранные слова как орфографические ошибки. Тем не менее, средства проверки орфографии можно рассматривать как своего рода средство письма на иностранном языке , на которое могут положиться изучающие язык, не являющийся родным, для обнаружения и исправления своих орфографических ошибок на целевом языке. [25]

Проверка орфографии для языков, отличных от английского [ править ]

Английский необычен тем, что большинство слов, используемых в формальном письме, имеют одно написание, которое можно найти в обычном словаре, за исключением некоторых жаргонизмов и модифицированных слов. Во многих языках слова часто объединяются в новые комбинации слов. В немецком языке сложные существительные часто образуются из других существующих существительных. Некоторые сценарии не позволяют четко отделить одно слово от другого, поэтому требуются алгоритмы разделения слов. Каждый из них представляет собой уникальную задачу для тех, кто проверяет орфографию не на английском языке.

Контекстно-зависимые средства проверки орфографии [ править ]

Было проведено исследование по разработке алгоритмов, способных распознавать слово с ошибкой, даже если само слово есть в словаре, на основе контекста окружающих слов. Это не только позволяет уловить такие слова, как те, что в стихотворении выше, но и смягчает вредный эффект расширения словарей, позволяя распознавать больше слов. Например, слово «бат» в том же параграфе, что и «Тайский» или «Таиланд», не будет признано ошибкой в ​​написании слова «бат» . Наиболее распространенным примером ошибок, обнаруживаемых такой системой, являются ошибки омофонов , например, слова, выделенные жирным шрифтом в следующем предложении:

Их приближение слишком велико , если его катить .

Самым успешным алгоритмом на сегодняшний день является « Winnow » Эндрю Голдинга и Дэна Рота. Алгоритм исправления орфографии на основе [26] опубликованный в 1999 году, который способен распознавать около 96% контекстно-зависимых орфографических ошибок, помимо обычных орфографических ошибок, не связанных со словами. Контекстно-зависимые средства проверки орфографии появились в ныне несуществующих приложениях Microsoft Office 2007. [27] и Гугл Вейв . [28]

Программы проверки грамматики пытаются исправить проблемы с грамматикой, помимо орфографических ошибок, включая неправильный выбор слов.

См. также [ править ]

Ссылки [ править ]

  1. ^ Пернер, Петра (5 июля 2010 г.). Достижения в области интеллектуального анализа данных: приложения и теоретические аспекты: 10-я Промышленная конференция ICDM 2010, Берлин, Германия, 12-14 июля 2010 г. Материалы . Springer Science & Business Media. ISBN  978-3-642-14399-1 .
  2. ^ Патент США 6618697, Метод исправления орфографических и грамматических ошибок на основе правил.
  3. ^ де Аморим, RC; Зампиери, М. (2013) Эффективные методы проверки орфографии с использованием алгоритмов кластеризации. Архивировано 17 августа 2017 г. в журнале Wayback Machine Proceedings of Recent Advances in Natural Language Processing (RANLP2013). Хисар, Болгария. п. 172-178.
  4. ^ Зампиери, М.; де Аморим, RC (2014) Между звуком и правописанием: сочетание фонетики и алгоритмов кластеризации для улучшения восстановления целевого слова. Материалы 9-й Международной конференции по обработке естественного языка (PolTAL). Конспекты лекций по информатике (LNCS). Спрингер. п. 438-449.
  5. ^ Эрнест, Лес. «Первые три средства проверки правописания» (PDF) . Стэндфордский Университет. Архивировано из оригинала (PDF) 22 октября 2012 года . Проверено 10 октября 2011 г.
  6. ^ Петерсон, Джеймс (декабрь 1980 г.). Компьютерные программы для обнаружения и исправления орфографических ошибок (PDF) . Проверено 18 февраля 2011 г.
  7. ^ Эрнест, Лес. Видимое наследие 3000 года (PDF) . Архивировано из оригинала (PDF) 20 июля 2011 г. Проверено 18 февраля 2011 г.
  8. ^ Перейти обратно: а б «Преподаватели и сотрудники Джорджтаунского университета: Центр языка, образования и развития» . Архивировано из оригинала 5 февраля 2009 г. Проверено 18 декабря 2008 г. , цитата: «Мария Мариани... была одной из шести лингвистов из Джорджтаунского университета, которые разработали первую систему проверки правописания для корпорации IBM».
  9. ^ Харви, Шарлотта Брюс (май – июнь 2010 г.). «Обучение компьютеров правописанию (некролог Генри Кучеры)» . Журнал выпускников Брауна . п. 79.
  10. ^ «Интернэшнл Испелл» . www.cs.hmc.edu . Проверено 19 февраля 2023 г.
  11. ^ «ГНУ Аспелл» . aspell.net . Проверено 19 февраля 2023 г.
  12. ^ «Ханспелл: О» . hunspell.github.io . Проверено 19 февраля 2023 г.
  13. ^ AbiWord/enchant , AbiWord, 13 февраля 2023 г. , получено 19 февраля 2023 г.
  14. ^ Реклама (январь 1981 г.). «Микро Компьютер Индастриз, Лтд» (PDF) . Вычислите! Журнал, Выпуск 8, Том. 3, № 1 . п. 119.
  15. ^ Реклама (ноябрь 1982 г.). «Пчела по орфографии окончена» . Журнал ПК . п. 165 . Проверено 21 октября 2013 г.
  16. ^ Дэвид Пог (2009). Mac OS X Snow Leopard: недостающее руководство .
  17. ^ Дэвид Пог (2015). Переход на Mac: недостающее руководство . «О'Рейли Медиа, Инк.». ISBN  9781491948125 .
  18. ^ «VisualTools VT-Speller». Компьютерный мир . 21 февраля 1994 г. с. 68.
  19. ^ «Обзор 27 сентября 1993 года» . ВТ-СПЕЛЛЕР
  20. ^ Питер Г. Эйткен (8 ноября 1994 г.). «Проверка орфографии в ваших приложениях». Журнал ПК . п. 299.
  21. ^ «Аспелл ​​и Ханспелл: история о двух программах проверки орфографии» . Battlepenguin.com .
  22. ^ «Медицинская проверка правописания для Firefox и Thunderbird» . электронные медицинские инструменты. 2017. Архивировано из оригинала 4 мая 2019 г. Проверено 29 августа 2018 г.
  23. ^ Кватамер, доктор Тобиас (2016). «Немецкие медицинские словарные слова» . Доктор Тобиас Куатамер . Проверено 29 августа 2018 г.
  24. ^ Фридман, Ричард А.; Д, М (2003). «СЛУЧАИ; имеют ли значение орфография и почерк? В медицине, будьте уверены» . Нью-Йорк Таймс . Проверено 29 августа 2018 г.
  25. ^ Бэнкс, Т. (2008). Трудности изучения иностранного языка и стратегии преподавания . (стр. 29). Магистерская диссертация, Доминиканский университет Калифорнии. Проверено 19 марта 2012 г.
  26. ^ Голдинг, Эндрю Р.; Рот, Дэн (1999). "Журнальная статья". Машинное обучение . 34 . СпрингерЛинк: 107–130. дои : 10.1023/А:1007545901558 . S2CID   12283016 .
  27. ^ Уолт Моссберг (4 января 2007 г.). "Обзор" . Уолл Стрит Джорнал . Проверено 24 сентября 2010 г.
  28. ^ «Операционная система Google» . googlesystem.blogspot.com. 29 мая 2009 года . Проверено 25 сентября 2010 г. «Контекстно-зависимая проверка орфографии Google» . 29 мая 2009 года . Проверено 25 сентября 2010 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: F5008F1FB3F56969B1EE3D0D39505013__1712509920
URL1:https://en.wikipedia.org/wiki/Spell_checker
Заголовок, (Title) документа по адресу, URL1:
Spell checker - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)