Jump to content

Моби Проект

Проект Moby — это коллекция общедоступных лексических ресурсов, созданная Грейди Уордом . Ресурсы были переданы в общественное достояние и теперь отражены в Project Gutenberg . По состоянию на 2007 год , он содержит крупнейшую бесплатную фонетическую базу данных, содержащую 177 267 слов и соответствующее произношение. [ 1 ]

переносчик

[ редактировать ]

Moby Hyphenator II содержит переносы 187 175 слов и фраз (включая 9 752 записи, в которых переносы не указаны, например « through» и «avoir» ). Кодировка символов выглядит как MacRoman , а переносы обозначаются маркером ( ⟨•⟩ , десятичное значение символа 165 или шестнадцатеричное значение A5). Однако некоторые записи содержат комбинацию дефисов и символа 165, например «парикмахер-хирург».

Документация по выбору расстановки переносов практически отсутствует; Следующие примеры могут дать некоторое представление об используемом стиле расстановки переносов: at•mos•phere; сопровождающий*ант; емкость; не•цветной.

Moby Language II содержит списки слов на пяти языках: французском , немецком , итальянском , японском и испанском . Их статистика:

Язык Слова Размер (в байтах )
Французский 138,257 1,524,757
немецкий 159,809 2,055,986
итальянский 60,453 561,981
японский 115,523 934,783
испанский 86,059 850,523
Общий 560,101 5,928,030

Однако некоторые списки загрязнены: например, японский список содержит английские слова, такие как ненормальный , и не слова, такие как abcdefgh и m,./ . Есть также необычные особенности в сортировке этих списков: французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список традиционно написанных с заглавной буквы слов, а затем алфавитный список традиционно строчных слов. Однако список итальянских слов вообще не содержит слов с заглавной буквы.

В списках не используются символы с диакритическими знаками, поэтому «e^tre» — это то, как пользователь будет искать французское слово être («быть»).

Часть речи

[ редактировать ]

Moby Part-of-Speech содержит 233 356 слов, полностью описанных частями речи , перечисленными в порядке приоритета. Формат файла — word\parts-of-speech , в котором идентифицируются следующие части речи:

Часть речи Код
Существительное Н
Множественное число п
Существительная фраза час
Глагол (обычно причастие ) V
Переходный глагол т
Непереходный глагол я
Прилагательное А
Наречие v
Соединение С
Предлог П
Междометие !
Местоимение р
Определенный артикль Д
Неопределенный артикль я
Именительный падеж тот

Moby Pronunciator II содержит 177 267 записей с соответствующим произношением. Большинство записей описывают одно слово, но около 79 000 [ 2 ] содержать фразы, имена или лексемы, написанные через дефис или состоящие из нескольких слов . Дистрибутив Project Gutenberg также содержит копию cmudic v0.3. Файл содержит строки произношения формата слово[/часть речи] . Каждая строка заканчивается символом возврата каретки ASCII (CR, '\r', 0x0D, 13 в десятичном формате).

Поле слова может включать в себя апострофы (например, is not ), дефисы (например, able-bodied ) и несколько слов, разделенных подчеркиванием (например, monkey_wrench ). Неанглийские слова обычно отображаются, как указано в документации, без акцентов и других диакритических знаков. Однако в 36 записях (например, São_Miguel ) остаются некоторые символы с диакритическими знаками, отличными от ASCII, представленные с использованием римской кодировки Mac OS.

Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от части речи. Например, для слов, написанных близко, глагол имеет произношение / ˈ k l z / , тогда как прилагательное - / ˈ k l s / . Частям речи присвоены следующие коды:

Часть речи Код
Существительное н
Глагол v
Прилагательное также
Наречие из
Междометие интердж

Далее следует произношение. Присутствует несколько специальных символов:

Символ Значение
_ Используется для разделения слов
' Основное ударение на следующем слоге
, Вторичное ударение на следующем слоге

Остальные символы используются для обозначения символов IPA . Произношение в целом соответствует общему американскому диалекту английского языка, который демонстрирует слияние отца и беспокойства , слияние спешки и шерсти и раскол ткани , но не демонстрирует слияния, захваченного раскладушкой, или слияния вина и нытья . Каждая фонема представлена ​​последовательностью одного или нескольких символов. Некоторые из последовательностей разделяются косой чертой «/», как показано в следующей таблице, но обратите внимание, что последовательность / ɔɪ / ограничивается двумя косыми чертами на обоих концах:

Символ НАСИЛИЕ
/&/ ой
/-/ а
/@/ ʌ, а
/[@]/р э, муж
/А/ ɑ, ɑː
/все/ ааа
/В/ а'
б б
д д
/Д/ д
/дЗ/ дʒ
/И/ е
/эИ/ еɪ
ж ж
г ɡ
час час
как как
/я/ я
/Я/ ɪ
/Дж/ дж
/ага/ юː
к к
л л
м м
н н
/Н/ ŋ
/ТОТ/ ɔ, ɔː
//Привет// ɔɪ
/или/ о''
п п
р р
с с
/С/ ʃ
т т
/Т/ я
/ТС/ тʃ
/в/ тыː
/В/ ʊ
v v
В В
С С
/С/ ʒ

К этой коллекции добавлен ряд дополнительных последовательностей, представляющих фонемы, встречающиеся в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. В следующей таблице приведены эти дополнительные фонемы, но учтите, что степень существования некоторых из них из-за ошибок кодирования не ясна.

Символ НАСИЛИЕ
А а
и да, ɛ
я я, ɪ
Н Назализация предшествующей гласной
тот тот
ТО [намерение неясно]
Р ʁ
С с
в в
V v, β, ʋ
В В
/х/ х
/и/ ø
И и
/С/ тс
С С

Моби Шекспир содержит полное полное собрание сочинений Шекспира . Этот конкретный ресурс недоступен в Project Gutenberg, но доступен в Интернете в версии 1993 года. [ 3 ]

Тезаурус

[ редактировать ]

Moby Thesaurus II содержит 30 260 корневых слов с 2 520 264 синонимами и родственными терминами – в среднем 83,3 на одно корневое слово. Каждая строка состоит из списка значений, разделенных запятыми , где первый термин является корневым словом, а все последующие слова — связанными терминами.

Грэди Уорд разместил этот тезаурус в открытом доступе в 1996 году. Он также доступен в виде пакета Debian, хотя выпуск пакета был прекращен, начиная с Bullseye . [ 4 ]

Moby Words II — самый большой список слов в мире. [ 1 ] [ необходимы дополнительные ссылки ] Дистрибутив состоит из следующих 16 файлов:

Имя файла Слова Описание
СОКРАЩЕНИЯ.TXT 6,213 Распространенные аббревиатуры и сокращения
ОБЩИЙ.TXT 74,550 Общие слова, присутствующие в двух или более опубликованных словарях.
СОЕДИНЕНИЕ.TXT 256,772 Фразы, имена собственные и акронимы, не включенные в файл общих слов.
КРОССВД.TXT 113,809 Слова, включенные в первое издание Официального словаря игроков в скрэббл.
CRSWD-D.TXT 4,160 Дополнения к Официальному словарю игроков в скрэббл во втором издании
ФИКЦИЯ.TXT 467 Список наиболее часто встречающихся подстрок в книге «Клуб радости и удачи».
ЧАСТОТА.TXT 1,000 Наиболее часто встречающиеся слова английского языка , перечислены в порядке убывания.
ЧАСТОТА-INT.TXT 1,000 Наиболее часто встречающиеся слова в Usenet в 1992 году перечислены с соответствующим процентом в порядке убывания.
KJVFREQ.TXT 1,185 Наиболее часто встречающиеся подстроки в Библии короля Иакова , перечислены в порядке убывания.
ИМЕНА.TXT 21,986 Наиболее распространенные имена, используемые в США и Великобритании.
ИМЕНА-F.TXT 4,946 Распространенные английские женские имена
ИМЕНА-M.TXT 3,897 Распространенные английские мужские имена
OFTENMIS.TXT 366 Самые распространенные английские слова с ошибками в написании
МЕСТА.TXT 10,196 Названия мест в США
ОДИН.TXT 354,984 Отдельные слова, исключая имена собственные, аббревиатуры, сложные слова и фразы, но включая архаичные слова и существенные варианты написания.
USACONST.TXT 7,618 Конституция США, включая все поправки, внесенные в 1993 г.
Общий 863,149 Не общее количество уникальных слов.
Тотал Уник 639,995 Всего одиночных, собственных имен, сокращений, а также сложных слов и фраз (все файлы, содержащие уникальные слова).
  1. ^ Jump up to: а б «Ссылки на ресурсы ACL SIGLEX» . Специальная группа по лексике Ассоциации компьютерной лингвистики. 13 августа 2004 г. Архивировано из оригинала 15 декабря 2018 г. Проверено 9 мая 2022 г. Moby Words: более 610 000 слов и фраз. Самый большой список слов в мире
  2. ^ Получено с помощью команды UNIX grep '.*[-_].* .*' mobypron.unc | wc -l после преобразования концов строк и исправления некоторых ошибок кодировки.
  3. ^ mobyshak.txt версия 1993 года
  4. ^ Тоси, Сандро (13 июля 2020 г.). «RM: dict-moby-thesaurus — RoQA; мертвый апстрим (более 10 лет); только Python2; никаких внешних [ sic ] deps; чрезвычайно низкий уровень popcon» . Журналы отчетов об ошибках Debian . Проверено 10 мая 2022 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8b17a9e6eaecdc6175c0afeb1105c861__1719261720
URL1:https://arc.ask3.ru/arc/aa/8b/61/8b17a9e6eaecdc6175c0afeb1105c861.html
Заголовок, (Title) документа по адресу, URL1:
Moby Project - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)