Моби Проект
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Проект Moby — это коллекция общедоступных лексических ресурсов, созданная Грейди Уордом . Ресурсы были переданы в общественное достояние и теперь отражены в Project Gutenberg . По состоянию на 2007 год [update], он содержит крупнейшую бесплатную фонетическую базу данных, содержащую 177 267 слов и соответствующее произношение. [ 1 ]
переносчик
[ редактировать ]Moby Hyphenator II содержит переносы 187 175 слов и фраз (включая 9 752 записи, в которых переносы не указаны, например « through» и «avoir» ). Кодировка символов выглядит как MacRoman , а переносы обозначаются маркером ( ⟨•⟩ , десятичное значение символа 165 или шестнадцатеричное значение A5). Однако некоторые записи содержат комбинацию дефисов и символа 165, например «парикмахер-хирург».
Документация по выбору расстановки переносов практически отсутствует; Следующие примеры могут дать некоторое представление об используемом стиле расстановки переносов: at•mos•phere; сопровождающий*ант; емкость; не•цветной.
Языки
[ редактировать ]Moby Language II содержит списки слов на пяти языках: французском , немецком , итальянском , японском и испанском . Их статистика:
Язык | Слова | Размер (в байтах ) |
---|---|---|
Французский | 138,257 | 1,524,757 |
немецкий | 159,809 | 2,055,986 |
итальянский | 60,453 | 561,981 |
японский | 115,523 | 934,783 |
испанский | 86,059 | 850,523 |
Общий | 560,101 | 5,928,030 |
Однако некоторые списки загрязнены: например, японский список содержит английские слова, такие как ненормальный , и не слова, такие как abcdefgh и m,./ . Есть также необычные особенности в сортировке этих списков: французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список традиционно написанных с заглавной буквы слов, а затем алфавитный список традиционно строчных слов. Однако список итальянских слов вообще не содержит слов с заглавной буквы.
В списках не используются символы с диакритическими знаками, поэтому «e^tre» — это то, как пользователь будет искать французское слово être («быть»).
Часть речи
[ редактировать ]Moby Part-of-Speech содержит 233 356 слов, полностью описанных частями речи , перечисленными в порядке приоритета. Формат файла — word\parts-of-speech , в котором идентифицируются следующие части речи:
Часть речи | Код |
---|---|
Существительное | Н |
Множественное число | п |
Существительная фраза | час |
Глагол (обычно причастие ) | V |
Переходный глагол | т |
Непереходный глагол | я |
Прилагательное | А |
Наречие | v |
Соединение | С |
Предлог | П |
Междометие | ! |
Местоимение | р |
Определенный артикль | Д |
Неопределенный артикль | я |
Именительный падеж | тот |
Спикер
[ редактировать ]Moby Pronunciator II содержит 177 267 записей с соответствующим произношением. Большинство записей описывают одно слово, но около 79 000 [ 2 ] содержать фразы, имена или лексемы, написанные через дефис или состоящие из нескольких слов . Дистрибутив Project Gutenberg также содержит копию cmudic v0.3. Файл содержит строки произношения формата слово[/часть речи] . Каждая строка заканчивается символом возврата каретки ASCII (CR, '\r', 0x0D, 13 в десятичном формате).
Поле слова может включать в себя апострофы (например, is not ), дефисы (например, able-bodied ) и несколько слов, разделенных подчеркиванием (например, monkey_wrench ). Неанглийские слова обычно отображаются, как указано в документации, без акцентов и других диакритических знаков. Однако в 36 записях (например, São_Miguel ) остаются некоторые символы с диакритическими знаками, отличными от ASCII, представленные с использованием римской кодировки Mac OS.
Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от части речи. Например, для слов, написанных близко, глагол имеет произношение / ˈ k l oʊ z / , тогда как прилагательное - / ˈ k l oʊ s / . Частям речи присвоены следующие коды:
Часть речи | Код |
---|---|
Существительное | н |
Глагол | v |
Прилагательное | также |
Наречие | из |
Междометие | интердж |
Далее следует произношение. Присутствует несколько специальных символов:
Символ | Значение |
---|---|
_ | Используется для разделения слов |
' | Основное ударение на следующем слоге |
, | Вторичное ударение на следующем слоге |
Остальные символы используются для обозначения символов IPA . Произношение в целом соответствует общему американскому диалекту английского языка, который демонстрирует слияние отца и беспокойства , слияние спешки и шерсти и раскол ткани , но не демонстрирует слияния, захваченного раскладушкой, или слияния вина и нытья . Каждая фонема представлена последовательностью одного или нескольких символов. Некоторые из последовательностей разделяются косой чертой «/», как показано в следующей таблице, но обратите внимание, что последовательность / ɔɪ / ограничивается двумя косыми чертами на обоих концах:
Символ | НАСИЛИЕ |
---|---|
/&/ | ой |
/-/ | а |
/@/ | ʌ, а |
/[@]/р | э, муж |
/А/ | ɑ, ɑː |
/все/ | ааа |
/В/ | а' |
б | б |
д | д |
/Д/ | д |
/дЗ/ | дʒ |
/И/ | е |
/эИ/ | еɪ |
ж | ж |
г | ɡ |
час | час |
как | как |
/я/ | я |
/Я/ | ɪ |
/Дж/ | дж |
/ага/ | юː |
к | к |
л | л |
м | м |
н | н |
/Н/ | ŋ |
/ТОТ/ | ɔ, ɔː |
//Привет// | ɔɪ |
/или/ | о'' |
п | п |
р | р |
с | с |
/С/ | ʃ |
т | т |
/Т/ | я |
/ТС/ | тʃ |
/в/ | тыː |
/В/ | ʊ |
v | v |
В | В |
С | С |
/С/ | ʒ |
К этой коллекции добавлен ряд дополнительных последовательностей, представляющих фонемы, встречающиеся в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. В следующей таблице приведены эти дополнительные фонемы, но учтите, что степень существования некоторых из них из-за ошибок кодирования не ясна.
Символ | НАСИЛИЕ |
---|---|
А | а |
и | да, ɛ |
я | я, ɪ |
Н | Назализация предшествующей гласной |
тот | тот |
ТО | [намерение неясно] |
Р | ʁ |
С | с |
в | в |
V | v, β, ʋ |
В | В |
/х/ | х |
/и/ | ø |
И | и |
/С/ | тс |
С | С |
Шекспир
[ редактировать ]Моби Шекспир содержит полное полное собрание сочинений Шекспира . Этот конкретный ресурс недоступен в Project Gutenberg, но доступен в Интернете в версии 1993 года. [ 3 ]
Тезаурус
[ редактировать ]Moby Thesaurus II содержит 30 260 корневых слов с 2 520 264 синонимами и родственными терминами – в среднем 83,3 на одно корневое слово. Каждая строка состоит из списка значений, разделенных запятыми , где первый термин является корневым словом, а все последующие слова — связанными терминами.
Грэди Уорд разместил этот тезаурус в открытом доступе в 1996 году. Он также доступен в виде пакета Debian, хотя выпуск пакета был прекращен, начиная с Bullseye . [ 4 ]
Слова
[ редактировать ]Moby Words II — самый большой список слов в мире. [ 1 ] [ необходимы дополнительные ссылки ] Дистрибутив состоит из следующих 16 файлов:
Имя файла | Слова | Описание |
---|---|---|
СОКРАЩЕНИЯ.TXT | 6,213 | Распространенные аббревиатуры и сокращения |
ОБЩИЙ.TXT | 74,550 | Общие слова, присутствующие в двух или более опубликованных словарях. |
СОЕДИНЕНИЕ.TXT | 256,772 | Фразы, имена собственные и акронимы, не включенные в файл общих слов. |
КРОССВД.TXT | 113,809 | Слова, включенные в первое издание Официального словаря игроков в скрэббл. |
CRSWD-D.TXT | 4,160 | Дополнения к Официальному словарю игроков в скрэббл во втором издании |
ФИКЦИЯ.TXT | 467 | Список наиболее часто встречающихся подстрок в книге «Клуб радости и удачи». |
ЧАСТОТА.TXT | 1,000 | Наиболее часто встречающиеся слова английского языка , перечислены в порядке убывания. |
ЧАСТОТА-INT.TXT | 1,000 | Наиболее часто встречающиеся слова в Usenet в 1992 году перечислены с соответствующим процентом в порядке убывания. |
KJVFREQ.TXT | 1,185 | Наиболее часто встречающиеся подстроки в Библии короля Иакова , перечислены в порядке убывания. |
ИМЕНА.TXT | 21,986 | Наиболее распространенные имена, используемые в США и Великобритании. |
ИМЕНА-F.TXT | 4,946 | Распространенные английские женские имена |
ИМЕНА-M.TXT | 3,897 | Распространенные английские мужские имена |
OFTENMIS.TXT | 366 | Самые распространенные английские слова с ошибками в написании |
МЕСТА.TXT | 10,196 | Названия мест в США |
ОДИН.TXT | 354,984 | Отдельные слова, исключая имена собственные, аббревиатуры, сложные слова и фразы, но включая архаичные слова и существенные варианты написания. |
USACONST.TXT | 7,618 | Конституция США, включая все поправки, внесенные в 1993 г. |
Общий | 863,149 | Не общее количество уникальных слов. |
Тотал Уник | 639,995 | Всего одиночных, собственных имен, сокращений, а также сложных слов и фраз (все файлы, содержащие уникальные слова). |
Ссылки
[ редактировать ]- ^ Jump up to: а б «Ссылки на ресурсы ACL SIGLEX» . Специальная группа по лексике Ассоциации компьютерной лингвистики. 13 августа 2004 г. Архивировано из оригинала 15 декабря 2018 г. Проверено 9 мая 2022 г.
Moby Words: более 610 000 слов и фраз. Самый большой список слов в мире
- ^ Получено с помощью команды UNIX grep '.*[-_].* .*' mobypron.unc | wc -l после преобразования концов строк и исправления некоторых ошибок кодировки.
- ^ mobyshak.txt версия 1993 года
- ^ Тоси, Сандро (13 июля 2020 г.). «RM: dict-moby-thesaurus — RoQA; мертвый апстрим (более 10 лет); только Python2; никаких внешних [ sic ] deps; чрезвычайно низкий уровень popcon» . Журналы отчетов об ошибках Debian . Проверено 10 мая 2022 г.
Внешние ссылки
[ редактировать ]- Домашняя страница проекта Moby , Университет Шеффилда; копия сделанная с помощью Wayback Machine страницы, , в том виде, в каком она была на 30 сентября 2017 г. («Последнее изменение: 24 октября 2000 г.») , рабочий сайт загрузки .
- Загрузки проекта Гутенберг
- Поиск рифм с Perl ; соответствующий код
- Викисловарь:Приложение:Moby Thesaurus II