Инструменты и методы языковой документации
Область языковой документации в современном контексте включает в себя сложный и постоянно развивающийся набор инструментов и методов, а изучение и развитие их использования – и, особенно, выявление и продвижение лучших практик – можно рассматривать как подобласть языковой документации. собственно языковая документация . [1] К ним относятся принципы этики и регистрации, рабочие процессы и методы, аппаратные и программные средства. [2]
Принципы и рабочие процессы
[ редактировать ]Исследователи языковой документации часто проводят лингвистические полевые исследования для сбора данных, на которых основана их работа, записывая аудиовизуальные файлы, документирующие использование языка в традиционных контекстах. Поскольку среда, в которой часто проводятся лингвистические полевые исследования, может быть сложной с точки зрения логистики, не каждый тип записывающего инструмента необходим или идеален, и часто приходится находить компромисс между качеством, стоимостью и удобством использования. Также важно представить себе весь рабочий процесс и предполагаемые результаты; например, если создаются видеофайлы, может потребоваться некоторый объем обработки, чтобы подвергнуть аудиокомпонент обработке различными способами с помощью различных пакетов программного обеспечения.
Этика
[ редактировать ]Этические практики в языковой документации были в центре внимания многих недавних дискуссий и дебатов. [3] Лингвистическое общество Америки подготовило Заявление по этике и ведет блог для обсуждения этики , который в первую очередь посвящен этике в контексте языковой документации. Первый народный совет по культуре и проект «Языки, находящиеся под угрозой исчезновения» опубликовали Кодекс поведения лингвиста для работы с документацией. Моральность этических протоколов сама по себе была поставлена под сомнение Джорджем ван Дримом . [4] Большинство программ последипломного образования, которые включают в себя ту или иную форму языковой документации и описания, требуют, чтобы исследователи представляли предлагаемые ими протоколы во внутренний экспертный совет учреждения, который гарантирует, что исследования проводятся этично. Как минимум, участники должны быть проинформированы о процессе и предполагаемом использовании записей, а также дать записанное вслух или письменное разрешение на использование аудиовизуальных материалов для лингвистического исследования исследователем(ями). Многие участники захотят быть названными в качестве консультантов, но другие — нет — от этого будет зависеть, нужно ли обезличить данные или ограничить публичный доступ.
Форматы данных
[ редактировать ]Соблюдение стандартов форматов имеет решающее значение для совместимости между программными инструментами. Многие отдельные архивы или хранилища данных имеют свои собственные стандарты и требования к данным, хранящимся на их серверах. Знание этих требований должно определять стратегию сбора данных и используемые инструменты, а также должно быть частью плана управления данными, разработанного до начала исследования. Ниже приведены некоторые примеры рекомендаций из часто используемых репозиториев:
- Архива исчезающих языков (ELAR) Рекомендации
- архива Института Макса Планка Принятые форматы
- библиотеки Йельского университета Рекомендации по аудиовизуальным материалам
Большинство современных архивных стандартов видео используют MPEG-4 (H264) в качестве формата кодирования или хранения, который включает в себя аудиопоток AAC (обычно до 320 кбит/с). Качество аудиоархива – не ниже WAV 44,1 кГц, 16 бит.
Принципы записи
[ редактировать ]Поскольку документирование языков часто затруднено, поскольку многие языки, с которыми работают лингвисты, находятся под угрозой исчезновения (в ближайшем будущем на них могут перестать говорить), рекомендуется производить запись с максимально возможным качеством, учитывая ограничения записывающего устройства. Для видео это означает запись с разрешением HD (1080p или 720p) или выше, если это возможно, тогда как для аудио это означает запись минимально в несжатом формате PCM, 44 100 выборок в секунду, 16-битное разрешение. Однако, возможно, хорошие методы записи (изоляция, выбор и использование микрофона, использование штатива для минимизации размытия) важнее разрешения. Микрофон, который обеспечивает четкую запись выступления говорящего, рассказывающего сказку (высокое соотношение сигнал/шум) в формате MP3 (возможно, через телефон), лучше, чем чрезвычайно шумная запись в формате WAV, где слышно только проезжающие машины. Чтобы гарантировать получение хороших записей, лингвисты должны как можно больше практиковаться со своими записывающими устройствами и сравнивать результаты, чтобы увидеть, какие методы дают наилучшие результаты. [5] [2] [6] [7] [8]
Рабочие процессы
[ редактировать ]Для многих лингвистов конечным результатом записи является языковой анализ, часто исследование фонологических или синтаксических свойств языка с использованием различных программных инструментов. Для этого требуется транскрипция аудио, как правило, в сотрудничестве с носителями соответствующего языка. Для общей транскрипции медиафайлы можно воспроизводить на компьютере (или другом устройстве, поддерживающем воспроизведение) и приостанавливать транскрипцию в текстовом редакторе. Другие (кроссплатформенные) инструменты, помогающие в этом процессе, включают Audacity и Transcriber , а такая программа, как ELAN (описанная ниже), также может выполнять эту функцию.
Такие программы, как Toolbox или FLEx, часто предпочитают лингвисты, которые хотят иметь возможность интерлинеаризировать свои тексты, поскольку эти программы создают словарь форм и правил синтаксического анализа, чтобы ускорить анализ. К сожалению, медиафайлы обычно не связываются этими программами (в отличие от ELAN, в которой связанные файлы предпочтительнее), что затрудняет просмотр или прослушивание записей для проверки транскрипции. В настоящее время существует обходной путь для Toolbox, который позволяет тайм-кодам ссылаться на аудиофайл и включать воспроизведение (полного текста или предложения, на которое есть ссылка) из Toolbox — в этом рабочем процессе выравнивание текста по времени выполняется в Transcriber, а затем соответствующий тайм-коды и текст преобразуются в формат, который может читать Toolbox.
Аппаратное обеспечение
[ редактировать ]Видео+аудио рекордеры
[ редактировать ]Рекордеры, записывающие видео, обычно также записывают и звук. Однако аудио не всегда соответствует критериям минимальных потребностей и рекомендуемым передовым методам языковой документации (несжатый формат WAV, 44,1 кГц, 16 бит) и часто бесполезно для лингвистических целей, таких как фонетический анализ. Вместо этого многие видеоустройства записывают в сжатый аудиоформат, такой как AAC или MP3, который объединяется с видеопотоком в различных оболочках . Исключением из этого общего правила являются следующие устройства записи видео+аудио:
Серия Zoom , особенно Q8 , Q4n и Q2n , которые записывают видео и аудио в различных разрешениях/форматах, особенно в WAV (44,1/48/96 кГц, 16/24 бит).
При использовании видеомагнитофона, который не записывает звук в формате WAV (например, большинство зеркальных камер), рекомендуется записывать звук отдельно на другом рекордере, следуя некоторым приведенным ниже рекомендациям. Как и в случае с аудиорекордерами, описанными ниже, многие видеомагнитофоны также поддерживают различные типы микрофонных входов (обычно через разъем 1/8 дюйма или TRS) — это может обеспечить высококачественную резервную аудиозапись, синхронизированную с записанным видео. , что может быть полезно в некоторых случаях (например, для транскрипции).
Аудиозаписывающие устройства и микрофоны
[ редактировать ]Рекордеры, предназначенные только для звука, можно использовать в случаях, когда видео непрактично или нежелательно по другим причинам. В большинстве случаев выгодно сочетать использование устройства записи только звука с одним или несколькими внешними микрофонами, однако многие современные устройства записи звука имеют встроенные микрофоны, которые можно использовать, если важны стоимость или скорость установки. Цифровые (твердотельные) записывающие устройства являются предпочтительными для большинства сценариев языковой документации. Современные цифровые записывающие устройства обеспечивают очень высокий уровень качества при относительно низкой цене. входят некоторые из самых популярных полевых рекордеров В линейку Zoom , включая H1 , H2 , H4 , H5 и H6 . H1 . особенно подходит для ситуаций, в которых главными требованиями являются стоимость и удобство использования Другими популярными рекордерами для ситуаций, когда размер имеет решающее значение, являются Olympus серии LS и цифровые диктофоны Sony (хотя в последнем случае убедитесь, что устройство может записывать в формате WAV/Linear PCM).
В сценариях языковой документации можно эффективно использовать несколько типов микрофонов , в зависимости от ситуации (особенно, включая такие факторы, как количество, положение и мобильность говорящих) и бюджета. В общем, конденсаторные микрофоны следует выбирать , а не динамические микрофоны . В большинстве случаев полевых работ преимуществом является наличие автономного питания конденсаторного микрофона (через батарею); однако, когда мощность не является основным фактором, можно также использовать модели с фантомным питанием. Настройка стереомикрофона необходима всякий раз, когда в записи участвует более одного динамика; этого можно добиться с помощью массива из двух монофонических микрофонов или специального стереомикрофона.
В большинстве случаев следует использовать направленные микрофоны, чтобы изолировать голос говорящего от других потенциальных источников шума. Однако всенаправленные микрофоны могут быть предпочтительнее в ситуациях, когда большое количество динамиков расположены в относительно большом пространстве. Среди направленных микрофонов кардиоидные для большинства применений подходят микрофоны, однако в некоторых случаях предпочтение может отдаваться гиперкардиоидному («пушке»).
Микрофоны для гарнитуры хорошего качества сравнительно дороги, но могут производить записи чрезвычайно высокого качества в контролируемых ситуациях. [9] В некоторых ситуациях можно использовать петличные или «нагрудные» микрофоны, однако, в зависимости от микрофона, они могут производить записи, которые уступают микрофону гарнитуры с точки зрения фонетического анализа, и подвергаются некоторым из тех же проблем, что и микрофоны гарнитуры с точки зрения фонетического анализа. ограничение записи одним говорящим: хотя в записи могут быть слышны другие говорящие, они будут фоном по отношению к говорящему, носящему петличный микрофон. [10]
Некоторые микрофоны хорошего качества, используемые для съемок фильмов и интервью, включают дробовик Røde VideoMic и серию петличных микрофонов Røde , микрофоны Shure, носимые на голове, и петличные микрофоны Shure . В зависимости от записывающего устройства и микрофона дополнительные кабели (XLR, стерео/моно-конвертер или адаптер TRRS-TRS потребуются ).
Другие инструменты записи
[ редактировать ]Производство, хранение и управление электроэнергией
[ редактировать ]Компьютерные системы
[ редактировать ]Аксессуары
[ редактировать ]Программное обеспечение
[ редактировать ]Пока еще не существует единого пакета программного обеспечения, который был бы разработан или способен обрабатывать все аспекты типичного рабочего процесса языковой документации. Вместо этого существует большое и постоянно растущее количество пакетов, предназначенных для обработки различных аспектов рабочего процесса, многие из которых значительно перекрываются. Некоторые из этих пакетов используют стандартные форматы и совместимы друг с другом, тогда как другие в гораздо меньшей степени.
СкажиЕще
[ редактировать ]SayMore — это пакет языковой документации, разработанный компанией SIL International в Далласе , который в первую очередь фокусируется на начальных этапах языковой документации и нацелен на относительно несложное взаимодействие с пользователем.
Основными функциями SayMore являются: (а) запись звука (б) импорт файлов с записывающего устройства (видео и/или аудио) (в) организация файлов (г) ввод метаданных на уровне сеанса и файла (д) объединение AV-файлов с доказательства информированного согласия и другие дополнительные объекты (например, фотографии) (f) сегментация AV-файла (g) транскрипция/перевод (h) Тщательная речевая аннотация в стиле BOLD и устный перевод.
Файлы SayMore можно в дальнейшем экспортировать для аннотаций в FLEx , а метаданные можно экспортировать в форматы .csv и IMDI для архивирования.
ОБЪЯВЛЕНИЕ
[ редактировать ]ELAN разработан Языковым архивом Института психолингвистики Макса Планка в Неймегене . ELAN — это полнофункциональный инструмент транскрипции, особенно полезный для исследователей со сложными потребностями/целями аннотаций.
ФЛЕкс
[ редактировать ]FieldWorks Language Explorer, FLEx разработан компанией SIL International, ранее бывшей Летним институтом лингвистики, Inc. в SIL International в Далласе . FLEx позволяет пользователю создавать «лексикон» языка, т.е. список слов с определениями и грамматической информацией, а также хранить тексты с языка. В текстах каждое слово или часть слова (т.е. «морфема») связана со статьей в лексиконе. Для новых проектов и для студентов, впервые обучающихся, FLEx теперь является лучшим инструментом для интерлинеаризации и создания словарей.
Ящик для инструментов
[ редактировать ]Field Linguist's Toolbox (обычно называемый Toolbox) является предшественником FLEx и на протяжении нескольких десятилетий был одним из наиболее широко используемых пакетов языковой документации. Ранее известный как Shoebox , основными функциями Toolbox являются построение лексической базы данных и интерлинеаризация текстов посредством взаимодействия с лексической базой данных. Как лексическую базу данных, так и тексты можно экспортировать в среду обработки текста, в случае лексической базы данных используйте инструмент преобразования Multi-Dictionary Formatter ( MDF ). Также можно использовать Toolbox в качестве среды транскрипции. [11] По сравнению с ELAN и FLEx, Toolbox имеет относительно ограниченную функциональность и, по мнению некоторых, имеет неинтуитивный дизайн и интерфейс. Однако за время существования среды Shoebox/Toolbox было реализовано большое количество проектов, и ее пользовательская база продолжает пользоваться преимуществами знакомства, скорости и поддержки сообщества. Toolbox также имеет то преимущество, что работает напрямую с удобочитаемыми текстовыми файлами, которые можно открыть в любом текстовом редакторе, легко манипулировать и архивировать. Файлы Toolbox также можно легко преобразовать для хранения в XML (рекомендуется для архивов), например, с помощью библиотек Python с открытым исходным кодом, таких как Xigt, предназначенных для вычислительного использования данных IGT.
Инструменты для автоматизации компонентов рабочего процесса
[ редактировать ]Языковая документация может быть частично автоматизирована благодаря ряду программных инструментов, в том числе:
- eSpeak
- ХТК
- Lingua Libre , бесплатный онлайн-инструмент, позволяющий записывать большое количество слов и фраз за короткий период (до 1 000 слов/час при чистом списке слов и опытном пользователе). Он автоматизирует классическую процедуру записи аудио- и видеофайлов произношения (для разговорного и жестового языков). После завершения записи платформа автоматически загружает чистые, хорошо вырезанные, хорошо названные и удобные для приложений файлы непосредственно на Wikimedia Commons (можно загрузить наборы данных для определенного языка).
- Маус
- Prosodylab Элайнер
- Сокс
Литература
[ редактировать ]Рецензируемый журнал Language Documentation and Conservation опубликовал большое количество статей, посвященных инструментам и методам языковой документации.
Фильм
[ редактировать ]Индийский документальный фильм 2021 года « Мечтания о словах» прослеживает жизнь и деятельность Няттиэлы Сридхарана , бросившей учебу четвертой стандартной школы, которая составляет многоязычный словарь, объединяющий четыре основных дравидийских языка: малаялам , каннада , тамильский и телугу . [12] [13] [14] Путешествуя по четырем штатам и проводя обширные исследования, он провел двадцать пять лет. [15] создание этого многоязычного словаря.
См. также
[ редактировать ]Карта LRE Карта языковых ресурсов Доступен поиск по типу ресурса, языку(ам), типу языка, модальности, использованию ресурсов, доступности, статусу производства, конференциям, названию ресурса.
Каталог Ричарда Литтауэра на GitHub Каталог «кода с открытым исходным кодом, который будет полезен для документирования, сохранения, разработки, сохранения или работы с языками, находящимися под угрозой исчезновения».
Страница программного обеспечения РНЛД Страница Исследовательской сети языкового разнообразия, посвященная лингвистическому программному обеспечению.
Ссылки
[ редактировать ]- ^ «Саммит LD Tools» . сайты.google.com . Проверено 2 июня 2016 г.
- ^ Jump up to: а б Бауэрн, Клэр (2008). Лингвистические полевые исследования – Springer . дои : 10.1057/9780230590168 . ISBN 978-0-230-54538-0 .
- ^ Остин, Питер К. 2010. «Сообщества, этика и права в языковой документации». В Питере К. Остине, редакторе, Языковая документация и описание, том 7 . Лондон, СОАС: 34–54.
- ^ ван Дрим, Джордж (2016). «Исследование языков, находящихся под угрозой исчезновения, и моральная порочность этических протоколов». Языковая документация и сохранение 10: 243-252 . hdl : 10125/24693 .
- ^ Ладефогед, Питер (2003). Фонетический анализ данных: введение в полевые исследования и инструментальные методы . Молден, Массачусетс: Паб Blackwell. ISBN 978-0631232698 . OCLC 51818554 .
- ^ Челлия, Шобхана Л.; де Реуз, Виллем Дж. (2011). Справочник по описательной лингвистической полевой работе . дои : 10.1007/978-90-481-9026-3 . ISBN 978-90-481-9025-6 . S2CID 60322394 .
- ^ Микинс, Фелисити; Грин, Дженнифер; Терпин, Мифани (2018). Понимание лингвистической полевой работы . Лондон. ISBN 9781351330114 . OCLC 1029352513 .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - ^ Тибергер, Николас, изд. (24 ноября 2011 г.). Оксфордский справочник по лингвистической полевой работе . Издательство Оксфордского университета. doi : 10.1093/oxfordhb/9780199571888.001.0001 . ISBN 9780191744112 .
- ^ Швец, Ян Г.; Гранквист, Сванте (1 ноября 2010 г.). «Руководство по выбору микрофонов для исследования человеческого голоса» . Американский журнал патологии речи и языка . 19 (4): 356–368. дои : 10.1044/1058-0360(2010/09-0091) . ISSN 1058-0360 . ПМИД 20601621 .
- ^ Бриксен, Эдди (1 мая 1996 г.). «Спектральная деградация речи, улавливаемая миниатюрными микрофонами, установленными на головах и груди людей» . Съезд 100 Общества аудиоинженеров .
- ^ Маргеттс, Эндрю (2009). «Использование Toolbox с медиафайлами». Языковая документация и сохранение . 3 (1): 51–86. hdl : 10125/4426 .
- ^ «Словарь 82-летнего мужчины из Кералы написан на четырех дравидийских языках. На его составление ушло 25 долгих лет» .
- ^ «83-летний выпускник школы Кералы создал уникальный словарь на 4 южноиндийских языках» . 31 декабря 2020 г.
- ^ Саджит, К.п. (30 октября 2020 г.). «Для кералитов открывается дверь в три других дравидийских языка» . Индус .
- ^ «Человек, написавший словарь на четырех языках - Silver Talkies» . silvertalkies.com .