Вы находитесь на стартовой странице сайта, на котором размещён электронный адыгейский корпус. Веб-интерфейс корпуса обеспечивает поиск по собранию адыгейских текстов с учётом грамматической разметки. Доступ к полным текстам не предоставляется. Корпус даёт возможность поиска по последовательностям букв, морфемам и их сочетаниям, грамматическим признакам словоформ, переводам, позволяет учитывать расположение орфографического слова в предложении. Допускается ограничение по жанрам текстов. Грамматический анализ словоформ выполнен автоматически и не выверен вручную; создатели корпуса не несут ответственности за правильность всех разборов. В таблице кратко представлены основные характеристики корпуса. Более подробно о составе корпуса и используемых грамматических обозначениях можно прочитать ниже.
Параметр | Значение |
---|---|
Объём | 10,68 миллионов словоупотреблений |
Тексты |
|
Разметка |
|
Метаданные |
|
Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже мы приводим несколько частых вопросов о представленном здесь адыгейском корпусе.
— Кому нужны корпуса?
В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в именительном падеже» или «найти все формы слова цӏыф перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.
— Можно ли использовать корпус как библиотеку?
Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.
— Можно ли использовать корпус как словарь?
У каждого адыгейского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет адыгейским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём.
— Что такое морфологическая разметка и как она сделана?
В представленном здесь корпусе имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку этот корпус слишком большой, чтобы размечать его вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание адыгейского словоизменения. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия — ситуация, когда одно слово можно разобрать несколькими способами, и программа не знает, какой из вариантов является правильным в данном контексте.
Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусене считая омонимии, которая не устраняется вручную, пожалуйста, напишите об этом Юрию Ландеру.
yulander@yandex.ru