Адыгейский корпус


Вы находитесь на стартовой странице адыгейского корпуса.

Подробнее К корпусу

Адыгейский корпус

Включить/выключить меню

Вы находитесь на стартовой странице сайта, на котором размещён электронный адыгейский корпус. Веб-интерфейс корпуса обеспечивает поиск по собранию адыгейских текстов с учётом грамматической разметки. Доступ к полным текстам не предоставляется. Корпус даёт возможность поиска по последовательностям букв, морфемам и их сочетаниям, грамматическим признакам словоформ, переводам, позволяет учитывать расположение орфографического слова в предложении. Допускается ограничение по жанрам текстов. Грамматический анализ словоформ выполнен автоматически и не выверен вручную; создатели корпуса не несут ответственности за правильность всех разборов. В таблице кратко представлены основные характеристики корпуса. Более подробно о составе корпуса и используемых грамматических обозначениях можно прочитать ниже.

Параметр Значение
Объём 7,76 миллионов словоупотреблений
Тексты современная пресса — 86,1%, художественная литература XX века — 6,6%; Коран и Библия — 6,8%; другие тексты — 0,5%
Разметка
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 83% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • глоссирование
  • переводы лемм на русский язык
  • параллельный перевод Библии на русский язык
Метаданные
  • название текста
  • автор или название издания
  • год создания (точная дата в случае газет)
  • жанр

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже мы приводим несколько частых вопросов о представленном здесь адыгейском корпусе.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в именительном падеже» или «найти все формы слова цӏыф перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого адыгейского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет адыгейским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём.

— Что такое морфологическая разметка и как она сделана?

В представленном здесь корпусе имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку этот корпус слишком большой, чтобы размечать его вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание адыгейского словоизменения. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия — ситуация, когда одно слово можно разобрать несколькими способами, и программа не знает, какой из вариантов является правильным в данном контексте.

Состав корпуса

В корпус входят следующие тексты:

Автор Название
Газета «Адыгэ Макъ» Статьи (2009–2017 гг.)
Газета «Аргументы и факты» Статьи (2011–2017 гг.)
Агентство «НатПресс» Статьи (2007–2011 гг.)
Википедия на адыгейском языке Статьи
Коран (Къурӏан)
Библия
Мэшбащӏэ Исхьэкъ Адыгэхэр
Мэшбащӏэ Исхьэкъ Айщэт
Мэшбащӏэ Исхьэкъ Джасус
Мэшбащӏэ Исхьэкъ Къокӏыпӏэмрэ Къухьэпӏэмрэ
Мэшбащӏэ Исхьэкъ Мэшбащӏэ Исхьэкъ и усэхэр
Мэшбащӏэ Исхьэкъ Чӏыгу-огу зэнэсым сыда щыӏэр?
Куекъо Налбый Абадзахэмэ ян

Грамматика

Грамматическая информация при каждом слове указывается двояким образом. Во-первых, это делается с помощью глоссирования. Словоформа разбивается на морфемы, и под каждой морфемой подписывается глосса   краткое условное обозначение. Во-вторых, слову приписывается набор специальных помет — грамматических тэгов. Информация в глоссах и тэгах частично дублируется, но не полностью совпадает. Например, префиксы, выражающие одновременно лицо и число субъекта, получают одну глоссу (например, 1SG.ABS), в то время как содержащему такой префикс слову приписывается два грамматических тэга, один для лица (1.abs) и один для числа (1.sg). Кроме того, тэгами можно задать информацию, не выраженную явно никаким аффиксом, например, часть речи. С другой стороны, при поиске по глоссам у пользователя есть возможность учитывать их взаимный порядок или найти слова, содержащие один и тот же аффикс несколько раз. Для удобства пользователей мы предоставляем возможность поиска и по глоссам, и по грамматическим тэгам (а также по их комбинациям). Ниже приводятся полные списки используемых в адыгейском корпусе глосс и тэгов в алфавитном порядке с расшифровкой.

Список глосс

  • 1PL.ABS – абсолютивный префикс 1 л. мн. ч.
  • 1PL.ERG – эргативный префикс 1 л. мн. ч.
  • 1PL.IO – косвеннообъектный префикс 1 л. мн. ч.
  • 1PL.P – посессивный префикс 1 л. мн. ч.
  • 1SG.ABS – абсолютивный префикс 1 л. ед. ч.
  • 1SG.ERG – эргативный префикс 1 л. ед. ч.
  • 1SG.IO – косвеннообъектный префикс 1 л. ед. ч.
  • 1SG.P – посессивный префикс 1 л. ед. ч.
  • 2PL.ABS – абсолютивный префикс 2 л. мн. ч.
  • 2PL.ERG – эргативный префикс 2 л. мн. ч.
  • 2PL.IO – косвеннообъектный префикс 2 л. мн. ч.
  • 2PL.P – посессивный префикс 2 л. мн. ч.
  • 2SG.ABS – абсолютивный префикс 2 л. ед. ч.
  • 2SG.ERG – эргативный префикс 2 л. ед. ч.
  • 2SG.IO – косвеннообъектный префикс 2 л. ед. ч.
  • 2SG.P – посессивный префикс 2 л. ед. ч.
  • 3PL.ABS – абсолютивный префикс 3 л. мн. ч.
  • 3PL.ERG – эргативный префикс 3 л. мн. ч.
  • 3PL.IO – косвеннообъектный префикс 3 л. мн. ч.
  • 3PL.P – посессивный префикс 3 л. мн. ч.
  • 3SG.ERG – эргативный префикс 3 л. ед. ч.
  • 3SG.P – посессивный префикс 3 л. ед. ч.
  • ABS – абсолютив (именительный падежа)
  • ADD – аддитив (-и/-ри)
  • ADJ – атрибутив (-рэ)
  • ADV – адвербиалис
  • APL – ассоциативное множественное число (-тхэ)
  • AUG – аугментатив ‘большой’ (-шхо)
  • AUX – инкорпорированный вспомогательный глагол (-щты- в сочетаниях щты-гъэ, щты-н и т.д.)
  • BA – эмфатическая клитика -ба
  • BEN – бенефактивный аппликатив (фэ-)
  • CAUS – каузатив
  • COM – комитативный аппликатив / совместность (дэ-)
  • COND – кондиционал / условное наклонение (-мэ)
  • CONT – инкорпорированный глагольный корень -лӏэ-
  • COORD – сочинительная клитика -рэ
  • CS – консекутив ‘так что’ (-ти)
  • CS2 – консекутив ‘так что’ (-шъ)
  • DAT – префикс дативной (косвеннообъектной) деривации
  • DIR – префикс директива (къэ-)
  • DYN – динамический префикс или суффикс
  • EL – инкорпорированный глагольный корень -кӏы-
  • FUT – будущее время
  • GENLOC – общий локативный аппликатив (щы-)
  • ILL – инкорпорированный глагольный корень -хьэ-
  • INADV – инадвертивный аппликатив / ненамеренность (ӏэкӏэ-)
  • INS – инструменталис (творительный падеж)
  • LNK – соединительная морфема при присоединении числительных
  • LOC – один из нескольких специальных локативных аппликативов (кроме щы-)
  • MAL – малефактивный аппликатив (шӏо-)
  • MOD – модальный суффикс / масдар ()
  • MULT – мультипликативный суффикс числительных
  • NEG – отрицательный префикс или суффикс
  • NMLZ.ABSTR – абстрактная номинализация (-гъэ)
  • NMLZ.LOC – номинализация со значением места (-пӏэ)
  • NMLZ.MNR – номинализация со значением способа действия (-кӏэ)
  • NMLZ.TIME – номинализация со значением времени (-гъо)
  • OBL – косвенный падеж (эргатив)
  • OBL.PL – суффикс косвенного падежа (эргатива) множественного числа (-мэ)
  • OPT – оптатив (желательное наклонение)
  • ORD – порядковое числительное
  • PL – суффикс множественного числа
  • POSS – посессивный префикс при отторжимой принадлежности
  • POT – потенциалис (-шъу)
  • PRED – предикативная форма местоимений (-ры)
  • PST – прошедшее время
  • Q – вопросительная частица ()
  • RE – суффикс реверсива/рефактива ‘назад, снова’ (-жьы)
  • REC.ERG – реципрокальный (взаимно-возвратный) префикс эргатива
  • REC.IO – реципрокальный (взаимно-возвратный) косвеннообъектный префикс
  • REC.P – реципрокальный (взаимно-возвратный) посессивный префикс
  • REL.ERG – относительный префикс эргатива
  • REL.IO – относительный косвеннообъектный префикс
  • REL.P – относительный посессивный префикс
  • REL.SUB – относительный префикс факта / образа действия (зэрэ-)
  • REL.TMP – относительный префикс времени
  • RFL.ABS – рефлексивный (возвратный) абсолютивный префикс
  • RFL.IO – рефлексивный (возвратный) косвеннообъектный префикс
  • SIM – суффикс одновременности (-зэ)
  • TRANS – транслативный ‘через’ / инструментальный аппликатив (ры-)

Список грамматических тэгов

  • A — прилагательное
  • APRO — местоимение-прилагательное
  • ADV — наречие
  • CONJ — союз
  • N — существительное
  • NtoV – глагольная морфология на существительном или прилагательном
  • NPRO — местоимение-существительное
  • NUM — числительное
  • POST — послелог
  • PRO — другое местоимение
  • V — глагол
  • 1.abs – 1-е лицо абсолютивного аргумента
  • 1.erg – 1-е лицо эргативного аргумента
  • 1.io – 1-е лицо косвенного объекта
  • 2.abs – 2-е лицо абсолютивного аргумента
  • 2.erg – 2-е лицо эргативного аргумента
  • 2.io – 2-е лицо косвенного объекта
  • 3.erg – 3-е лицо эргативного аргумента
  • 3.io – 3-е лицо косвенного объекта
  • abs – абсолютив (именительный падеж)
  • add – аддитивная клитика
  • adj – атрибутивизатор
  • adv – адвербиалис
  • alt_stem – чередование (а/э) в корне или префиксе
  • alt_stem1 – чередование (а/э) в первом слоге от конца корня
  • alt_stem2 – чередование (а/э) во втором слоге от конца корня
  • apl – ассоциативное множественное число
  • aug – аугментатив ‘большой’
  • aux – инкорпорированный вспомогательный глагол (-щты- в сочетаниях щты-гъэ, щты-н и т.д.)
  • ba – эмфатическая клитика
  • ben – бенефактивный аппликатив
  • caus – каузатив
  • com – комитативный аппликатив / совместность
  • cond – кондиционал / условное наклонение
  • cont – инкорпорированный глагольный корень -лӏэ-
  • coord – сочинительная клитика
  • cs – консекутив ‘так что’ (-ти)
  • cs2 – консекутив ‘так что’ (-шъ)
  • dat – дативная (косвеннообъектная) деривация
  • dat_v – глагол, требующий дативной деривации
  • dir – директив
  • dyn – динамичность
  • el – инкорпорированный глагольный корень -кӏы-
  • fut – будущее время
  • genloc – общий локативный аппликатив (щы-)
  • ill – инкорпорированный глагольный корень -хьэ-
  • inadv – инадвертивный аппликатив / ненамеренность
  • incorp – инкорпорированное односложное существительное или прилагательное
  • ins – инструменталис
  • intr – непереходный глагол
  • loc – один из специальных локативных аппликативов
  • mal – малефактивный аппликатив
  • mod – модальный суффикс / масдар
  • mult – мультипликатив (у числительных)
  • neg – отрицательная форма
  • neg_ep – суффиксальное отрицание (-эп)
  • nmlz – номинализация
  • obl – косвенный падеж (эргатив)
  • opt – оптатив
  • ord – порядковое числительное
  • p.1pl – 1 л. мн. ч. обладателя
  • p.1sg – 1 л. ед. ч. обладателя
  • p.2pl – 2 л. мн. ч. обладателя
  • p.2sg – 2 л. ед. ч. обладателя
  • p.3pl – 3 л. мн. ч. обладателя
  • p.3sg – 3 л. ед. ч. обладателя
  • p.rec – реципрокальные (взаимно-возвратные) обладатели
  • p.rel – относительный обладатель
  • pl – множественное число
  • pl.abs – множественное число абсолютивного аргумента
  • pl.erg – множественное число эргативного аргумента
  • pl.io – множественное число косвенного объекта
  • poss – отторжимая посессивность
  • pot – потенциалис
  • pred – предикатив
  • pst – прошедщее время
  • pst2 – давнопрошедшее время
  • q – вопросительная частица
  • re – реверсив/рефактив ‘назад, снова’
  • rec.erg – реципрокальные (взаимно-возвратные) эргативные аргументы
  • rec.io – реципрокальные (взаимно-возвратные) косвенные объекты
  • rel.erg – относительный эргативный аргумент
  • rel.io – относительный косвенный объект
  • rel.sub – относительный префикс факта / образа действия (зэрэ-)
  • rel.tmp – относительный префикс времени
  • rfl.abs – рефлексивный (возвратный) абсолютивный аргумент
  • rfl.io – рефлексивный (возвратный) косвенный объект
  • sg – единственное число
  • sg.abs – единственное число абсолютивного аргумента
  • sg.erg – единственное число эргативного аргумента
  • sg.io – единственное число косвенного объекта
  • sim – одновременность
  • tr – переходный глагол
  • trans – транслативный ‘через’ / инструментальный аппликатив

Контакты


Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусене считая омонимии, которая не устраняется вручную, пожалуйста, напишите об этом Юрию Ландеру.

yulander@yandex.ru