Адыгейский корпус


Вы находитесь на стартовой странице адыгейского корпуса.

Подробнее К корпусу

Адыгейский корпус

Включить/выключить меню

Вы находитесь на стартовой странице сайта, на котором размещён электронный адыгейский корпус. Веб-интерфейс корпуса обеспечивает поиск по собранию адыгейских текстов с учётом грамматической разметки. Доступ к полным текстам не предоставляется. Корпус даёт возможность поиска по последовательностям букв, морфемам и их сочетаниям, грамматическим признакам словоформ, переводам, позволяет учитывать расположение орфографического слова в предложении. Допускается ограничение по жанрам текстов. Грамматический анализ словоформ выполнен автоматически и не выверен вручную; создатели корпуса не несут ответственности за правильность всех разборов. В таблице кратко представлены основные характеристики корпуса. Более подробно о составе корпуса и используемых грамматических обозначениях можно прочитать ниже.

Параметр Значение
Объём 10,68 миллионов словоупотреблений
Тексты
  • современная пресса — 65%
  • художественная литература — 20,6%
  • фольклор — 6%
  • религиозные тексты — 3,9%
  • другие тексты — 4,5%
Разметка
  • автоматическая морфологическая разметка (лемма, часть речи, грамматические признаки), 83,5% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снята
  • глоссирование
  • переводы лемм на русский язык
  • некоторые тексты Коран, Библия, произведения А. М. Шаззо, А. К. Матыжевой, а также тексты с сайта gshra.ru; тексты с переводом составляют 4,6% объёма всего корпуса сопровождаются переводом на русский язык
Метаданные
  • название текста
  • автор или название издания
  • год создания
  • дата выпуска (в случае газет)
  • место рождения автора
  • год рождения автора
  • диалект автора
  • жанр

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже мы приводим несколько частых вопросов о представленном здесь адыгейском корпусе.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в именительном падеже» или «найти все формы слова цӏыф перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого адыгейского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет адыгейским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём.

— Что такое морфологическая разметка и как она сделана?

В представленном здесь корпусе имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку этот корпус слишком большой, чтобы размечать его вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание адыгейского словоизменения. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия — ситуация, когда одно слово можно разобрать несколькими способами, и программа не знает, какой из вариантов является правильным в данном контексте.

Грамматика

Грамматическая информация при каждом слове указывается двояким образом. Во-первых, это делается с помощью глоссирования. Словоформа разбивается на морфемы, и под каждой морфемой подписывается глосса   краткое условное обозначение. Во-вторых, слову приписывается набор специальных помет — грамматических тэгов. Информация в глоссах и тэгах частично дублируется, но не полностью совпадает. Например, префиксы, выражающие одновременно лицо и число субъекта, получают одну глоссу (например, 1SG.ABS), в то время как содержащему такой префикс слову приписывается два грамматических тэга, один для лица (1.abs) и один для числа (1.sg). Кроме того, тэгами можно задать информацию, не выраженную явно никаким аффиксом, например, часть речи. С другой стороны, при поиске по глоссам у пользователя есть возможность учитывать их взаимный порядок или найти слова, содержащие один и тот же аффикс несколько раз. Для удобства пользователей мы предоставляем возможность поиска и по глоссам, и по грамматическим тэгам (а также по их комбинациям). Ниже приводятся полные списки используемых в адыгейском корпусе глосс и тэгов в алфавитном порядке с расшифровкой. См. также более подробное описание в этой статье.

Список глосс

  • 1PL.ABS – абсолютивный префикс 1 л. мн. ч.
  • 1PL.ERG – эргативный префикс 1 л. мн. ч.
  • 1PL.IO – косвеннообъектный префикс 1 л. мн. ч.
  • 1PL.P – посессивный префикс 1 л. мн. ч.
  • 1SG.ABS – абсолютивный префикс 1 л. ед. ч.
  • 1SG.ERG – эргативный префикс 1 л. ед. ч.
  • 1SG.IO – косвеннообъектный префикс 1 л. ед. ч.
  • 1SG.P – посессивный префикс 1 л. ед. ч.
  • 2PL.ABS – абсолютивный префикс 2 л. мн. ч.
  • 2PL.ERG – эргативный префикс 2 л. мн. ч.
  • 2PL.IO – косвеннообъектный префикс 2 л. мн. ч.
  • 2PL.P – посессивный префикс 2 л. мн. ч.
  • 2SG.ABS – абсолютивный префикс 2 л. ед. ч.
  • 2SG.ERG – эргативный префикс 2 л. ед. ч.
  • 2SG.IO – косвеннообъектный префикс 2 л. ед. ч.
  • 2SG.P – посессивный префикс 2 л. ед. ч.
  • 3PL.ABS – абсолютивный префикс 3 л. мн. ч.
  • 3PL.ERG – эргативный префикс 3 л. мн. ч.
  • 3PL.IO – косвеннообъектный префикс 3 л. мн. ч.
  • 3PL.P – посессивный префикс 3 л. мн. ч.
  • 3SG.ERG – эргативный префикс 3 л. ед. ч.
  • 3SG.P – посессивный префикс 3 л. ед. ч.
  • ABS – абсолютив (именительный падежа)
  • ADD – аддитив (-и/-ри)
  • ADJ – атрибутив (-рэ)
  • ADV – адвербиалис
  • APL – ассоциативное множественное число (-тхэ)
  • AUG – аугментатив ‘большой’ (-шхо)
  • AUX – инкорпорированный вспомогательный глагол (-щты- в сочетаниях щты-гъэ, щты-н и т.д.)
  • BA – эмфатическая клитика -ба
  • BEN – бенефактивный аппликатив (фэ-)
  • CAUS – каузатив
  • COM – комитативный аппликатив / совместность (дэ-)
  • COND – кондиционал / условное наклонение (-мэ)
  • CONT – инкорпорированный глагольный корень -лӏэ-
  • COORD – сочинительная клитика -рэ
  • CS – консекутив ‘так что’ (-ти)
  • CS2 – консекутив ‘так что’ (-шъ)
  • DAT – префикс дативной (косвеннообъектной) деривации
  • DIR – префикс директива (къэ-)
  • DYN – динамический префикс или суффикс
  • EL – инкорпорированный глагольный корень -кӏы-
  • FUT – будущее время
  • GENLOC – общий локативный аппликатив (щы-)
  • ILL – инкорпорированный глагольный корень -хьэ-
  • INADV – инадвертивный аппликатив / ненамеренность (ӏэкӏэ-)
  • INS – инструменталис (творительный падеж)
  • LNK – соединительная морфема при присоединении числительных
  • LOC – один из нескольких специальных локативных аппликативов (кроме щы-)
  • MAL – малефактивный аппликатив (шӏо-)
  • MOD – модальный суффикс / масдар ()
  • MULT – мультипликативный суффикс числительных
  • NEG – отрицательный префикс или суффикс
  • NMLZ.ABSTR – абстрактная номинализация (-гъэ)
  • NMLZ.LOC – номинализация со значением места (-пӏэ)
  • NMLZ.MNR – номинализация со значением способа действия (-кӏэ)
  • NMLZ.TIME – номинализация со значением времени (-гъо)
  • OBL – косвенный падеж (эргатив)
  • OBL.PL – суффикс косвенного падежа (эргатива) множественного числа (-мэ)
  • OPT – оптатив (желательное наклонение)
  • ORD – порядковое числительное
  • PL – суффикс множественного числа
  • POSS – посессивный префикс при отторжимой принадлежности
  • POT – потенциалис (-шъу)
  • PRED – предикативная форма местоимений (-ры)
  • PST – прошедшее время
  • Q – вопросительная частица ()
  • RE – суффикс реверсива/рефактива ‘назад, снова’ (-жьы)
  • REC.ERG – реципрокальный (взаимно-возвратный) префикс эргатива
  • REC.IO – реципрокальный (взаимно-возвратный) косвеннообъектный префикс
  • REC.P – реципрокальный (взаимно-возвратный) посессивный префикс
  • REL.ERG – относительный префикс эргатива
  • REL.IO – относительный косвеннообъектный префикс
  • REL.P – относительный посессивный префикс
  • REL.SUB – относительный префикс факта / образа действия (зэрэ-)
  • REL.TMP – относительный префикс времени
  • RFL.ABS – рефлексивный (возвратный) абсолютивный префикс
  • RFL.IO – рефлексивный (возвратный) косвеннообъектный префикс
  • SIM – суффикс одновременности (-зэ)
  • TRANS – транслативный ‘через’ / инструментальный аппликатив (ры-)

Список грамматических тэгов

  • A — прилагательное
  • APRO — местоимение-прилагательное
  • ADV — наречие
  • CONJ — союз
  • N — существительное
  • NtoV – собственно глагольная морфология на основе существительного или прилагательного
  • NPRO — местоимение-существительное
  • NUM — числительное
  • POST — послелог
  • PRO — другое местоимение
  • V — глагол
  • 1.abs – 1-е лицо абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения)
  • 1.erg – 1-е лицо эргативного аргумента (= переходного подлежащего)
  • 1.io – 1-е лицо косвенного объекта
  • 2.abs – 2-е лицо абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения)
  • 2.erg – 2-е лицо эргативного аргумента (= переходного подлежащего)
  • 2.io – 2-е лицо косвенного объекта
  • 3.erg – 3-е лицо эргативного аргумента (= переходного подлежащего)
  • 3.io – 3-е лицо косвенного объекта
  • abs – абсолютив (именительный падеж; )
  • add – аддитивная клитика (усилительная/соединительная частица )
  • adj – суффикс «относительных прилагательных» (-рэ)
  • adv – адвербиалис (-эу)
  • alt_stem – чередование (а/э) в корне или префиксе
  • alt_stem1 – чередование (а/э) в первом слоге от конца корня
  • alt_stem2 – чередование (а/э) во втором слоге от конца корня
  • apl – ассоциативное множественное число (-тхэ, -дыхэ)
  • aug – аугментатив ‘большой’ (-шхо)
  • aux – инкорпорированный вспомогательный глагол (-щты- в сочетаниях щты-гъэ, щты-н и т.д.)
  • ba – эмфатическая клитика (-ба)
  • ben – бенефактивный аппликатив (= бенефактивная объектная версия / префиксальный потенциалис фэ-)
  • caus – каузатив (гъэ-)
  • com – комитативный аппликатив / совместность (дэ-)
  • cond – кондиционал / условное наклонение (-мэ)
  • cont – инкорпорированный глагольный корень -лӏэ-
  • coord – сочинительная клитика (-рэ)
  • cs – консекутив ‘так что’ (-ти)
  • cs2 – консекутив ‘так что’ (-шъ)
  • dat – дативная (косвеннообъектная) деривация
  • dat_v – глагол, требующий дативной деривации
  • dir – директив / направительный преверб (къэ-)
  • dyn – динамичность
  • el – инкорпорированный глагольный корень -кӏы-
  • fut – будущее время (-щт)
  • genloc – общий локативный аппликатив (щы-)
  • ill – инкорпорированный глагольный корень -хьэ-
  • inadv – инадвертивный аппликатив / ненамеренность
  • incorp – инкорпорированное односложное существительное или прилагательное
  • ins – инструменталис
  • intr – непереходный глагол
  • loc – один из специальных локативных аппликативов
  • mal – малефактивный аппликатив
  • mod – модальный суффикс / масдар
  • mult – мультипликатив (у числительных)
  • neg – отрицательная форма
  • neg_ep – суффиксальное отрицание (-эп)
  • nmlz – номинализация
  • obl – косвенный падеж (эргатив)
  • opt – оптатив
  • ord – порядковое числительное
  • p.1pl – 1 л. мн. ч. обладателя
  • p.1sg – 1 л. ед. ч. обладателя
  • p.2pl – 2 л. мн. ч. обладателя
  • p.2sg – 2 л. ед. ч. обладателя
  • p.3pl – 3 л. мн. ч. обладателя
  • p.3sg – 3 л. ед. ч. обладателя
  • p.rec – реципрокальные (взаимно-возвратные) обладатели
  • p.rel – относительный обладатель
  • pl – множественное число
  • pl.abs – множественное число абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения)
  • pl.erg – множественное число эргативного аргумента (= переходного подлежащего)
  • pl.io – множественное число косвенного объекта
  • poss – отторжимая посессивность
  • pot – потенциалис
  • pred – предикатив
  • pst – прошедщее время
  • pst2 – давнопрошедшее время
  • q – вопросительная частица
  • re – реверсив/рефактив ‘назад, снова’
  • rec.erg – реципрокальные (взаимно-возвратные) эргативные аргументы
  • rec.io – реципрокальные (взаимно-возвратные) косвенные объекты
  • rel.erg – относительный эргативный аргумент
  • rel.io – относительный косвенный объект
  • rel.sub – относительный префикс факта / образа действия (зэрэ-)
  • rel.tmp – относительный префикс времени
  • rfl.abs – рефлексивный (возвратный) абсолютивный аргумент
  • rfl.io – рефлексивный (возвратный) косвенный объект
  • sg – единственное число
  • sg.abs – единственное число абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения)
  • sg.erg – единственное число эргативного аргумента (= переходного подлежащего)
  • sg.io – единственное число косвенного объекта
  • sim – одновременность
  • tr – переходный глагол
  • trans – транслативный ‘через’ / инструментальный аппликатив

Авторы

Составители корпуса:

  • Тимофей Александрович Архангельский (Университет Гамбурга / Фонд Александра фон Гумбольдта; CV)
  • Ирина Гаруновна Багирокова (ИЯз РАН, НИУ ВШЭ)
  • Юрий Александрович Ландер (НИУ ВШЭ)
  • Анна Дмитриевна Ландер (НИУ ВШЭ)

Первая версия корпуса была создана в рамках проекта «Электронная документация полисинтетического языка», поддержанного РФФИ (проект № 15-06-07434).

В технической работе над корпусом принимали участие также А. Дейнекина, В. Лаврентьев, Г. Мороз, И. Наумов, Е. Пасальская.

Контакты


Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусене считая омонимии, которая не устраняется вручную, пожалуйста, напишите об этом Юрию Ландеру.

yulander@yandex.ru