[ на главную ]

Описание корпуса

Письменный корпус татарского языка представляет собрание электронных текстов на татарском языке.

Вошедшие в письменный корпус тексты в большинстве своем относятся к трем стилям – публицистике (≈ 60%), художественной литературе (≈ 35%) и научной литературе гуманитарного профиля (≈ 5%).

Основное назначение электронного корпуса татарского языка – содействие проведению научных исследований по лексике татарского языка. Кроме того, письменный корпус может использоваться при обучении языку, а также в качестве справочника при составлении различного рода документов.

Программные ресурсы текстового корпуса татарского языка позволяют проводить следующие операции:

Указанные операции позволяют решать задачи, такие как:

Область применения электронного корпуса татарского языка значительно шире и более многообразна по сравнению с приведенным перечнем. Так, задачи вида «автоматическое распознавание речи» и «машинный перевод» сегодня решаются в рамках корпусной лингвистики.

В настоящее время данный письменный корпус татарского языка удовлетворяет требованиям репрезентативности и сбалансированности.

Мы будем признательны всем, кто сочтет возможным направить нам электронные версии своих книг, статей, документов. Эти материалы несомненно обогатят корпус.

Отметим, что тексты в корпусе татарского языка хранятся в виде отдельных предложений, т.е. использование текстов в качестве самостоятельной печатной продукции посторонними невозможно (авторские права не будут нарушены). Каждое внесенное в письменный корпус предложение из Вашего материала будет снабжено ссылкой на произведение и его автора.