[ на главную ]

О проекте

Начало работ по созданию Письменного корпуса татарского языка относится к 2010 году. Авторами рассматривались два направления исследований:

При знакомстве с литературой выяснилось, что современные системы МП и автоматического распознавания речи работают при поддержке национального корпуса языка – с применением метода «гипотеза – проверка». Данное обстоятельство заставило нас вплотную заняться построением национального корпуса татарского языка.

Письменный корпус татарского языка создавался, в основном, на базе материалов web-ресурсов. По адресам (сайтам) приведенных примеров (употребление каждой словоформы демонстрируется на предложениях) можно получить более полную информацию об использованных в корпусе сайтах.

До внесения в корпус татарского языка тексты подвергались предварительной обработке, которая включала очистку html-тегов, удаление предложений на иностранных языках, конвертация в utf-8, автоматическую разметку границ предложений и т.д.

В настоящее время сбор материала, обработка его для включения в корпус татарского языка продолжается. Есть примеры, когда отдельные писатели и научные работники, узнав о существовании корпуса, предоставляют нам электронные версии своих книг. По достижении объема в 5 – 6 млн. словоформ эти материалы включаются в текстовый корпус. Одновременно будут обогащаться и функциональные возможности корпуса.

Отметим, что Письменный корпус татарского языка – это огромный словарь – справочник, дающий упорядоченное представление о мире татарского языка.

Пользование корпусом татарского языка бесплатное.

Корпус должен содержать не менее 100 млн. словоформ для адекватного представления языка и права называться национальным корпусом татарского языка. Мы достигли этого объема в 2014 году.

В создании Письменного корпуса татарского языка приняли участие: