Общая информация

На этом сайте помещен Письменный корпус современного татарского языка.
Корпус представляет современный письменный татарский язык в электронной форме.
Объем корпуса татарского языка в настоящее время составляет более 116 млн. слов, число различных словоформ – около 1,5 миллиона.
Электронный корпус предназначен интересующимся системой, состоянием и перспективой татарского языка.
Он необходим лингвистам, изучающим татарский язык в рамках корпусной лингвистики.

Данный проект не финансируется какими-либо научными фондами или организациями!
Все работы над Письменным корпусом татарского языка ведутся исключительно в свободное время участников проекта.

Новости проекта

03.07.2017 - Список изменений в системе Проверки орфографии:

21.06.2017 - В системе fastmorph набор грамматических тегов теперь показывается для всех слов в предложении.

03.06.2017 - На сайте размещен Синтезатор татарской речи "Талгат" на базе системы RHVoice, разработанный в Республиканской специальной библиотеке для слепых и слабовидящих.

27.02.2017 - Релиз версии 5 корпусного поискового движка fastmorph. Потребление оперативной памяти уменьшено примерно в 2,5 раза.

23.01.2017 - В разделе Орфография Онлайн запущен сервис проверки правописания текстов на татарском языке.

09.01.2017 - В разделе Поиск в Корпусе запущен сервис поиска по N-граммам. Поддерживаются 1, 2, 3, 4, 5 и 6-граммы.

22.11.2016 - Мы открыли исходный код разработанного нами корпусного поискового движка fastmorph под лицензией GNU General Public License v3.0 и выложили его на GitHub.

18.11.2016 - Релиз версии 4 корпусного поискового движка fastmorph. Список изменений:

17.11.2016 - Корпус полностью переразмечен новой версией морфологического анализатора Apertium.

12.10.2016 - В разделе Статистика размещены списки частотности лемм татарского языка.

19.07.2016 - Очередные улучшения в поисковом движке fastmorph системы Сложного морфологического поиска:

01.07.2016 - Обновлены Инструкции на татарском, русском и английском языках.

13.06.2016 - В модуле fastmorph добавлена возможность поиска по середине слова. Например, если ввести *әме*, то найдутся ярдәмендә, бәйрәмен, үткәрәмен, өйдәме...

21.04.2016 - Благодаря внедрению процессорных оптимизаций и поддержки многопоточности в модуле fastmorph, удалось добиться до пятикратного увеличения скорости выполнения сложного морфологического поиска.

03.04.2016 - Значительно расширены возможности системы Сложного морфологического поиска. Подробнее об этом читайте в обновленных Инструкциях версии 3.0 и выше.

29.03.2016 - В разделе Сложного морфологического поиска добавлен графический режим ввода в поисковый запрос грамматических показателей.

22.02.2016 - В Письменном корпусе появилась функция Сложного морфологического поиска на основе различных комбинаций таких параметров, как словоформа, лемма, набор грамматических тегов, префикс, постфикс и возможностью указания расстояний между ними.

21.11.2015 - В Синтезаторе татарской речи добавлена поддержка системы письма татар, живущих в Финляндии.

20.11.2015 - В разделе Инструкция теперь доступно Руководство пользователя к Письменному корпусу на английском языке.

06.10.2015 - Создан раздел Инструкция, где на данный момент размещена русская версия Руководства пользователя к Письменному корпусу татарского языка. В дальнейшем также будут выложены версии на татарском и английском языках.

16.08.2015 - На сайте размещена Система синтеза татарской речи, разрабатываемая командой Письменного корпуса татарского языка. В данный момент идет активная работа над проектом, поэтому приглашаем к сотрудничеству добровольцев, ждем ваших советов и предложений.

11.06.2015 - На странице поиска добавлена возможность ввода символов через экранную клавиатуру, что позволяет работать с Корпусом при отсутствии татарской раскладки.

18.04.2015 - Внедрена система поиска в Корпусе по шаблону (конец слова).

29.03.2015 - Лимит на просмотр правого, левого и семантического контекстов увеличен со 100 до 10 000 единиц. Для их просмотра в табличном виде необходимо нажать ссылку "Показать все".

26.03.2015 - Теперь Корпус доступен и по новому адресу corpus.tatar. Доступ по старому адресу corpus.tatfolk.ru сохранен.

14.03.2015 - Внедрена система поиска в Корпусе по шаблону (начало слова).

12.10.2014 - Реализована возможность прослушивания визуализированных предложений (нажав на соответствующую кнопку слева от предложения).

05.10.2014 - Произведена морфологическая разметка Корпуса. В основу метаязыка грамматических помет положена система «тегов» для тюркских языков, разработанная международным проектом Apertium.

14.08.2014 - Релиз новой версии Корпуса:

16.03.2014 - Список изменений:

24.03.2013 - Внесены многочисленные улучшения:

15.03.2012 - Завершена основная работа по созданию Письменного корпуса татарского языка. Разработаны базовые версии сайта и поискового модуля. Запуск сервиса.