Проект турында

Татар теленең язма корпусын төзүгә караган эшләрнең башлануы 2010 елга карый. Авторларның фәнни юнәлеш сайлауга караган фикер алышуларында түбәндәге ике тема карала:

Әдәбият белән танышулар дәвамында бүгенге автоматик машина тәрҗемәсе һәм сөйләм тану системаларының эше милли тел корпусларын – “гипотеза – ачыклау” алымын файдалануга корылганлыгы мәгълүм булды. Бу хәл безне татар теленең милли корпусын төзүгә ныклап алынырга мәҗбүр итте.

Язма корпус, нигездә, web-ресуслар материалында төзелде. Китерелгән мисалларның сайт адреслары аркылы (һәр сүзформаның кулланышы җөмләләр ярдәмендә тасвирлана) корпуста файдаланылган сайтларга карата тулы мәгълүмалар алырга мөмкин.

Татар теленең язма корпусына теркәлүче текстларга башлангыч эшкәртү ясалды – html тегыларыннан чистарту, чит телдә язылган җөмләләрдән азат итү, utf-8 гә күчерү, җәмлә чикләрен автоматик рәвештә тамгалау һ.б. эшләр үтәлде.

Хәзерге вакытта материал җыю, электрон корпуска теркәү өчен аларны эшкәртү дәвам итә. Кайбер язучыларның, фән хезмәткәрләренең татар теле корпусы төзелүен белеп, үз китапларының электрон версиясен безгә тәкъдим итү мисаллары да бар. Бу материалларның күләме 5 – 6 миллион сүзгә җитү белән алар текстлар корпусына теркәләчәк. Бер уңайдан, язма корпусның функцияналь мөмкинлекләре дә баетыла.

Әйтергә кирәк, Татар теленең язма корпусы – ул татар тел дөньясын бер тәртиптә тасвирлаучы гаять зур сүзлек – белешмә тәшкил итә.

Татар теле корпусыннан файдалану түләүсез.

Телне адекват гәүдәләндерү һәм татар теленең милли корпусы дигән исемгә лаек булу өчен безнең корпусның күләме 100 миллион сүздән ким булмаска тиеш. Без бу күләмгә 2014 елда ирештек.

Татар теленең язма корпусын ясауда катнашучылар: