TIRTEC (Text-Image Russian Textbook Corpus)
TIRTEC (Text-Image Russian Textbook Corpus) — это корпус текстов из учебников русского языка для детей младшего школьного возраста (7-11 лет), предназначенных для учеников с разным уровнем владения русским языком (R-native: русский как родной язык, R-bilingual: русский как второй родной/семейный, R-foreign: русский как иностранный). Корпус может быть полезен для изучения широкого круга проблем, от изучения различных стратегий упрощения текста, вопросов лексического состава до лингвокультурных особенностей учебного контента для разных групп учащихся.


Ниже вы можете скачать полученные коллекции текстов в формате CSV. По личному запросу на antonina.laposhina@gmail.com мы также откроем вам доступ к корпусу TIRTEC на платформе SketchEngine, которая предназначена для более комфортного точечного поиска в корпусе.

Данные корпуса могут быть использованы только в исследовательских целях и запрещены для коммерческого использования. При цитировании фрагмента корпуса обязательная ссылка на авторов учебника (данная информация доступна на листе Библиографический список учебников корпуса).


TIRTEC (Text-Image Russian Textbook Corpus) is a corpus of text from Russian language textbooks for children aged 7-11 years (corresponding to the age of primary school students in the Russian education system), intended for three groups of children based on their language proficiency and settings of language acquisition: R-native, R-bilingual, and R-foreign. This corpus can be useful tool for studying a various strategies for text simplification, as well as for various linguodidactic and sociocultural studies.


You can download the TIRTEC corpus in CSV format below. We can also open access to the TIRTEC corpus on the SketchEngine platform, which is designed for more comfortable search. Please, request an access on antonina.laposhina@gmail.com.


This data may be used for academic purposes only and non commercial use. When citing a fragment of the corpus, it is necessary to refer to the authors of the textbook (this information is available on the sheet Bibliographic list of textbooks in the corpus).
Также доступен для скачивания объединенный частотный список, в котором удобно проводить сравнение частотности слова по разным коллекциям.
Для расчетов использовался весь текст учебника, поэтому в списке возможно появление терминов (буквенный, спряжение) и учебной лексики (записать, задание).

Frequency_abs = это абсолютная частотность слова, сколько раз слово встретилось во всех грамматических формах в коллекции учебников.

Frequency_ipm = это относительная частотность слова, сколько раз слово встретится на миллион слов в тексте. Эта величина удобна для сравнения частотности слова по нескольким коллекциям разных размеров или сравнения с другими корпусами русского языка. Подробнее о расчетах и значении величины можно посмотреть здесь.

Коэффициент R, представляет насколько универсально это слово, в скольких частях корпуса (в нашем случае - в скольких учебниках из коллекции) оно встретилось. Коэффициент R 100 означает, что слово встречается хотя бы один раз во всех учебниках коллекции: например, текст, девочка, ухо, добрый. Высокая частотность слова в сочетании с низким коэффициентом R помогает подсветить уникальные слова, возможно, составляющие концепцию авторов учебника: например, имена персонажей или излюбленные темы авторов. В списках R-foreign, R-bilingual и R-native частями корпуса для расчета коэффициента R считались учебники. В объединенном списке частями считались коллекции текстов: все учебники для детей-инофонов, все учебники русского как родного, корпус детской литературы и т.п.

DP (degree of dispersion) более детально характеризует равномерность распределения частотности слова по разным фрагментам корпуса. Например, слово фрукт встречается почти во всех учебниках и имеет высокий коэффициент R. Однако в одних учебниках оно встретилось всего 1 раз, а в других — более 25 раз. Это приводит к DP равному 0.51.


Rnc_ipm относительная частотность слова по Новому частотному словарю русской лексики, построенному на материале Национального корпуса русского языка.


Detcorpus_ipm относительная частотность слова по корпусу литературы для детей Деткорпус.


Столбцы inA1 и inA2 показывают, входит ли данное слово в лексический минимумы для взрослых иностранных учащихся элементарного (A1) и базового (A2) уровней.
При использовании материалов рекомендуем ссылаться на работу:

Лапошина А.Н., Веселовская Т.С., Лебедева М.Ю. Купрещенко О.Ф. Лексический состав текстов учебников русского языка для младшей школы: корпусное исследование//Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019». Выпуск 18 (25), 2019, c. 351-363.


Другие публикации на материале корпуса:
Лапошина А.Н., Веселовская Т.С., Купрещенко О.Ф. Иллюстративно-текстовый корпус учебников русского языка для детей младшего школьного возраста: концепция и методика создания//Труды международной конференции "Корпусная лингвистика - 2019". - СПб.: Изд-во С.-Петерб. ун-та, 2019.

Lebedeva M., Veselovskaya T., Kupreshchenko O., Laposhina A. (2021) Corpus-Based Evaluation of Textbook Content: A Case of Russian Language Primary School Textbooks for Migrants. In: Rokita-Jaśkow J., Wolanin A. (eds) Facing Diversity in Child Foreign Language Education. Second Language Learning and Teaching. Springer, Cham.

Лапошина А.Н., Веселовская Т.С., Жильцова Л.Ю., Купрещенко О.Ф., Лебедева М.Ю. Корпусное учебниковедение: в поисках объективных критериев оценки уровня учебников для билингвов. Сборник трудов 10-й Международной научной конференции «Корпусная лингвистика-2021» (Санкт-Петербург, СПбГУ, 1-3 июля 2021 г.) (в печати)