Для расчетов использовался весь текст учебника, поэтому в списке возможно появление терминов (
буквенный, спряжение) и учебной лексики (
записать, задание).
Frequency_abs = это абсолютная частотность слова, сколько раз слово встретилось во всех грамматических формах в коллекции учебников.
Frequency_ipm = это относительная частотность слова, сколько раз слово встретится на миллион слов в тексте. Эта величина удобна для сравнения частотности слова по нескольким коллекциям разных размеров или сравнения с другими корпусами русского языка. Подробнее о расчетах и значении величины можно посмотреть
здесь.
Коэффициент R, представляет насколько универсально это слово, в скольких частях корпуса (в нашем случае - в скольких учебниках из коллекции) оно встретилось. Коэффициент R 100 означает, что слово встречается хотя бы один раз во всех учебниках коллекции: например,
текст, девочка, ухо, добрый. Высокая частотность слова в сочетании с низким коэффициентом R помогает подсветить уникальные слова, возможно, составляющие концепцию авторов учебника: например, имена персонажей или излюбленные темы авторов. В списках R-foreign, R-bilingual и R-native частями корпуса для расчета коэффициента R считались учебники. В объединенном списке частями считались коллекции текстов: все учебники для детей-инофонов, все учебники русского как родного, корпус детской литературы и т.п.
DP (degree of dispersion) более детально характеризует равномерность распределения частотности слова по разным фрагментам корпуса. Например, слово
фрукт встречается почти во всех учебниках и имеет высокий коэффициент R. Однако в одних учебниках оно встретилось всего 1 раз, а в других — более 25 раз. Это приводит к DP равному 0.51.
Rnc_ipm относительная частотность слова по
Новому частотному словарю русской лексики, построенному на материале Национального корпуса русского языка.
Detcorpus_ipm относительная частотность слова по корпусу литературы для детей
Деткорпус.
Столбцы
inA1 и
inA2 показывают, входит ли данное слово в лексический минимумы для взрослых иностранных учащихся элементарного (A1) и базового (A2) уровней.