Дефенестрация? Не, не слышал!

Уже несколько лет люди охотно делятся в соцсетях результатами теста своего словарного запаса. Выглядит это так:

Ваш пассивный словарный запас — 88000 слов. Ваш индекс честности — 90%.





Предлагаем посмотреть, какие технологии позволяют посчитать примерное число известных вам слов за 5 минут.

Задача теста — определить пассивный словарный запас (то есть количество слов, которые вы узнаете при чтении и на слух). Единственный способ сделать это точно — взять словарь потолще, отметить все слова, которые вы знаете, и посчитать их. Вряд ли найдется желающий пойти на подобное испытание.

К счастью, альтернативный подход предлагает современная теория тестов (IRT, Item Response Theory). Она предлагает методику тестирования с вопросами разной ценностью для предсказания уровня знаний. Каждый вопрос имеет три параметра:

  1. Трудность
  2. Дискриминация (насколько эффективно этот вопрос может различать студентов по уровню их знания)
  3. Угадывание (насколько вероятно, что испытуемые могут получить правильный ответ, угадывая)

Но как определить трудность вопроса «Знаете ли вы это слово»? В тесте это делается через частотность его употребления в большой коллекции текстов (корпусе текстов). Чем реже встречается слово — тем ценнее, что вы его знаете. Частотность слов считалась по Национальному корпусу русского языка. Например, если вы отмечаете слово «кошка» как знакомое, это не очень ценно для исследования, а вот «дефенестрация» — это да, вы молодец!





Чтобы сделать тест точным, но максимально коротким, была использована надстройка над современной теорией тестов — компьютерное адаптивное тестирование (Computerized Adaptive Testing, CAT). От ответа на вопрос зависит выбор следующего вопроса. Если респондент отмечает сложное слово (скажем, «петроглиф») как знакомое, скорее всего, у него большой словарный запас, поэтому следующим вопросом он получает слово с высокой сложностью, и наоборот. Таким образом, каждое тестовое слово приносит в тест максимум информации.

Почему нельзя просто врать и всё время жать кнопку «Знаю»? Для проверки на честность введены две методики: во-первых, врунишка может попасться на несуществующем слове, во-вторых — несколько раз за тест система предложит выбрать верное толкование для слова, которое вы только что отметили как знакомое.





Немного интересной статистики по результатам теста:

  1. Словарный запас растет с практически постоянной скоростью до примерно 20 лет, после чего скорость его набора уменьшается, останавливаясь примерно к 45 годам. После этого словарный запас уже практически не меняется.
  2. Во время обучения в школе подросток узнает по 10 слов в день.
  3. К моменту выпуска из школы человек в среднем знает 51 тысячу слов. Для сравнения: Словарь Ожегова — 70 тысяч слов, Даля — более 200 тысяч слов.




На графике выше видно как словарный запас зависит от уровня образования. И вот ещё одна мотивация писать кандидатскую: в среднем люди с ученой степенью знают на 5 тысяч слов больше,  чем люди с высшим образованием. 

Ссылки:

Тест словарного запаса

Статистика по результатам для русского языка

Item Response Theory

Computerized Adaptive Testing



Материал сообщества Системный Блокъ


На официальном сайте ФГБОУ ВО "Гос. ИРЯ им. А.С. Пушкина" используются технологии cookies и их аналоги для качественной работы сайта и хранения пользовательских настроек на устройстве пользователя. Также мы собираем данные с помощью сервисов Google Analytics, Яндекс.Метрика, счётчиков Mail.ru и Спутник для статистики посещений сайта. Нажимая ОК и продолжая пользоваться сайтом, Вы подтверждаете, что Вы проинформированы и согласны с этим и с нашей Политикой в отношении обработки персональных данных, даёте своё согласие на обработку Ваших персональных данных. При несогласии просим Вас покинуть сайт и не пользоваться им. Вы можете отключить cookies в настройках Вашего веб-браузера.
The Pushkin Institute's official website uses cookies to ensure high-quality work and storage of users' settings on their devices. We also collect some data for site statistics using Google Analytics, Yandex.Metrika, Mail.ru and Sputnik counters. By clicking OK and continuing using our website, you acknowledge you are informed of and agree with that and our Privacy Policy. If you are not agree we kindly ask you to leave our website and not to use it. You may switch off cookies in your browser tools.