Корпус - помощник современного ученого
Развитие корпусных технологий предоставляют учёным с каждым годом всё больший доступ к большим текстовым данным, кардинально изменив ход современных языковых исследований и значительно увеличив степень их объективности. А знакомство с корпусной лингвистикой уже сейчас является необходимым элементов системы высшего филологического образования.
Институт Пушкина идёт в ногу с самыми актуальными тенденциями в научной сфере. Так, студенты в магистратуре обучаются методам работы с корпусами в рамках нескольких специальных курсов. Недавно в институте прошло сразу несколько мероприятий, посвященных корпусным исследованиям.
23 апреля в рамках магистерской программы «Русский язык и межкультурная коммуникация» с открытыми лекциями на тему «Корпуса русского языка для переводчиков и преподавателей» выступил Александр Пиперски, научный сотрудник и старший преподаватель факультета гуманитарных наук НИУ ВШЭ, лауреат премии «Просветитель» 2017.
24 апреля Мария Парамонова провела мастер-класс «Открывая корпус», на котором студенты филологического факультета познакомились с понятием корпуса, а также с устройством и основными инструментами Национального корпуса русского языка.
18 и 26 апреля прошли специальные занятия для магистрантов филологического факультета, посвященные работе в корпусном менеджере ScetchEnguine, в рамках курса «Информационные технологии в профессиональной деятельности».
Мы обратились к сотрудникам научно-исследовательской лаборатории инновационных средств обучения русскому языку Института Пушкина и спросили, как они используют корпуса в работе и почему навык работы с ними важно иметь в своем портфолио.
Галина Федоровна Богачева, кандидат филологических наук, ведущий специалист по лексикографии
«Создание словаря - процесс, предполагающий решение множества лингвистических задач самого разного свойства, включая определение семантики слова, количество его значений, его грамматические характеристики и многое другое. Ранее, в «докорпусный» период все эти очень важные в словарном деле действия могли растянуться на очень долгое время, хотя бы просто потому, что нужно было обработать вручную целую гору текстового материала, не говоря уже о том, что этот текстовый материал не всегда соответствовал современному состоянию языка.
Корпус предоставляет лексикографу уникальную возможность проверить догадки относительно развития у того или иного слова нового значения, уточнить его семантику, используя огромный и, главное, показательный набор употреблений слова, определить направление развития как семантики слова, так и его грамматических особенностей, проследить изменения актуальности того или иного значения слова в динамике. Все это позволяет улучшить качество словаря, отразить в словаре максимально адекватно современное состояние языка».
Мария Парамонова, специалист по лексикографии:
«Сегодня невозможно заниматься лексикографией, не привлекая корпус. При создании словаря всегда есть опасность отразить не общие закономерности, а языковую личность лексикографа, корпус же – залог объективности, с ним очень сложно спорить.
Корпус сильно изменил саму работу лексикографа. На прошлой неделе на мастер-классе для студентов филологического факультета я рассказывала о Большой словарной картотеке Института лингвистических исследований РАН – крупнейшем собрании лексикографического материала в России. Она создавалась с конца XIX века, поколения людей, читая книгу, выписывали понравившиеся им фрагменты, объем картотеки – 8 миллионов карточек. Она использовалась, например, при подготовке «Словаря современного русского языка» в 17 тт., академической «Грамматики русского языка» 1952-1954 гг., «Орфографического словаря русского языка» РАН.
Такая картотека – это гигантский объем и огромный материал для исследований, но представьте, как много сил и времени требовалось для работы с ней. Сегодня же мы заменяем этот инструмент корпусом. Сочетаемость, частотность, примеры употребления, иллюстративные цитаты – все это может дать Национальный корпус русского языка, который мы используем каждый день.
Конечно, корпус не выдает готовый материал для словаря, работа с ним требует внимательности. Поэтому создание каждой словарной статьей превращается в небольшое исследование: мы собираем материал в корпусе, анализируем и делаем выводы».
Антонина Лапошина, специалист по компьютерной лингвистике:
«Для меня тема корпусов сейчас актуальна как никогда, ведь наша лаборатория создает свой собственный корпус. Мы исследуем учебники русского языка для младшей школы, и для того, чтобы объективно оценить их содержание, собираем и размечаем коллекцию учебников.
Прежде всего, корпус - это мощный и удобный инструмент для исследователя. Приведу небольшой пример из лекции А.А.Пиперски. Он иллюстрировал различные возможности Национального корпуса на примере слов шофёр и водитель. На графике встречаемости этих слов хорошо видно, как водитель появился позже, но в 90-е годы уверенно обогнал по встречаемости шофёра.
Интересен также факт, что эту смену названия профессии инициировали мужчины: если отсортировать авторов по полу, станет заметно, что в 40-70 годах шофёр был еще частотнее, однако если у мужчин соотношение водитель/шофёр было 1 к 3, то у женщин - 1 к 21. Далее водитель постепенно набирает популярность, но асимметричность его употребления в женской и мужской речи сохраняется. В современных же текстах, написанных после 1990 годов, это отличие уже незначительное. К слову о мощности: для построения этого графика система просмотрела за нас 283 миллиона слов и за пару секунд выдала результат, на получение которого у лингвиста, скажем, ещё лет 50 назад, могли уйти месяцы.
Я сразу проверила этот факт на наших данных из учебников: там по-прежнему с огромным отрывом лидирует шофёр: 22 упоминания против 4 упоминаний водителя. Сразу оговорюсь, что это учебники свежие, 2013-2014 годов издания. Получается, язык уже давно перестроился, а учебники русского языка за ним «не успевают»? По-видимому, да. Конечно, система образования всегда более консервативна, чем живой язык, но отставание более чем на 20 лет удручает.
Подобные наблюдения возможны только на большом количестве текстов, тут нам и помогают корпусные технологии».
Татьяна Веселовская, кандидат филологических наук, сотрудник лаборатории:
«Меня лично корпуса впечатляют и очаровывают не только как лингвиста, но и как преподавателя. Это современный и очень эффективный инструмент для развития практических навыков и умений при овладении иностранным языком (в частности, русским как иностранным). Достижения корпусной лингвистики крайне важны и нужны в лингводидактике как при проведении занятий по практике речи, так и при создании учебных пособий. Зарубежные коллеги уже достаточно давно применяют корпуса при создании учебников, для нас это ещё новая область, но активно развивающаяся.
Методический потенциал использования корпусов очень велик и отрадно, что в отечественной дидактике открытия в этой области уже начались».