• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сотрудник Школы лингвистики ВШЭ Борис Валерьевич Орехов создал корпус классической персидской поэзии. Для развития этого корпуса и его корректировки требуются студенты, владеющие современным и классическим персидским языком.

Проект предполагает ручную и полуавтоматическую работу с разметкой персидского поэтического корпуса. Нужно будет проверять корректность морфологической разметки, находить системные ошибки в присвоении грамматических тегов и предлагать решения по исправлению этих ошибок. Проверки требует правильность лемматизации для входящих в корпус слов. Для этого нужно будет либо работать с поисковым интерфейсом корпуса, либо с выгруженными разработчиками из корпуса списками слов с их леммами и грамматическими тегами. В корпусе имеется класс низкочастотных слов, для которых не получилось сделать удовлетворительной морфологической разметки, нужно будет либо разметить их вручную, либо предложить формальные описания для таких слов, которые позволили бы доразметить эти слова автоматически.