Проект направлен на исследование информационных и статистических характеристик текстов естественного языка. Изучение свойств языка, с точки зрения формального математического аппарата, представляет прикладной интерес, в таких областях как статистический анализ, автоматизированная обработка текстов, компьютерная лингвистика, цифровая экономика, искусственный интеллект и криптография для решения, таких задач как осмысленный перебор, анализ количества осмысленных текстов, моделирование текстов на естественном языке из случайного распределение букв алфавита на основе вероятностных характеристик и др.
В ходе исследования планируется собрать значительное количество материала для создания языкового корпуса и последующего изучения ряда информационных характеристик, таких как энтропия, распределение n-грамм, избыточность и перплексия, использование которых позволяет строить прогнозные модели указанных характеристик.
К участию в проекте приглашаются заинтересованные студенты бакалавриата/специалитета, магистратуры и аспиранты.
Все вопросы по поводу участия в проекте можно задать по эл. почте amalashina@hse.ru.