R для антиковедов. Часть 2: Токенизация и разведывательный анализ — Ярмарка проектов — Национальный исследовательский университет «Высшая школа экономики»

Проект посвящен методам токенизации в R. Токен — это отдельное наблюдение; применительно к тексту это может быть слово или сочетание слов, символ или сочетание символов, может быть даже параграф или предложение — все зависит от того, что мы намерены посчитать. Делить текст на токены мы будем с использованием различных пакетов для text-mining, научимся конвертировать данные из одного формата в другой, удалять стоп-слова, а также визуализировать результаты в ggplot2. Практическим результатом проекта станет публикация на площадке RPubs результатов анализа выбранного греческого или латинского источника (источников).

Тематический план:
1. Абсолютная частотность (tf),
визуализации в ggplot и wordclouds
2. Биграммы и построение сетей в ggraph; stopwords
3. Относительная частотность (rtf) и характерные слова (tf-idf)
4. Лексические корреляции в widyr
5. 5. Создание скользящего окна с пакетом slider
6. Pointwise mutual information (PMI) в widyr
7. Создание корпуса и работа с метаданными в пакете tm (text mining)
8. 8. Конвертация DTM в tidy форматы и обратно
9. Зияния (стык гласных): как их посчитать?
10. Считаем длину предложений (двумя способами)

Проектное предложение (PDF, 171 Кб)

Идентификационный номер проекта

632351712

Кампус

Москва, Санкт-Петербург, Нижний Новгород, Пермь

Руководитель

Алиева Ольга Валерьевна

Подразделение-инициатор

Школа философии и культурологии

Рекомендуется для образовательных программ

Античность, История, История, Филология, Филология, Филология, Философия

Рекомендуется для магистерских программ

Медиевистика, Религия и общество, Философская антропология

Тип проекта

Исследовательский

Тип занятости студента

Удаленная работа

Территория реализации проекта

Удаленно

Курс

с 1 по 4

Сроки реализации проекта

4 июля – 11 сентября 2022

Заявки принимаются до

Приём заявок завершен 03 июля 2022 г.

Количество вакантных мест на проекте

Количество кредитов

Интенсивность проектной деятельности

5 ч. в неделю

Способ постановки задач

Индивидуальная

Необходимо

high motivation

Теги

digital humanities R древнегреческий язык латынь программирование