• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Проект

R для антиковедов. Часть 2: Токенизация и разведывательный анализ

Проект посвящен методам токенизации в R. Токен — это отдельное наблюдение; применительно к тексту это может быть слово или сочетание слов, символ или сочетание символов, может быть даже параграф или предложение — все зависит от того, что мы намерены посчитать. Делить текст на токены мы будем с использованием различных пакетов для text-mining, научимся конвертировать данные из одного формата в другой, удалять стоп-слова, а также визуализировать результаты в ggplot2. Практическим результатом проекта станет публикация на площадке RPubs результатов анализа выбранного греческого или латинского источника (источников).

Тематический план:
1. Абсолютная частотность (tf),
визуализации в ggplot и wordclouds
2. Биграммы и построение сетей в ggraph; stopwords
3. Относительная частотность (rtf) и характерные слова (tf-idf)
4. Лексические корреляции в widyr
5. 5. Создание скользящего окна с пакетом slider
6. Pointwise mutual information (PMI) в widyr
7. Создание корпуса и работа с метаданными в пакете tm (text mining)
8. 8. Конвертация DTM в tidy форматы и обратно
9. Зияния (стык гласных): как их посчитать?
10. Считаем длину предложений (двумя способами)