• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Проект

R для антиковедов. Часть 1: Извлечение данных из HTML & XML

Любое количественное исследование в гуманитаристике начинается с поиска и обработки необходимого текста или корпуса текстов. Многие античные источники сегодня доступны в форматах html/xml, которые позволяют извлечь не только сам текст, но и метаданные, леммы (начальные формы слов) и др. Умение работать с документами в таких форматах — первый шаг на пути к компьютерному анализу текстов. В рамках проекта участники овладеют навыками парсинга html/xml в R и подготовят выбранный источник для дальнейшего изучения. Работа осуществляется дистанционно, асинхронно.