R для антиковедов. Часть 1: Извлечение данных из HTML & XML — Ярмарка проектов — Национальный исследовательский университет «Высшая школа экономики»

Любое количественное исследование в гуманитаристике начинается с поиска и обработки необходимого текста или корпуса текстов. Многие античные источники сегодня доступны в форматах html/xml, которые позволяют извлечь не только сам текст, но и метаданные, леммы (начальные формы слов) и др. Умение работать с документами в таких форматах — первый шаг на пути к компьютерному анализу текстов. В рамках проекта участники овладеют навыками парсинга html/xml в R и подготовят выбранный источник для дальнейшего изучения. Работа осуществляется дистанционно, асинхронно.

Проектное предложение (PDF, 163 Кб)

Идентификационный номер проекта

568022956

Кампус

Москва, Санкт-Петербург, Нижний Новгород

Руководитель

Алиева Ольга Валерьевна

Подразделение-инициатор

Школа философии и культурологии

Рекомендуется для образовательных программ

Античность, Библеистика и история древнего Израиля, Востоковедение, Востоковедение, История, История, Культурология, Филология, Филология, Филология, Философия, Христианский Восток

Рекомендуется для магистерских программ

Античная и восточная археология, Медиевистика, Религия и общество, Философская антропология

Тип проекта

Исследовательский

Тип занятости студента

Удаленная работа

Территория реализации проекта

Удаленно

Курс

с 1 по 4

Сроки реализации проекта

18 марта – 1 июля 2022

Заявки принимаются до

Приём заявок завершен 17 марта 2022 г.

Количество вакантных мест на проекте

Количество кредитов

Интенсивность проектной деятельности

3.3 ч. в неделю

Способ постановки задач

Индивидуальная

Необходимо

high motivation

Теги

digital humanities античность парсинг XML