Целью проекта «Создание корпуса исторических локальных текстов» является создание цифрового ресурса, поддерживающего проведение историко-культурных исследований методами корпусной лингвистики и контент-анализа. Создаваемый ресурс воплощается в форме облачного сервиса, обеспечивающего доступ к базе размеченных исторических текстов.
Задачи проекта включают в себя:
- спроектировать структуру базы данных, обеспечивающую хранение размеченных текстов;
- создать цифровой редактор для формирования базы исторических текстов;
- спроектировать и реализовать интерфейс поиска по размеченному корпусу текстов;
- определить модель метаразметки исторических текстов и схемы концептуальной разметки единиц кодирования в текстах;
- создать цифровой редактор для выполнения процедур аннотирования текстов в соответствии с определенной метаразметкой и концептуальной разметкой;
- разработать методологию и программную поддержку отбора единиц кодирования;
- разработать методику разметки текстов, с применением функционала созданного цифрового редактора;
- выполнить разметку корпуса исторических локальных текстов.
Работы по блоку включают создание цифрового ресурса, поддерживающего проведение историко-культурных исследований методами корпусной лингвистики и контент-анализа. Создаваемый ресурс воплощается в форме облачного сервиса, обеспечивающего доступ к базе размеченных исторических текстов.
Перечень работ, направленных на создание сервиса, включает:
А) Подблок цифровой поддержки корпуса (Е.А. Кабиольский, А.В. Зайцев, А.Б. Кукшинова, О.И. Бабина):
- проектирование структуры базы данных, обеспечивающей хранение размеченных текстов
- создание цифрового редактора для формирования базы исторических текстов, проведения разметки текстов группой аннотирования
- проектирование и реализация интерфейса поиска по размеченному корпусу текстов, поддерживающего вывод конкордансов (контекстов) для концептуально маркированых единиц, тематических глоссариев, статистических данных по контентно-релевантным единицам
Б) Подблок лингвистической поддержки корпуса (Е.В. Орехова, О.И. Бабина):
- Участие в определении модели метаразметки исторических текстов и схемы концептуальной разметки единиц кодирования в текстах
- Базовая настройка созданного цифрового редактора для выполнения процедур аннотирования текстов в соответствии с определенной метаразметкой и концептуальной разметкой
- Разработка методологии и программной поддержки отбора единиц кодирования
- Разработка методики разметки текстов, с применением функционала созданного цифрового редактора
- Организация работы группы аннотирования в лице студентов-лингвистов (в рамках практик и проектного обучения), выполняющих работы в соответствии с разработанной методикой разметки, направленные на наполнение базы данных корпуса локальных исторических текстов, в том числе:
- Сегментацию текстов-источников
- Метаразметку текстовых сегментов в соответствии с разработанной моделью
- Концептуальную разметку единиц кодирования (слов, словосочетаний) в текстах
Итоговый результат проекта:
- платформа для создания размеченных корпусов текстов.
- размеченный корпус исторических локальных текстов.
- корпус-менеджер в виде цифрового ресурса, поддерживающего проведение историко-культурных исследований методами корпусной лингвистики и контент-анализа.