Материал корпуса исторических локальных текстов
В базовый набор текстов создаваемого корпуса исторических локальных текстов вошли тексты, состоящие из заметок и различных публикаций жителей города, а также путешественников-гостей города, в которых они описывали свои впечатления о городе и Челябинской области: об облике города в целом, архитектуре, инфраструктуре, местных жителях и многом другом. В корпус вошли 15 книг различной жанровой принадлежности, в том числе сборники. Объем корпуса составил около 350 тысяч словоупотреблений.
Схемы разметки
- Метаразметка
Единицей уровня источника выступает книга – исторический документ, публицистический очерк, дневник путешественника и прочие произведения, созданные в соответствующую историческую эпоху. Минимальной единицей уровня сверхфразового единства был выбран абзац текста. Однако единица этого уровня может содержать более одного абзаца. Критерием для включения в СФЕ дополнительных абзацев выступало единство хронологических рамок описываемых в пределах одного СФЕ событий. В соответствии с данным критерия, 15 книг корпуса были разделены на 351 текст. Единицей уровня лингвистических единиц в тексте выступали слова и словосочетания в тексте.
- Концептуальная разметка лексических единиц
Процедура проведения контент-анализа предписывает необходимость выделения концептуальных категорий, индикаторы которых могут быть найдены в тексте. Для обеспечения возможности проведения анализа в рамках этого этапа работы был проведен семантический анализ лингвистических единиц текста, включающий:
- автоматический отбор ключевых слов из корпуса текстов, выполненные с помощью разработанного скрипта на языке Python. В дальнейшем этот инструментарий используется для автоматизации отбора единиц кодирования.
- Построение тематических полей на основе семантического анализа лексических единиц верхней части частотного списка. В ходе анализа выявлены тематики: род занятий, инфраструктура города, природа, оружие и другие. Отдельного внимание заслуживает также лексика, представленная эпитетами со значением положительной и отрицательной оценочности, так как такие единицы создают облик региона через призму видения его автором текста.
- С учетом данных тематического анализа лексики, рассмотрения конкордансов тематической лексики, а также на основе определенных историками-экспертами категорий контент-анализа для целей исторических исследований, составлена развернутая многоуровневая онтология текстовых категорий-концептов. В исторических текстах концепты верхнего уровня включают периодизацию (определяемую по составленному ранее трехуровневому классификатору), исторических личностей, местности, городские постройки и т.д. Максимальная глубина иерархии концептов в онтологии составила 4 уровня. Фрагмент составленной иерархии концептов с языковыми примерами из лексических списков и конкордансов приведен на рис. 2. Общий объем онтологии составил 160 концептуальных категорий.
Для реализации корпуса текстов в цифровом формате мы использовали цифровым редактором CMS WordPress. Для создания сайта была выбрана CMS (Content management system, система управления контентом) WordPress. Данная CMS имеет функциональное ядро, которое предоставляет множество возможностей для разработчика в решении нестандартных задач.