Plan de trabajo

Работы следующего этапа (2020–2021) предполагают развитие созданной информационной системы и средств ее ведения, отвечающих заявленным требованиям. По результатам работ система должна начать бесперебойно функционировать в штатном режиме.

Работы 2020–2021 гг. базируются на результатах первого трехгодичного этапа работ (2017–2019). За это время была создана альфа-версия информационной системы, функционирующая в открытом сетевом режиме. В ней были реализованы и на ней апробированы выбранные научные и технологические решения, заложенные в основу ИС СПСЛ. Первый год полноценной эксплуатации (2019) показал работоспособность и возможность развития, а также в целом подтвердил сделанный выбор в пользу конкретных операциональных решений.

Основные направления работ в 2020–2021 гг.

1. Создание полноценной версии для мобильных устройств — адаптивного интерфейса

Сложность и специфичность пользовательских функциональных задач, в частности, параллельный просмотр представленных в системе текстов, не позволяют ограничится одной реализацией интерфейса, пригодной одновременно для стационарный и мобильных устройств. Созданная в 2017–2019 гг. мобильная версия является экспериментальной и решает поставленные задачи лишь отчасти.

2. Развитие многоязычного пользовательского интерфейса

Создание многоязычного интерфейса (русский — английский — испанский) — полностью себя оправдало, поскольку создаваемая система рассчитана на международную пользовательскую аудиторию. На первом этапе в иноязычных версиях были переведены основные описания и элементы интерфейса. Эта работа должна быть продолжена — в частности, должны быть представлены на языках интерфейсов такие элементы системы, как поле «Примечание» в корпусных метаданных. Кроме того, должна быть создана система редактирования многоязычных метаданных (в настоящее время экспорт вводимых значений в поля метаданных из русскоязычной версии в иноязычные производится вручную). Рассматривается возможность добавления еще одного иноязычного интерфейса — французского.

3. Дальнейшее информационное наполнение подсистем «Библиотека» и «Корпус»

Добавление новых изданий в Библиотеку и «препарирование» произведений для Корпуса должно продолжаться в штатном режиме. Планируемые объемы пополнения — не менее 10 тысяч печатных страниц в год. Объем информации в СПСЛ должен соответствовать современным представлениям о «big data». То, что уже сделано, — чрезвычайно мало для системы с такими целями и задачами.

Пополнение должно способствовать включению в ИС СПСЛ произведений различных литературных жанров, помимо собственно лирических (эпиграмма, басня, стихотворная сказка, эпическая поэма, описательная поэма и др.), охвату всех эпох романских литератур (с XIII по XX вв.) и русских переводов (с XVIII по XXI вв.), расширению списка охваченных романских языков (кроме уже задействованных итальянского, испанского и французского, как минимум, — португальский).

4. Развертывание широкомасштабных работ в подсистеме «Энциклопедия»

Биобиблиографические справки в разделе «Энциклопедия», связанные с Базой данных авторов (БДА), используемой при подготовке информации для ИС СПСЛ, позволяют однозначно идентифицировать авторов включенных в систему произведений и аккумулировать важнейшие сведения о них. Создание биосправок требует проведения регулярной исследовательской и архивно-библиографической работы. Кроме того, необходимо организовать перевод биосправок на основные языки системы (английский и испанский).

Сейчас в БДА около 800 авторов, и число их будет увеличиваться, а в Энциклопедии — 60 справок, не менее половины из которых требуют доработки.

Поскольку справки подготавливаются разными исполнителями, потребуется:

  • перечень основных правил представления сведений,
  • проведение редактуры перед выкладкой.

Необходима также доработка ИС с целью реализации лексического и атрибутного поиска в разделе «Энциклопедия».

5. Развертывание широкомасштабных работ в подсистеме «Тезаурус»

В отличие от остальных, полнофункционально действующих подсистем, Тезаурус в его текущем состоянии фактически представляет собой макет-прототип. Впереди — создание системы автоматизированного ведения Тезауруса, создание системы подготовки информации, корректировка рубрикации, наполнение Тезауруса статьями, создание системы расстановки гипертекстовых связей «Тезаурус — Библиотека». Кроме того, необходимо организовать перевод статей тезауруса на основные языки системы (английский и испанский).

Поскольку статьи могут подготавливаться разными исполнителями, потребуется:

  • перечень основных правил представления сведений,
  • проведение редактуры перед выкладкой.

Необходима также доработка ИС с целью реализации лексического и атрибутного поиска в разделе «Энциклопедия».

6. Развитие средств поддержки системы гипертекстовых связей

Разрабатываемая информационная система включает многочисленные семантизированные гипертекстовые связи, позволяющие пользователю осуществлять соответствующие переходы. Таковы, например, переходы от произведения в Корпусе к комментариям, расположенным внутри издания в подсистеме «Библиотека» или планируемые переходы от статей Тезауруса к употреблениям этого термина в изданиях, включенных в раздел «Исследования» подсистемы «Библиотека».

Для реализации этих связей и удобного их использования разработаны специальные программные средства, обеспечивающие прямые и обратные переходы не только между отдельными произведениями, но и между их фрагментами, а также переходы, связанные с множественными связями (1 : n). Необходимо развитие созданной системы идентификации связываемых объектов, средств визуализации возможных переходов для конечного пользователя и средств автоматизации определения связей.

Для превращения существующей системы гипертекстовых связей ИС в подлинную семантическую сеть требуется введение новых типов связей. Помимо уже существующих связей «Корпус — Корпус», «Корпус — Библиотека» и обратных связей «Библиотека — Корпус», необходимо добавить связи «Библиотека — Библиотека», упомянутые выше связи «Тезаурус — Библиотека» и обратные по отношению к ним связи «Библиотека — Тезаурус». Особый статус имеют связи между указателями Корпуса и Библиотеки с разделом «Энциклопедии».

7. Реализация в системе возможности создания и ведения иерархических и функциональнозависимых метаданных и структур

Создание средств, обеспечивающих поддержку такого рода метаданных, необходимо для решения ряда важных задач, предусмотренных концепцией ИС СПСЛ. К этим задачам относятся:

  • обеспечение работы с полиметрическими текстами;
  • поддержка вариантов произведений в подсистеме «Корпус»;
  • полноценная поддержка в подсистеме «Корпус» переводов не всего оригинала, а отдельных его фрагментов;
  • включение больших текстов, состоящих из структурных единиц более низких уровней, для чего потребуется ввести в метаданные многоуровневую иерархию: целое произведение и его части, а также фрагменты внутри частей (на первом этапе были сделаны лишь первые шаги к решению этой задачи);
  • представление структур целых текстов и переводов их фрагментов;
  • принудительная синхронизация текстов в параллельных окнах.

8. Доработка системы поиска

  • Учет иерархии метаданных как при выборе значения атрибута, так и при представлении результатов поиска.
  • Самостоятельное задание значения атрибутов конечным пользователем (минуя словарь).
  • Автоматизация иноязычного представления значений корпусных атрибутов.

9. Разработка автоматизированной системы управления технологическим процессом подготовки данных для системы

Для ведения информационной системы и подготовки метаданных на первом этапе было введено трехуровневое разделение работ и соответствующее разделение административных полномочий:

  • печатное издание и его основные метаданные (идентификаторы, библиографическое описание, ряд атрибутов) обрабатываются специалистами по подготовке информации;
  • специальные метаданные (метрика, строфика и др.) создаются специалистами-филологами;
  • контроль ведения словарного обеспечения специальных метаданных возлагается на администратора системы, также являющегося специалистом-филологом.
  • создание системы пучков-кластеров (внутрикорпсусных связей) и иных (межподсистемных) гипертекстовых связей.

Работы как второго, так и третьего уровня осуществляются в сетевом режиме после загрузки информации на сервер. Для этого специалистам-филологам предоставлены средства, позволяющие выполнять указанные работы. Эти средства помимо необходимой функциональности должны, безусловно, обеспечивать безопасность информационной системы и целостность, содержащихся в ней данных. В силу своей специфики эти средства не могут быть реализованы в рамках системы управления контентом (CMS), а существуют наряду с ней.

На первом этапе работ были сделаны первые шаги к созданию автоматизированной системы управления (АСУ). Существенная часть процесса подготовки информации уже происходит под ее контролем. На следующем этапе АСУ должна быть принципиально расширена, доработана так, чтобы охватить весь технологический процесс (от составления планов до загрузки конечного продукта и — при необходимости — его корректировки), и введена в штатную эксплуатацию. Необходимость АСУ диктуется спецификой и сложностью ИС, которая характеризуется:

  • совмещением интеллектуальных и рутинных процессов,
  • большими объемами информации (десятки, а в ближайшей перспектив — сотни тысяч произведений и гипертекстовых связей),
  • многоязычностью подготавливаемой информации и ее разнородностью (стихотворные произведения, исследования, справки и т.д.),
  • высокими требованиями к качеству, без которых немыслимо полноценное функционирование системы.

Без полноценной АСУ работа станет хаотичной и малопродуктивной, приводящей к большому количеству ошибок. Необходима оптимизации имеющегося кода АСУ, разработка и создание ее эргономичного дизайна и серьезное упрощение пользовательского функционала.

10. Создание полноценной БД заглавий

В состав АСУ, помимо уже функционирующих в ней баз данных (БД изданий, БД произведений и БД авторов) необходимо ввести как минимум еще одну базу данных — БД заглавий, в настоящее время существующую в зачаточном виде. На основе проведенных работ необходима разработка полноценного технического задания на создание системы ведения, программных средств и интерфейсов для использования данных (как при подготовке информации для системы в целом, так и для ее функционирования), наполнение новой БД.

11. Varia

  • Доработка технологии подготовки и загрузки информации.
  • Создание хранилища данных, подготавливаемых для информационной системы.
  • Доработка дизайна системы, в частности, в связи с внедрением результатов указанных выше работ.
  • Подготовка технической документации на ИС СПСЛ и АСУ (описания, инструкции по эксплуатации).

12. Развитие информационного фонда системы

Учитывая цели и задачи системы, объем работ по формированию информационного фонда в 2017–2019 гг., и накопленного опыта необходим комплексный ввод информации (печатных изданий) в систему, включающий:

  • тщательный и обоснованный отбор текстов (оригинальных произведений, переводов и исследований), отражающих литературу на различных романских языках, различные временные периоды, разнообразие переводческих традиций и школ, а также различные направления исследований;
  • получение необходимых изданий, а также прав на их использование (как первое, так и второе в ряде случаев представляет серьезную проблему);
  • полноценное и качественное преобразование печатных изданий в электронную форму и ввод в систему (отдельные аспекты подготовки требуют серьезных улучшений).

13. Создание подсистемы сбора и накопления статистической информации

  • Разработка исходных требований.
  • Создание прототипа системы, функционирующего над произведениями, представленными в Корпусе.
  • Проведение испытаний прототипа.