Самвел Мурадян:

Для оцифровки рукописи, написанной мастером, нужна работа мастеров

PanARMENIAN.Net - Оцифровка фонда Института древних рукописей “Матенадаран” продолжится с новым качеством с приобретением нового оборудования на средства фонда Гюльбекяна. О специфике оцифровки и создания поисковой доступной Интернет базы древних рукописей в интервью с корреспондентом PanARMENIAN.Net рассказал генеральный конструктор компании “Авиаинфотел”, занимающейся технологической поддержкой Матенадарана, Самвел Мурадян.

Г-н Мурадян, по сообщениям СМИ за три года работ по оцифровке фонда успешно оцифровано 1200 книг или 1 миллион страниц. Какова специфика этой кропотливой и трудоемкой работы?
Вокруг оцифровки рукописей Матенадарана в последнее время много сообщений в СМИ, и не все они правильно отражают суть и цели этой работы. Следуя некоторым сообщениям можно подумать, что Матенадаран - это одна из многих библиотек, в которых сегодня бурными темпами идет оцифровка фондов, и темпы работы по оцифровке матенадарановского фонда могут и должны исчисляться количеством оцифрованных книг и страниц. Дело в том, что Матенадаран хранит в основном рукописи. Практически все рукописи содержат картины, которые являются не только художественной ценностью, но и дополняют смысл текста. Предоставить читателю только текст книги, лишив его возможности всмотреться в картины, разглядеть их детали, означает дать ему возможность ознакомиться только с частью авторского замысла. Картины - как правило, миниатюры, где на половине квадратного сантиметра может быть нарисовано лицо выражающее гамму чувств, а к примеру размер глазницы составляет доли миллиметра. К оцифровке книги, содержащей такие миниатюры предъявляются требования совершенно отличные от оцифровки печатного издания. Нужно сказать, что основная цель оцифровки печатного издания - получить изображение страницы с качеством, достаточным для машинного чтения текста и перевода текста в машинные коды. Получать многократно увеличенное изображение страницы печатного издания совершенно бессмысленно, а для машинного чтения текста более чем достаточно скажем качество, обеспечивающее двукратное увеличение. Напротив, для манускрипта, написанного рукой мастера, страницу нужно сканировать с максимально возможным увеличением, так как смотреть это изображение без увеличения также бессмысленно, как смотреть без микроскопа на зернышко риса, в котором выдолблен караван верблюдов. Минимально осмысленное качество оцифровки страницы манускрипта должно позволять хотя бы пятикратное увеличение.

Сколько времени уходит на оцифровку одной страницы рукописи?
Для оцифровки одной страницы, выполненной мастером, скажем, в 5-ом, или 11-ом веке приходится работать более двух часов. Ведь такую книгу много раз из хранилища не достанешь, а если какому-либо исследователю показать цифровое изображение страницы, позволяющее, скажем, только четырехкратное увеличение, он потребует предоставить рукопись или посчитает себя ущемленным в возможностях ее исследовать. Сложность еще и в том, что при оцифровке рукописи не может быть использован любой сканер, фотоаппарат или любая лампа освещения. Изображение, полученное после сложного процесса сканирования, проходит еще специальную компьютерную обработку, после чего только пользователь может работать с ним, зная, что видит страницу также, как если бы изучал ее в натуре под микроскопом. Если для цифровой обработки книги распечатанной печатным станком может быть использован сканирующий станок, то для оцифровки рукописи написанной мастером нужна работа мастеров. Новые станки Матенадарану нужны не столько для ускорения работ по оцифровке, сколько для улучшения качества материалов, которые в дальнейшем будут предоставляться читателям для нанесения меньшего ущерба самой книге, которую уже не станут выносить из дорогостоящего хранилища по всякому поводу.

Согласно разным источникам неоцифрованными остались почти 12 миллионов страниц и готовится покупка нового оборудования на средства из фонда Гюльбекяна. Насколько может ускориться процесс оцифровки после покупки нового оборудования?
Насколько известно мне, покупка нового оборудования планируется скоро. Конечно же, когда речь касается нестандартных работ с нестандартными материалами, каковые мы имеем при обработке фонда Матенадарана, то и приобретение оборудования не решается одним только наличием денежных средств. Приходится приобретать отдельные составляющие комплексного оборудования у разных производителей и на изучение их совместимости, эффективности использования и других характеристик уходит достаточно много времени и труда высококвалифицированных специалистов. Но должен вас огорчить также тем, что для увеличения скорости обработки фонда, покупаемого оборудования будет совершенно недостаточно. Комплекс технических мероприятий, которые должны быть реализованы для ускорения работ должен включать организацию машинных комплексов способных обеспечить сбор, хранение и обработку огромных массивов данных. Надежное хранение и управление такими массивами само по себе является достаточно сложной задачей. Мы сейчас работаем над детализацией всего комплекса способного обеспечить необходимые процессы работы с изображениями, а именно сканирования, контрольного просмотра и отбраковки, регистрации и размещения в поисковых каталогах, стыковки с данными повторного копирования, резервного архивирования, управления выдачей пользователям и контроля доступа к данным. Как видите комплекс достаточно сложный и по оценкам бывшего министра науки и образования Левона Мкртчяна достаточно дорогой. Реальные оценки скорости обработки страниц с обеспечением поиска и выдачи полученных изображений пользователям могут быть сделаны после разработки такого проекта.

К какому сроку будут доступны в Интернете все рукописи, оцифрованные до сих пор?
Оцифровка любого библиотечного фонда преследует вполне определенные цели. Это создание поисковой базы, из которой светокопия страницы должна предоставляться пользователю, как по стандартным правилам каталогизации фонда, так и дополнительно по поиску в содержании текста книги. Поиск по содержанию в тексте есть прямое достижение оцифровки и само по себе новость в библиотечном деле. Путем создания базы, библиотека добивается улучшения обслуживания пользователя, предоставляя ему материал превосходящий книгу, как по качеству изображения любой страницы скопированной с некоторым увеличением, так и по качеству поиска и читабельности переведенного в машинные коды текста. Для себя же и для потомства, библиотека решает вопросы улучшения сохранности фонда от порчи при употреблении и создания виртуального архива на случай утери книг при стихийных бедствиях и катастрофах. 12-13 миллионов страниц - это фонд достаточно маленькой стандартной библиотеки. Так, к примеру в Национальной библиотеке РА фонд исчисляется 12 миллионами книг, а не страниц. Будь эти 12 миллионов страниц печатными, их оцифровка на одном стандартном станке производилась бы со скоростью 2500 страниц в час, а значит, была бы завершена за 650 рабочих дней, т.е. за три года. В случае с Матенадараном, рукопись не должна касаться станка, нельзя использовать яркий свет используемый в стандартных станках. Установку параметров яркости, чувствительности и других характеристик сканера должны менять по соответствию со сканируемым рисунком чуть ли не для каждой страницы в ручную. Текст книги не может быть автоматически считан машинами, а должен потом быть набран вручную. Необходимо вести записи в системе учета очередности сканирования страниц, поскольку их не всегда возможно сканировать последовательно. Соответственно возникают проблемы учета отбракованных страниц и т.д., что делает скорость обработки даже нескольких десятков страниц в час на одном станке практически недосягаемой, а размещение этих страниц в поисковые базы содержащие тексты книги составляют отдельную тяжелую, трудоемкую работу, поскольку набор текстов из рукописей, написанных на разных наречиях может выполняться только специалистами высокого класса.

Что касается выставления миллиона страниц на www.matenadaran.am, то это произойдет после отбраковки части страниц и их повторного сканирования, а также завершения работ, по оцифровке текстов рукописей. К счастью имеющиеся программно аппаратные средства достаточны, для обеспечения поиска по основной части всего фонда пользователями Интернета и предоставлению нужных копий страниц по требованиям, что и ежедневно выполняется со стороны Матенадарана используя уже внедренные эффективные системы поиска.

Какие новые проекты разрабатывает на данном этапе ваша компания?
Французы говорят – он упустил прекрасную возможность промолчать. К сожалению, отвечая на ваши предыдущие вопросы, возможности промолчать у меня не было, и я был вынужден быть многословным. Сейчас, же я предлагаю вам зайти в Интернет по адресу www.menq.am и с мобильного телефона на адреса wap.zvartnots.am и http://maps.menq.am, и я думаю, что это даст мне прекрасную возможность промолчать.

Гаяне Мирзоян
---