Принципы организации электронного архива

 

Введение


С каждым годом в органах власти и организациях все более актуальными становятся вопросы создания, организации и функционирования архивов электронных документов. Еще большую остроту этим вопросам придали ФЦП «Электронная Россия» и аналогичные программы в субъектах федерации (например, ГЦП «Электронная Москва»). Следует ожидать, что в ближайшие годы архивы электронных документов превратятся в серьезные источники информации для принятия важнейших решений на всех уровнях управления. В связи с этим проблемы хранения электронных информационных ресурсов и пути преодоления этих проблем приобретают ключевое значение в методологии организации такого рода архивов.

Объектом исследования является - системы электронного архива.

Цель работы - рассмотреть организацию архивов электронных документов.

Для достижения поставленной цели необходимо решить следующие задачи:

дать определение понятия электронного архива;

рассмотреть основные этапы организации электронного архива;

описать структуру электронного архива;

рассмотреть проблемы выбора технической реализации электронного архива;

описать организацию электронного архива на примере системы ЭТЛАС.


1. Теоретические основы организации электронного архива


.1 Понятие электронного архива

электронный документ архив

Традиционные архивы с многочисленными стеллажами и кипами бумаг постепенно уходят в прошлое. Сейчас архивное хранение документов организации или любых других материалов удобнее осуществлять в электронном виде. Для этого создано специализированное программное обеспечение информационные системы электронного архива.

Электронный архив представляет собой систему хранения документов с четкой структурной организацией. Существует несколько причин, по которым целесообразно перевести бумажные архивные документы организации в электронную форму:

) Размеры обычного архива ограничены размерами помещения, в котором он расположен, величина же электронного архива может быть сколь угодно большой.

) Для того чтобы найти документ на многочисленных стеллажах требуется не один час или даже день, а поиск информации в электронном архиве занимает несколько секунд, так как поисковый запрос обрабатывает компьютер.

) Если раньше архивное хранение документов было связано с риском их потери, уничтожения или повреждения, то современный электронный архив обеспечивает полную сохранность материалов на длительный период времени, так как данные находятся на центральном защищенном сервере, а пользователям доступны лишь электронные копии документов. [1]

Для эффективной работы электронного архива он должен отвечать некоторым требованиям и предоставлять пользователям вполне определенные возможности. У архива должна быть предусмотрена система ввода новых (и старых, но уже оцифрованных документов), желательно различными способами, например, через электронную почту, сканер, ручной ввод и так далее. Пользователь должен иметь возможность просматривать документ, и при необходимости (если это допустимо) редактировать его, с последующим сохранением его в архиве или без оного. Должна быть предусмотрена печать документов или отправка по электронной почте или внутри корпоративной сети. Наверное, самое главное требование к электронному архиву это возможность поиска документов, по различным критериям и параметрам, так называемая индексация документов. Электронный архив должен предусматривать разграничивать пользователей по правам доступа к тем или иным документам. Аппаратная часть архива, где собственно хранятся файлы и документы, должна быть надежна и предусматривать резервное копирование данных через определенные промежутки времени. Это не позволит потерять документы в случае сбоя программной или аппаратной части. Журнал изменений каждого документа или структуры и каталогов архива может быть так же полезен для управления документооборотом. Идеальный электронный архив должен взаимодействовать с другими уже существующими или же появившимися в последствие системами и базами данных, например, бухгалтерией, отделом логистики или продаж.

Создание электронного архива, включающего в себя все выше перечисленные условия, дело не простое. Однако, есть три этапа без которых не создать ни один электронный архив. Во первых, это сканирование (оцифровка) старых документов электронных версий которых нет или утеряны, при необходимости (если в последствии потребуется редактировать текст) применяется распознавание документов. Второй этап это индексация документов, например, записывается наименование, дата создания (изменения), описание документа, ключевые слова для удобного поиска в последствие и так далее. И в третьих, разработав удобную и логически правильную структуру архива, его следует наполнить уже цифровыми документами, разложив все «по полочкам».

Примечательно, что структура электронных архивов может содержать не только отдельные каталоги и документы. Электронный архив может включать в себя другие электронные архивы и сам быть частью какого либо архива. Например, на предприятии могут быть электронный архив бухгалтерских документов, архив отдела кадров, архив складских документов и так далее, однако все они могут входить в электронный архив финансовых документов предприятия, который в свою очередь в общий электронный архив предприятия.

Принимая во внимание огромное количество достоинств электронного архива, можно с уверенностью утверждать, что организации, которые перевели свой документооборот в цифровое поле, получили огромные преимущества в ведении бизнеса и эффективности рабочего процесса. [7]


1.2. Организация архива электронных документов - основные этапы подготовки


До разработки и внедрения программного обеспечения необходимо проделать большую и важную работу, от результатов которой зависит:

·каким будет электронный архив

·насколько он будет соответствовать потребностям организации

·какие ресурсы потребуются для обеспечения бесперебойной работы программы и насколько оптимально они будут использоваться

·стоимость создания электронного архива и сроки выполнения работ.

Ключевую роль в организации электронного архива, конечно, играет заказчик, так как только он может предоставить необходимую информацию и принять необходимые решения, однако, наши сотрудники всячески помогают в решении этих задач.

Процесс подготовки к созданию электронного архива включает несколько этапов:

. Планирование функций электронного архива.

. Анализ организации.

На этом этапе необходимо:

·выделить значимые данные, такие как вид деятельности и размер организации, средства коммуникации

·провести разделение документов на основные и второстепенные

·определить приоритетность перевода документов в электронный вид из бумажного архива

·проанализировать используемые в организации электронные информационные системы, форматы и способы хранения электронных документов

·определить необходимые атрибуты документов для создания в электронном архиве системы поиска и электронного каталога

·ознакомиться с планами автоматизации деятельности организации с целью обеспечения совместимости информационных систем и удобства работы с электронным архивом.

. Определение приоритетов создания подсистем электронного архива.

В зависимости от масштаба и сложности работ организация электронного архива может занимать от нескольких дней до нескольких лет. Однако электронный архив, как правило, можно внедрять постепенно, в порядке важности компонентов. Последовательность реализации поставленных задач может быть изменена на любом этапе. Кроме того, гораздо проще проводить поэтапное обучение сотрудников работе с электронным архивом.

. Обследование бумажного архива организации.

В каждом архиве существуют документы, которые утратили актуальность и не представляют ценности, а значит, их перевод в электронный вид нецелесообразен. Правильная организация архива электронных документов занимает много времени, ведь необходимо пересмотреть кипы бумаг, однако результат того стоит - сканирование обойдется дешевле и обработка ненужных электронных копий не отнимет времени. Мы рекомендуем вносить в электронный архив только актуальные документы, а ненужные бумаги можем принять на хранение или поможем утилизировать.

Организация электронного архива может незначительно изменяться в каждом конкретном случае, однако, в целом предварительные работы ведутся в приведенной выше последовательности.


.3 Структура электронного архива


Сложно однозначно ответить на вопрос - каким должен быть электронный архив, ведь у каждой организации свои потребности, масштабы, специфика. Однако не вызывает сомнения то, что любая архивная система должна обеспечивать:

хранение электронных документов

регистрацию данных

оперативный доступ к информации

возможность добавления, удаления и изменения файлов

управление информацией.

Руководствуясь этими критериями, мы разработали систему электронного архива с модульной структурой. Ее основными элементами являются подсистемы:

ввода данных, позволяющая заполнять электронный архив как отсканированными изображениями, так и цифровой информацией из других информационных систем, а также вносить данные автоматически или в ручном режиме непосредственно в систему

хранения, включающая области как оперативного, так и долговременного архивного хранения

поиска, обеспечивающая оперативный доступ к необходимой информации

тиражирования, позволяющая создавать неограниченное количество копий электронного документа, а также выполняющая резервное копирование всех версий с учетом внесенных изменений.

Неотъемлемой частью любого электронного архива является электронный каталог, с иерархической структурой, автоматически изменяющейся при добавлении или удалении документов. В зависимости от целей создания электронного архива его структура может изменяться. При необходимости в систему могут быть внедрены дополнительные программные средства.

Электронный архив состоит из двух частей: серверной и клиентской. Серверная часть - это защищенное централизованное хранилище, в котором размещены электронные документы и их резервные копии. Клиентская часть - это пользовательский интерфейс, в котором доступны только электронные копии исходных документов с возможностью добавления, удаления или изменения информации.

Рассматривая структуру электронного архива, стоит упомянуть и оборудование, необходимое для его функционирования. Это:

центральный сервер

рабочие места пользователей электронного архива (персональные компьютеры или мобильные устройства)

сетевое оборудование для обмена траффиком между сервером и клиентским местом.

Приведенная выше структура электронного архива обеспечивает надежную защиту информации от несанкционированного доступа и уничтожения.


1.4 Проблемы обеспечения сохранности электронных документов


Работы по обеспечению сохранности электронных документов можно разделить на три вида: 1) обеспечение физической сохранности и целостности файлов с электронными документами; 2) обеспечение условий для считывания информации в долговременной перспективе; 3) обеспечение условий для воспроизведения электронных документов в так называемом человекочитаемом виде.

Первый аспект обеспечения сохранности электронных документов - проблема практически решенная, причем для всех видов хранения. Это решение связано не столько с созданием оптимальный условий хранения носителей с электронной информацией, сколько с физическим размещением электронных документов. Для того, чтобы компьютерные файлы не были утрачены, необходимо их хранить в двух или более экземплярах, размещенных на отдельных электронных носителях. Тогда при утрате одного из носителей, можно быстро сделать дубликат файлов с оставшегося носителя.

Важен также выбор типа носителя, его долговечность. Этот выбор зависит от вида электронного документа и срока его хранения. Наиболее распространенный способ хранения информационных ресурсов в организациях - хранение файлов на жестких дисках компьютеров или серверах. Иногда (по разным причинам) возникает необходимость переноса электронных документов на внешние носители. До сих пор в некоторых организациях небольшие совокупности файлов с управленческой документацией хранят на магнитных дискетах (в том числе как страховой фонд). Для хранения же объемных и сложноструктурных баз данных и других информационных ресурсов (например, научно-технических или издательских), чтобы не нарушать целостности данных, лучше использовать емкие электронные носители: оптические диски, съемные жесткие диски, RAID-массивы и т.п.

Для архивного хранения электронных документов в пределах 5 лет любые современные носители электронной информации (магнитные дискеты, магнитные ленты, магнитные, магнитооптические и оптические диски) вполне надежны. Здесь главное обращать внимание на надежность и репутацию фирмы-изготовителя.

При долговременном хранении электронных документов на внешних носителях лучшим решением будет использование оптических компакт-дисков CD. Они непритязательны в хранении и вполне надежны в течение 15-20 лет. Большего и не требуется. По истечение этого срока неизбежно придется или переписывать файлы на другой тип носителя (т.к. невозможно будет считать информацию с CD), или конвертировать электронные документы в другие форматы и также переписывать на более современные и емкие носители. [8]

Второй и третий аспекты обеспечения сохранности гораздо сложнее. Они связаны с быстрой сменой и устареванием аппаратного и программного компьютерного обеспечения. Со временем устройства, с помощью которых информация считывается с внешних носителей, изнашиваются и морально устаревают. Так, например, исчезли 5-дюймовые магнитные дискеты, а вслед за ними компьютеры перестали оснащать дисководами для их считывания. В ближайшее время подобная судьба ожидает 3-дюймовые дискеты и многие современные модели ПК уже выпускают без дисководов к ним. Устройства для считывания информации с оптических дисков скорее всего также со временем изменятся. Приблизительный жизненный цикл подобных технологий - 10-15 лет. Эти технологические изменения нужно учитывать при организации долговременного хранения электронных документов.

Воспроизведение электронных документов зависит в первую очередь от применяемого программного обеспечения: ОС, СУБД, браузеров, других прикладных приложений. Смена программной платформы может привести к полной утрате документа из-за невозможности его просмотреть. Впрочем, для основной массы делопроизводственных и финансовых электронных документов со сроком хранения до 5 лет этот фактор не так существенен: жизненный цикл программного обеспечения оценивается в 5-7 лет. К тому же, многие современные электронные делопроизводственные системы и системы электронного архива организации (например, на основе DOCUMENTUM или DocsOpen) снабжаются необходимыми конверторами форматов. В кратковременной перспективе для доступа и воспроизведения большинства текстовых, графических и видео документов (но не баз данных или сложных конструкторских систем и мультимедиа) использование таких конверторов самодостаточно. [8]

При более длительном хранении электронных документов существуют несколько решений:

) Своевременный перевод (миграция) баз данных и других электронных документов на современную технологическую платформу, чаще всего в форматы, которые используются в организации для оперативного управления информационными ресурсами. Это сложный и дорогой путь. Как правило, простых конверторов здесь не достаточно. Наибольшие проблемы возникают с базами данных. Обычно к миграции прибегают для обеспечения доступа к оперативным и архивным информационным ресурсам, которые очень важны для деятельности организации и постоянно используются в работе. Вот почему важно изначальное создание баз данных и других электронных документов в наиболее распространенных форматах. В государственных архивах этот путь рационально использовать для организации оперативного доступа к наиболее важным или часто используемым архивным электронным ресурсам.

) Миграция электронных документов в «открытые» или наиболее распространенные компьютерные форматы. Для текстовых документов это - txt, rtf, pdf; для графических - tiff, jpg; для таблиц и баз данных - db, dbf, xls, txt.

) Иногда миграция информационных ресурсов на другие платформы по какой-то причине представляется нереальной или может существенно исказить оригиналы электронных документов. В этом случае можно использовать эмуляторы программной среды. Однако это также бывает непросто сделать, т.к. не для всех программных оболочек эмуляторы могут быть разработаны. Именно поэтому при создании информационных систем и электронных документов следует изначально ориентироваться не только на распространенные форматы записи, но на распространенные ОС, СУБД и другое программное обеспечение. В этом случае может быть проще найти необходимые эмуляторы, которые могут разрабатываться и поставляться на рынок самими производителями программного обеспечения. Например, операционные системы Windows95 97` NT` 2000`XP поддерживают эмулятор операционной системы MS DOS. Так как это широко распространенные операционные системы, есть надежда, что корпорация Microsoft и в дальнейшем будет поддерживать эмуляторы своих старых ОС.

) Инкапсуляция: включение электронных документов в состав файлов межплатформенных форматов, например в XML. В настоящее время американские архивисты рассматривают этот способ как наиболее оптимальный для обмена и долговременного хранения электронных документов, хотя вряд ли его можно считать панацеей от всех проблем. Исследования в этой области носят пока зачаточный характер. Поэтому единственным проверенным способом долговременного хранения электронных документов остается миграция.


.5 Проблемы обеспечения аутентичности (подлинности) электронных документов


Со способами обмена электронными документами и методами обеспечения их долговременного хранения тесно связаны проблемы обеспечения их аутентичности.

При обмене электронными документами по сетям надежным средством является применение электронной цифровой подписи (ЭЦП). Однако задачи обеспечения сохранности электронных документов в долговременной перспективе значительно модифицируют эту практику. ЭЦП реквизит электронного документа хотя и надежный, но крайне недолговечный: он рассчитан на пять, максимум, десять лет. Смена программной среды, устаревание со временем алгоритмов криптозащиты делают процедуру верификации ЭЦП невозможной или бесполезной. [8]

Наиболее приемлемым методом обеспечения аутентичности электронных документов при долговременном хранения (особенно заверенных ЭЦП) можно было бы считать применение эмуляторов или конверторов при их воспроизведении. Но подобная практика пока мало изучена. Проблемы здесь видятся как в ограниченном наборе этих программных средств, так и в возможных ошибках воспроизведения документов, которые могут возникать при эмуляции или конвертировании, что опять-таки негативно сказывается на доказательной силе электронных документов при долговременном хранении. Инкапсуляция вероятно самый перспективный способ. Именно способ решения проблемы аутентичности электронных документов видят в нем американские архивисты. Но он требует долговременной апробации и дальнейшего развития.

Необходимость переформатирования электронных документов при долговременном хранении приводит к тому, что, по существу, появляется другой документ с измененными реквизитами и контрольными характеристиками: датой последнего сохранения, объемом, контрольной суммой, хэш-кодом, ЭЦП и т.п. Получается, что подлинник электронного документа будет не возможно прочитать и использовать, а его аутентичная копия не будет иметь юридической силы.

Отмеченная проблема - обеспечение аутентичности электронных документов в долговременной перспективе - на сегодняшний день, пожалуй, самая острая и сложная. Четких рекомендаций как ее решить нет пока ни в нашей стране, ни за рубежом. Можно порекомендовать лишь одно: не стоит на этапе делопроизводства создавать, а затем хранить исключительно в электронном виде документы, предполагающие длительный срок хранения и серьезную ответственность сторон. Желательно одновременно создавать и хранить этот официальный документ также на бумажном носителе.

В условиях нерешенности технологических проблем аутентификации электронной информации, на первое место выходит «старый дедовский метод»: удостоверение подлинности электронных документов при передаче их на внешних носителях в архив с помощью документа на бумаге. Для этих целей в нашей стране еще с середины 80-х гг. существуют госты:

ГОСТ 6.10.4-84. Придание юридической силы документам на машинном носителе и машинограмме, создаваемым средствами вычислительной техники. Основные положения. М., 1985.

ГОСТ РД 50-524-84. Методические указания. Порядок хранения документов на машинных носителях. М., 1985.

ГОСТ 28388-89. Системы обработки информации. Документы на магнитных носителях данных. Порядок выполнения и обращения.

Подобный документ (удостоверяющий лист, сопроводительное письмо, акт приема-передачи документов или т. п.) должен включать идентификационные характеристики файлов и электронного носителя и быть заверенным подписями должностных лиц и печатью организации.


2. Технологии и системы организации электронного архива


.1 Проблемы выбора технической реализации электронного архива


При всем многообразии программного обеспечения, сегодня не существует каких-либо продуктов СУД и ИХД, позволяющих обеспечить все основные функции электронного документооборота и архивирования для работы со сверхбольшими объемами документов. С другой стороны, большинство компонентов КЭА (компьютерного электронного архива), как технических, так и программных, являются уникальными и настраиваемыми образцами. Поэтому, при проектировании КЭА возникают, как минимум, две взаимосвязанные проблемы: оценка и выбор компонентов; интегрирование технологий, программных продуктов и технических средств. [6]

Выбор некоторых компонентов, например, высокопроизводительной сети, конкретных моделей серверов или RAID-массива совпадает с современными технологическими решениями построения традиционных автоматизированных систем сбора, хранения и обработки информации. В то же время, ряд компонентов имеет уникальную ориентацию именно на электронное архивирование. Здесь мы будем рассматривать только проблему выбора специфических для КЭА компонентов.

Технологии индексирования и поиска

Ядром корпоративного электронного архива по праву можно считать технологии индексирования и поиска. Сегодня наметились несколько направлений построения электронных архивов в зависимости от используемых в них методов поиска.

Первое направление, именуемое также корпоративным электронным архивом, относится к классу традиционных информационно-поисковых систем, основанных на атрибутном поиске структурированных данных. В качестве примеров можно привести системы построения небольших электронных архивов на базе программных продуктов типа DOCS Open (PC DOCS), XDOC (Rank Xerox), SoftSolution (Novell), PaperWise (PaperWise) и др. Строго говоря, данное направление не является технологией корпоративного электронного архивирования как таковой. Проведенные расчеты по вводу полного массива документов показывают, что даже небольшая заминка в несколько секунд при вводе документов выливается в дополнительные несколько лет, необходимых для ввода полного объема документов. Визуальный контроль и полуавтоматизированное заполнение атрибутов практически не реализуемы в основной массе документов крупного архива. [6]

Альтернативное направление электронного архивирования базируется на принципе полнотекстового индексирования неструктурированных данных и включает два вида индексирования:

контекстно-независимое индексирование, не зависящее от естественного языка по причине бинарной или словарной индексации;

контекстно-зависимое индексирование, позволяющее оптимизировать индексацию и поиск с учетом специфики морфологии и семантики естественного языка.

Известно несколько методов контекстно-независимого индексирования. Наиболее распространенный - индексация на базе инвертированной матрицы, где словам или нормализованным словоформам ставятся в соответствие адреса документов. Здесь обычно используются стоп-словарь неиндексируемых слов и словарь синонимов. Другой метод - бинарное индексирование, например, на базе теории нейронных сетей. При использовании теории распознавания образов, этот метод позволяет достичь возможности нечеткого поиска подобных, с точки зрения бинарных единиц, слов или, иначе, «поиска с ошибками». Нечеткий поиск предоставляет огромные возможности для обнаружения слов, содержащих искажения или ошибки. Например: текст после распознавания, переведенные на русский язык названия фирм или иностранные фамилии. Однако при нечетком поиске пользователь сталкивается с проблемой отсеивания шума - документов, где встретились подобные по синтаксису, но не по смыслу слова.

В целом, технология полнотекстового электронного архива представлена двумя магистральными направлениями:

технология электронного архивирования, использующая возможности современных промышленных СУБД;

технология, основанная на специализированных системах индексирования и поиска.

Первый подход базируется на использовании средств известных SQL-СУБД, типа: Oracle, Informix, Sybase и других, способных поддерживать сверхбольшие базы данных. Обычно эти СУБД имеют средства полнотекстовой индексации типа инвертированной матрицы. По этой причине, объем индекса может составлять 30-350% от общего объема базы. Процентный разброс зависит от степени нормализации индексируемых слов текста - приведения к начальной форме существительных, прилагательных и глаголов. К достоинству данного метода можно отнести следующее:

помимо функций индексирования в СУБД присутствует множество полезных и необходимых функциональных, сервисных и технологических функций поддержки качественной архивной деятельности и документооборота. Эти средства существенно упрощают задачи интегрирования средств и функций, защиты информации и т.п.;

СУБД имеют широкое распространение, что исключает необходимость освоения новых продуктов;

данные средства прочили многолетнюю апробацию в рамках приложений СУБД, проверены на практике и, несомненно, будут поддерживаться и развиваться еще достаточно долго.

К основным недостаткам следует отнести то, что СУБД, особенно реляционного типа, изначально не ориентированы на интенсивную обработку сверхбольшого объема информации. Поэтому ряд функций по полнотекстовому поиску и построению запросов, скорости поиска реализуется менее эффектно и изящно, чем в специализированных пакетах. Например, большинство СУБД пока не имеют средств поддержки нечеткого поиска. В результате, необходим дополнительный этап верификации введенного текста с целью исправления возможных ошибок сканирования и распознавания. Однако сейчас возникла новая тенденция - выпускаются новые модули или версии программных продуктов, ориентированных на обработку сверхбольших объемов традиционных данных и данных мультимедиа. [6]

Примерами реализации указанного направления являются программные средства индексирования и поиска русскоязычных текстов, разработанные фирмами LVS и cognitive Technologies. Сегодня соответствующие средства работают в рамках СУБД Oracle и OB2.

Второй подход, включающий полнотекстовое индексирование и поиск, основан на использовании дополнительных специализированных пакетов полнотекстовой индексации, в частности на базе нейронных сетей. Многие аналитики считают, что традиционные системы не годятся для решения задач КЭА, где требуются исключительно мощные процессоры данных, оптимизированные по критерию скорости доступа. Такие системы используют бинарную индексацию и реализуют нечеткий поиск. Перечислим их достоинства:

системы имеют более качественные возможности по индексированию, поиску и по анализу, в частности, они реализуют нечеткий поиск, позволяющий отказаться от проблемы исправления ошибок после распознавания;

системы характеризуются исключительно высокой скоростью доступа;

объем индекса не превышает 30% объема текстовых данных;

системы, кроме неструктурируемых данных, обычно, поддерживают различные мультимедиа данные.

Какие здесь возникают сопутствующие проблемы? Во-первых, результаты нечеткого поиска напрямую зависят от качества задания запроса, и пользователи сталкиваются с проблемой шума - получения нерелевантных документов. Во-вторых, указанные системы рассчитаны на мощные параллельные вычислительные системы и пока не очень распространены на платформе Intel. Но главный недостаток заключается в том, что это системы исключительно индексирования и поиска - в них существенно ограничены функции управления документами. На разработчиков возлагаются очень непростые задачи создания собственных технологических и сервисных функций, интегрирования технологий и программно-аппаратных средств и т.п.

Застрельщиком представленного направления является американская компания Excalibur Technologies, имеющая сегодня представительства по всему миру, включая и Россию. Данное направление на российском, да и на европейском, рынке достаточно новое, например, разрешение на использование некоторых программных модулей на территории России было получено только в 1996 г. Фирма предлагает два программных продукта: Excalibur EFS и RetrievalWare. Первый - это «коробочный» продукт, он позволяет выполнять полнотекстовую индексацию и поиск информации, хранимой в файловых системах или СУБД. Второй продукт - мощное инструментальное средство создания систем полнотекстового поиска на базе теории нейронных сетей. RetrievalWare включает два компонента или программные библиотеки: текстовый сервер и сервер изображений. Библиотеки могут быть подключены к базовому ядру информационной системы, например, к СУБД Sybase. [6]

Сервер изображений может эффективно использоваться для поиска трехмерных изображений, сигналов, фотографий, отпечатков пальцев, устной речи и т.п. Текстовый сервер здесь существенно перспективнее, чем Excalibur EFS - он включает не просто механизм поиска неструктурируемой информации, но и семантический анализатор. Данный продукт позволяет создавать семантическую сеть между понятиями языка, а значит, - существенно расширять возможности поиска. Например, английский вариант семантической сети включает более 0.5 млн. слов и 1.5 млн. связей между ними. Сегодня имеются также соответствующие разработки в области русификации семантического сервера. RetrievalWare также включает компонент Web, позволяющий работать в среде Internet или intranet.

Несмотря на различие в указанных подходах к индексированию и поиску, возможна их комбинация при реализации конкретного электронного архива.

Сканеры потокового ввода

Одним из самых узких звеньев технологии электронного архивирования являются сканеры, обеспечивающие безотказный высокопроизводительный массовый ввод документов на бумажных носителях низкого качества: слипшихся, выцветших, порванных, разных размеров и плотности, плохо пропечатанных, испачканных и т.д. Практика показала, что офисные планшетные сканеры с автоподатчиками совершенно непригодны для решения таких задач, а ведь именно документы данного качества имеются сегодня в большинстве отечественных архивах.

Возможным вариантом решения является использование специализированных промышленных сканеров, ориентированных на потоковый ввод архивных документов. Отличительной особенностью таких сканеров является ротационный механизм перемещения документов, позволяющий вводить данные с бумажных носителей плохого качества. На российском рынке наиболее известны три типа промышленных сканеров: Bell&Howell, Fujitsu и Kodak (таблица 1). При их выборе основными критериями являются производительность, долговечность, стоимость, размер вводимых документов, возможность двустороннего ввода, наличие средств, повышающих качество распознавания, наличие средств контроля. Наиболее эффективными с точки зрения массового ввода пока являются сканеры Kodak, которые имеют надежные устройства подачи бумаги, включают процессор распознавания текста, систему компьютерной диагностики и контроля ввода, снабжены развитыми программными средствами распознавания и управления архивированием, имеют естественную технологическую поддержку системы архивирования (запись на компакт-диски, микрофильмирование, стыковка с автоматическими библиотеками компакт-дисков и др.). Здесь следует отметить, что функция микрофильмирования в ряде электронных архивов остается в эксплуатации - электронная копия документа в России, в отличие от микрофильма, пока не имеет юридической силы. Основным недостатком сканеров фирмы Kodak является их высокая стоимость: цена полной поставки с программными средствами и офисными стойками достигает несколько сотен тыс. долларов.


Таблица 1. Сканеры потокового ввода

Тип сканера Скорость сканирования (лист/мин при А4/200 dpi) Разрешение (dpi) Формат документа, тип сканированияBell&Howell 2135 36 200 А4, одностороннийBell&Howell 2138A 72 200 А4, одностороннийBell&Howell 6338 42 200-300 А3, двустороннийFujitsu 3099G 55 200-400 А3, двустороннийKODAK IMAGELINK 500S 144 66-300 A3, одностороннийKODAK IMAGELINK 923D 144 67-300 A3, двустороннийKODAK IMAGELINK 990 120 67-200 A3, двусторонний

Сканеры Fujitsu и Bell&Howell уступают сканеру Kodak в первую очередь в сервисных и технологических функциях, но успешно справляются с обеспечением массового ввода основных архивных документов. Сканеры Fujitsu, в отличие от Kodak и Bell&Howell, выполнены на пластмассовой основе, что заранее определяет меньшую долговечность и более низкий уровень надежности системы сканирования. Поэтому с учетом этих факторов системы компромиссным вариантом базового потокового сканера системы ввода может быть сканер типа Bell&Howell.

Устройства хранения данных

Как уже отмечалось, все данные в системе могут находиться в двух видах: поисковый образ и образ собственно документа. Из-за высоких требований к скорости доступа к поисковому образу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.

Для хранения образа документов использование магнитных дисковых носителей не представляется возможным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические, фазоинверсные (PD/CD), компакт - (CD-R) и WORM-диски (таблица 2). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работе собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать магнитооптические, фазоинверсные и компакт-диски. [6]


Таблица 2. Оптические и магнитооптические накопители

Тип диска Емкость Число циклов перезаписи5.25» - магнитооптические диски 650 Мб, 1.3 Гб, 2.6 Гб 1 млн.PD/CD-диски фазоинверсной записи 650 Мб 1 тыс.WORM-диски 1-10 Гб однократноКомпакт-диски CD-R 650 Мб однократно

Преимущество магнитооптических дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Большинство технологических решений электронного архивирования поддерживает технологию миграции данных именно на магнитооптические диски, которые более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам в гарантийном сроке хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 50 лет, то гарантия на компакт-диски может составлять 100 лет и более. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут быть предпочтительнее. Кроме того, компакт-диски удобнее в работе: их автономное чтение можно осуществлять на любом ПК, комплектуемом CD-ROM-плеером.

Не вызывает сомнения, что вся информация в системе должна иметь резервные копии. Для графических образов сохранность информации может быть обеспечена созданием дублированных магнитооптических или компакт-дисков. Для хранения меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах. Применяемые в персональных системах технологии (DC2000/Travan, DC6000, DAT) непригодны из-за ограничений в объеме. Возможным вариантом могут стать DLT-стримеры, восьмимиллиметровые библиотеки Exabyte (Mammoth) или специализированные катушечные системы. Наиболее распространены DLT-стримеры.

Архитектуры вычислительной системы

Не останавливаясь на выборе конкретного сервера, отметим лишь особенности архитектуры вычислительной системы. Исследования показывают, что для поддержки системы класса КЭА и ИХД сегодня пригодны только мощные масштабируемые RISC-платформы, ориентированные на параллельные вычисления.

Важным критерием при выборе перспективного сервера является поддержка 64-разрядности, необходимая при вводе и обработке больших объемов мультимедийных данных. Сегодня эту возможность предоставляют только компании DEC, SGI, Oracle и Sybase. В ближайшем будущем ожидается, что к ним присоединятся HP и SUN Microsystems.


2.2 Организация электронного архива на примере системы ЭТЛАС


Системы электронного архива ЭТЛАС и электронного документооборота ЭТЛАС основаны на клиент-серверной архитектуре, которая показана на нижеприведенной схеме. [2]



Клиентские рабочие места взаимодействуют с основным сервером ЭТЛАС, либо локальным сервером ЭТЛАС, в зависимости от сетевой конфигурации организации.

Клиентские приложения на рабочих местах идентичны для всех ролей, и автоматически подстраивают свой интерфейс в зависимости от роли конкретного пользователя в системе.

Как правило, все сервера ЭТЛАС располагаются на одной серверной машине, вместе с сервером СУБД и базой документов. При больших нагрузках на сервер, работа системы может быть ускорена за счет разнесения серверов ЭТЛАС на разные серверные машины. Сервер базы данных и база документов также могут быть установлены на выделенные серверные машины.

Помимо основной серверной машины, рекомендуется использовать резервное хранилище данных для регулярного резервного копирования базы данных и документов. В качестве резервного хранилища можно использовать различные устройства, в том числе сетевые системы хранения данных (NAS).

Общая схема работы электронного архива ЭТЛАС

Ниже приведена общая схема взаимодействия пользователя с системой, отражающая информационные потоки, поступающие в систему и выходящие из нее, а также методы их обработки внутри системы.



Ключевым отличием схемы работы электронного архива ЭТЛАС от электронного документооборота ЭТЛАС является отсутствие автоматизации бизнес-процессов внутри системы. При этом входные и выходные информационные потоки идентичны, как и внутренняя структура пространства документов системы.

В левой части схемы перечислены источники поступления информации в систему:

·Офисные приложения, позволяющие создавать и вносить в систему любые документы;

·Поточный либо планшетный сканер, взаимодействуя с которым система позволяет создавать отсканированные многостраничные PDF и MS Word-версии документов;

·Файловая система, позволяющая импортировать в систему как отдельные документы произвольных форматов, так и их группы, и иерархические структуры документов (папки с неограниченной вложенностью). Поддерживается импорт как с локальных дисков, так и из сетевого окружения;

·Сторонние информационные системы, интеграция с которыми позволяет производить обмен как документами, так и другими данными, что позволяет полностью интегрировать систему ЭТЛАС в информационную инфраструктуру организации.

Как показано на схеме, в систему могут быть внесены любые документы (файлы), при этом их размер ограничен возможностями файловой системы серверной машины (ограничение размера документа в системе ЭТЛАС - 16 Экзабайт). Помимо документов, имеющих хотя бы одну электронную версию (файл), в систему могут быть добавлены документы без версий, путем создания соответствующих регистрационных карточек. Подобные документы могут описывать любые объекты, необходимые пользователю, и позволяют организовать регистрацию и каталогизацию любых данных.

После прохождения регистрации, документы попадают в основное пространство документов, представляющее собой универсальное средство структурирования документов. Основное пространство документов поддерживает как произвольное размещение документов в папках, создаваемых пользователями вручную в соответствии с неформализованными правилами, так и автоматическое размещение документов в зависимости от их типа, в соответствии с заранее настроенными правилами.

Из основного пространства документов, документы могут быть удалены в корзину документов, либо помещены в архив. Корзина позволяет избежать потери документов при случайном удалении, при этом возможность очистки корзины доступна только администраторам системы. Корзина поддерживает два уровня удаления, и разделение удаленных документов по пользователям. Архив документов позволяет скрыть документы, актуальность которых не требует их хранения в общем пространстве документов, при этом сохраняется возможность их поиска и получения доступа к ним.

Резервное хранилище документов содержит копии всех документов системы, позволяя полностью восстановить работу с системой и ее документами в случае утери данных на основном сервере системы.

Функции электронного архива, показанные на схеме, более подробно описаны на основной странице электронного архива ЭТЛАС.

На протяжении всего цикла своей жизни в системе, документы могут быть:

·Открыты в соответствующем приложении, как для ознакомления, так и для редактирования;

·Распечатаны на принтере;

·Отправлены по факсу и электронной почте;

·Экспортированы в файловую систему, в том числе сетевое окружение;

·Переданы в сторонние информационные системы.


Заключение


В заключении следует отметить, что методология организации архивного хранения электронных документов только начинает складываться. Здесь важен учет мнений и опыта всех заинтересованных сторон: архивистов (в архивах организаций и государственных архивах), делопроизводителей, ИТ-специалистов, управленцев, менеджеров, историков, других пользователей электронными информационными ресурсами. От этого зависит, что станется с накопленным информационным богатством страны, с каким интеллектуальным багажом мы окажемся среди других «путешественников» к открытому информационному обществу.

Таким образом, цель работы достигнута - рассмотрена организация архивов электронных документов. И решены следующие задачи:

дано определение понятия электронного архива;

рассмотрены основные этапы организации электронного архива;

описана структура электронного архива;

рассмотрены проблемы выбора технической реализации электронного архива;

описана организация электронного архива на примере системы ЭТЛАС.


Список использованных источников и литературы


1.Архивное хранение документов - компактно, надежно, безопасно [Электронный ресурс]. - Режим доступа: #"justify">2.Архитектура электронного архива ЭТЛАС [Электронный ресурс]. - Режим доступа: #"justify">3.Залаев, Г.З. Современные принципы хранения и распространения архивной информации [Электронный ресурс]. - Режим доступа: #"justify">4.Зверева, Н. Автоматизация архивной службы предприятия [Электронный ресурс]. - Режим доступа: #"justify">.Левчук, Л.И. Ткаченко, Н.А. Ходаковский, Н.И. Проблемы внедрения автоматизированных архивных технологий [Электронный ресурс]. - Режим доступа: #"justify">6.Марков А. Концепция построения электронного архива [Электронный ресурс]. - Режим доступа: #"justify">7.Организация архива электронных документов [Электронный ресурс]. - Режим доступа: #"justify">.Тихонов В.И. Организация архивного хранения электронных документов: проблемы, практика, рекомендации [Электронный ресурс]. - Режим доступа: #"justify">9.Электронные архивы. Создание электронных архивов документов и организация хранилищ корпоративной информации [Электронный ресурс]. - Режим доступа: http://www.korusecm.ru/solutions/elib/


Введение С каждым годом в органах власти и организациях все более актуальными становятся вопросы создания, организации и функционирования архивов электро

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ