Обзор существующих систем защиты от утечки конфиденциальной информации

 

Введение


На сегодняшний день автоматизированные системы являются основой обеспечения практически любых бизнес-процессов, как в коммерческих, так и в государственных организациях. Вместе с тем повсеместное использование автоматизированных систем для хранения, обработки и передачи информации приводит к обострению проблем, связанных с их защитой. Считается, что одной из наиболее опасных угроз является утечка хранящейся и обрабатываемой внутри автоматизированной системы конфиденциальной информации. Всё это заставляет более пристально рассмотреть возможные способы защиты от утечки конфиденциальной информации.

Как отмечают многие исследовательские центры, более 80% всех инцидентов, связанных с нарушением информационной безопасности вызваны внутренними угрозами, источниками которых являются легальные пользователи системы. Модель нарушителя предполагает, что в качестве потенциальных злоумышленников могут выступать сотрудники компании, которые для выполнения своих функциональных обязанностей имеют легальный доступ к конфиденциальной информации. Целью такого рода нарушителей является передача информации за пределы автоматизированной системы с целью её последующего несанкционированного использования - продажи, опубликования её в открытом доступе и так далее. [4]

Конфиденциальная информация может покинуть корпоративный периметр самыми разными путями. Среди наиболее распространенных каналов утечки - мобильные устройства или накопители, электронная почта и интернет. Таким образом, защита требует комплексного подхода - учета всех возможных коммуникационных каналов, обеспечение физической безопасности, шифрование резервных копий и информации, покидающей корпоративный периметр, а также целого ряда организационных мероприятий.

На основании вышеизложенных проблем, было решено создать программный модуль обнаружения текстовых областей в графических файлах. Таким образом улучшить комплексную защиту автоматизированной системы, ее информационную безопасность и предотвратить несанкционированное распространение конфиденциальной информации в графических файлах.


1. Специальная часть


.1 Анализ подходов по защите от утечки конфиденциальной информации


.1.1 Введение

Можно выделить следующие возможные каналы утечки конфиденциальной информации:

Несанкционированное копирование конфиденциальной информации на внешние носители и вынос её за пределы контролируемой территории предприятия. Примерами таких носителей являются флоппи-диски, компакт-диски CD-ROM, Flash-диски и др.;

Вывод на печать конфиденциальной информации и вынос распечатанных документов за пределы контролируемой территории. Необходимо отметить, что в данном случае могут использоваться как локальные принтеры, которые непосредственно подключены к компьютеру злоумышленника, так и удалённые, взаимодействие с которыми осуществляется по сети;

Несанкционированная передача конфиденциальной информации по сети на внешние серверы, расположенные вне контролируемой территории предприятия. Так, например, злоумышленник может передать конфиденциальную информацию на внешние почтовые или файловые серверы сети Интернет, а затем загрузить её оттуда, находясь в дома или в любом другом месте. Для передачи информации нарушитель может использовать протоколы SMTP, HTTP, FTP или любой другой протокол в зависимости от настроек фильтрации исходящих пакетов данных, применяемых в автоматизированной системе. При этом нарушитель может передать информацию под видом стандартных графических файлов;

Хищение носителей, содержащих конфиденциальную информацию - жёстких дисков, магнитных лент, компакт-дисков CD-ROM и др.

Сегодня на рынке существует довольно много решений, позволяющих детектировать и предотвращать утечку конфиденциальной информации по тем или иным каналам. Некоторые разработчики предоставляют продукты, например, только лишь для контроля над почтовым трафиком или коммуникационными портами рабочей станции. Такой подход обладает всего одним преимуществом: заказчик покупает автономный продукт, который требует минимум усилий при внедрении и сопровождении. Тем не менее, слабых сторон намного больше: компания должна сама заботиться об оставшихся непокрытыми каналах передачи информации. Другими словами, при выборе конкретного решения заказчик должен обратить самое пристальное внимание на диапазон покрываемых каналов утечки и наличие важных сопроводительных услуг.

Важным параметром, который необходимо учитывать, является наличие или отсутствие аппаратных модулей в комплексном решении или просто автономном продукте. Самые продвинутые поставщики сегодня предлагают на выбор, как программные компоненты, так и аппаратные для контроля над теми коммуникационными каналами, над которыми это возможно, однако комплексных решений, покрывающих все существующие каналы, значительно меньше. Несмотря на несколько разнородный индекс популярности различных каналов утечки, только комплексная защита, покрывающая все виды коммуникации, способна эффективно обезопасить информационные активы. Ведь ничто не помешает переключиться на сетевые каналы передачи данных, если компания возьмет под контроль порты и приводы рабочей станции. Именно принцип комплексности взят за основу при рассмотрении решений для борьбы с утечками. [5]

1.1.2 Анализ и обзор существующих методов и решений обнаружения утечки конфиденциальной информации

.1.2.1 Основные виды аппаратных продуктов, защищающие от хищения информации:

.1.2.1.1 Комплексное решение InfoWatch

Российская компания InfoWatch поставляет комплексное решение InfoWatch Enterprise Solution, предназначенное для выявления и предотвращения утечек конфиденциальной информации, а также обеспечения совместимости с требованиями российских и иностранных нормативных актов. Архитектура комплексного решения InfoWatch (рис 1.1) носит распределенный характер и ее компоненты доступны также в качестве автономных продуктов.


Рис 1.1 Схема взаимодействия компонентов InfoWatch Enterprise Solution


В состав InfoWatch Enterprise Solution входят два основных модуля - Traffic Monitor и Net Monitor. Первый предотвращает утечку через каналы электронной почты и интернета, а второй - через принтеры и порты рабочих станций. Все эти компоненты являются программными. Между тем компания InfoWatch совместно с «Гелиос Компьютер» предлагают аппаратную реализацию Traffic Monitor - устройство InfoWatch Security Appliance. В результате у заказчика появляется выбор: он может использовать, как программный компонент InfoWatch Traffic Monitor, так и аппаратный модуль InfoWatch Security Appliance (рис 1.2).


Рис 1.2 InfoWatch Security Appliance


Продукт InfoWatch Security Appliance в масштабе реального времени фильтрует трафик, передаваемый по протоколам SMTP и HTTP, предотвращает утечку конфиденциальных документов через корпоративный почтовый шлюз, web-почту, форумы, чаты и другие сервисы в интернете. В случае обнаружения фактов несоблюдения корпоративной политики конфиденциальности система оперативно сообщает об инциденте офицеру информационной безопасности, блокирует действия нарушителя и помещает подозрительные объекты в область карантина.

Устройство InfoWatch Security Appliance отличается простотой интеграции в существующую ИТ-инфраструктуру: система устанавливается в качестве дополнительного relay-сервера корпоративной сети, принимает перенаправленные потоки SMTP и HTTP, а после фильтрации возвращает данные отправителю.

Технологии обнаружения конфиденциальных данных, реализованные в InfoWatch Security Appliance, основаны на сканировании пересылаемых данных на предмет наличия предопределенных ключевых слов и фраз. При этом фильтр умеет обрабатывать такие форматы данных, как Plain Text, HTML, Word, Excel, PowerPoint, PDF, RTF, различные архивы (ZIP, RAR ARJ). Дальнейший лингвистический анализ позволяет учесть контекст, в котором используются ключевые слова и фразы, и тем самым существенно повысить точность анализа. Также проверяются атрибуты сообщения на предмет соответствия политике безопасности, например, размер письма, адрес DNS-сервера отправителя, соответствие черным и белым спискам, наличие шифрования или неопознанных форматов вложенных файлов. Используется распознавание шаблонов, что позволяет детектировать неразрешенную пересылку структурированных данных. Наконец, процесс фильтрации включает сравнение каждого исходящего сообщения вместе с его атрибутами и образцов, представленных в базе данных, содержащей постоянно обновляемые «прототипы» конфиденциальных сообщений, специфичных для каждого конкретного заказчика. Таким образом, InfoWatch Security Appliance позволяет выявлять чувствительные сведения почти при полном отсутствии ложных срабатываний. Кроме этого, заказчику предлагается воспользоваться услугами создания специализированной базы контентной фильтрации, учитывающей специфику деловой терминологии заказчика. [6]


.1.2.1.2 Аппаратное решение Tizor

Продукт контролирует доступ к серверам, на которых расположены критически важные данные. Это могут быть серверы приложений, файловые серверы или серверы баз данных (рис 1.3).

Рис 1.3 Tizor TZX 1000 в корпоративной среде


В основе выявления утечек лежит запатентованная технология Behavioral Fingerprinting. Разработчик утверждает, что с помощью этой технологии продукт в состоянии предотвратить хищение конфиденциальной информации, не осуществляя контентной фильтрации. Суть подхода состоит в построении шаблонов, описывающих активность пользователей. Каждый такой шаблон является, своего рода, цифровым отпечатком пальцев соответствующего пользователя, однако, определение аномалий в рамках совершаемых людьми действий в любом случае носит вероятностный и статистический характер. Другими словами, в основе продукта компании Tizor лежит эвристический анализатор. Каждый раз, когда пользователь обращается к одному из защищенных серверов, TZX 1000 анализирует запрос и принимает решение на основе заданных политик. [6]


.1.2.1.3 Защита электронной почты от Proofpoint

Продукт компании Proofpoint - Proofpoint Messaging Security - позволяет обеспечить полный контроль над электронной почтой (рис 1.4). С помощью этого устройства можно проверить сообщения на вирусы и спам, предотвратить нецелевое использование почтовых ресурсов и утечку конфиденциальной информации через них.


Рис 1.4 Proofpoint Messaging Security

Защита от утечки конфиденциальных данных построена на базе механизма контентной фильтрации. Так вся передаваемая информация заранее распределена по нескольким тематическим категориям. Решение Proofpoint является классическим примером продукта, предназначенного для защиты одного конкретного канала передачи данных - электронной почты. Такой подход, конечно же, не позволяет обеспечить комплексной защиты, однако может быть использован в тех случаях, когда основной функциональностью является фильтрация спама и выявление вирусов, а предотвращение утечек - всего лишь приятное дополнение. [6]


.1.2.1.4 Решение для выявления и предотвращения утечек Tablus

Североамериканская компания Tablus поставляет комплексное решение для выявления и предотвращения утечек Tablus Content Alarm Solution (рис. 1.5), в состав которого входят аппаратные модули Content Alarm NW, контролирующие сетевые каналы, и Content Alarm DT, осуществляющие мониторинг за рабочими станциями.


Рис 1.5 Tablus Content Alarm Solution


Многомодульный продукт Content Alarm NW предназначен для выявления утечек по сетевым каналам. В его состав входят средства управления политикой и классификации данных, сенсоры пассивного мониторинга, почтовый фильтр для предотвращения утечек по каналам электронной почты, фильтры пересылаемых данных и графический клиент для централизованного управления.

В основе процесса выявления утечки лежит контентная фильтрация, в ходе которой производится лингвистический анализ, поиск чувствительных данных по сигнатурам, анализ ключевых слов и фраз, поиск по шаблонам, анализ атрибутов пересылаемых данных. В целом, в решении Tablus реализован стандартный многоступенчатый механизм контентной фильтрации, применяемый сегодня в большинстве фильтров нежелательной корреспонденции.

В состав комплексного решения входит также аппаратный модуль Content Alarm DT, контролирующий операции на рабочих станциях с помощью программных агентов, которые внедряются в операционную систему, следят за действиями пользователя и проверяют их на соответствие политики. Аппаратная же часть продукта необходима для того, чтобы осуществлять через нее централизованное управление. Агенты, размещенные на рабочих станциях, позволяют контролировать следующие операции пользователей: запись данных на CD, копирование файлов на USB-устройства, вывод информации на принтер, работу с буфером обмена, создание снимка с экрана, отправку сообщений электронной почты за пределы корпоративной сети, присоединение файлов к средствам обмена мгновенными сообщениями. Таким образом, к сильным сторонам решения Tablus можно отнести некоторую комплексность, выражающуюся в защите, как сетевых каналов, так и рабочих станций. Однако есть и целый ряд слабых сторон: не полный контроль над рабочей станцией (совершенно не покрыты беспроводные возможности - IrDA, Bluetooth, Wi-Fi, также выпали из поля зрения все остальные порты помимо USB) и негибкое использование аппаратных компонентов даже для контроля над рабочими станциями. Между тем, для эффективного мониторинга операций пользователя на уровне персонального компьютера вполне хватает программных агентов. [6]


1.1.2.1.5 Многофункциональное решение Hackstrike

Израильская компания Hackstrike поставляет многофункциональный аппаратный продукт Fortress-1 (рис 1.6), ориентированный на средний и малый бизнес. Типовой состав решения включает несколько объединенных модулей: маршрутизатор, брандмауэр, антивирус, фильтр спама, контентный фильтр, URL-фильтр, VPN, систему обнаружения и предотвращения вторжений, средство формирования трафика для поддержки требуемого уровня качества обслуживания и модуль для защиты документов.


Рис 1.6 Fortress-1


На последнем модуле следует остановиться подробнее, так как он имеет прямое отношение к предотвращению утечек. В основе данной функциональности лежит система SDAS (Secure Digital Asset System), разработанная компанией Hackstrike. Продукт может отыскать конфиденциальные документы в потоке пересылаемых данных с помощью этой технологии. Метод поиска включает в себя анализ цифровых водяных знаков и сигнатурное сравнение. Расстановка же цифровых водяных знаков и взятие сигнатур происходит с помощью специального дополнительного модуля, который подключается к Microsoft Office и позволяет нажатием всего одной кнопки на панели инструментов пометить документ, как конфиденциальный. Дополнительно технология SDAS позволяет осуществлять поиск по заданным ключевым словам, например, можно запретить пересылку всех документов, содержащих конкретную фразу.

Есть у технологии и свои недостатки: так любой пользователь может легко обойти цифровые водяные знаки и сигнатуры, просто скопировав данные через буфер обмена в новый документ и преобразовав его в совершенно другой формат (например, Adobe PDF). Тем не менее, именно аппаратный продукт Hackstrike может подойти малому бизнесу, который помимо простейшей функциональности по предотвращению утечек получит в свое распоряжение маршрутизатор, брандмауэр, антивирус и многое другое. [6]


.1.2.1.6 Комплексное решение Oakley Networks

Североамериканская компания Oakley Networks поставляет аппаратный продукт SureView (рис 1.7), позволяющий обеспечить комплексное выявление и предотвращение утечек. Продукт позволяет фильтровать веб-трафик, электронную почту и мгновенные сообщения, контролировать активность пользователей на уровне рабочих станций.


Рис 1.7 SureView


Комплексное решение SureView состоит из трех компонентов: агенты (размещаются на рабочих станциях), аппаратное ядро (выполняет основные функции фильтрации) и выделенный сервер (используется в целях централизованного управления политиками).

Для выявления утечек продукт Oakley Networks использует несколько технологий и алгоритмов, основанных на вероятностных и статистических методах. Другими словами, продукт анализирует поведение пользователя с учетом чувствительности обрабатываемых документов, однако не производит контентной фильтрации как таковой.

Слабым местом решения является не полное покрытие коммуникационных ресурсов рабочей станции. По крайне мере, инсайдеры имеют возможность переписать данные на мобильные устройства посредством беспроводных интерфейсов (IrDA, Wi-Fi, Bluetooth). [6]


Таблица 1.1 Функционал аппаратных решений для предотвращения утечек

InfoWatch Security ApplianceTablus Content Alarm SolutionOakley Networks SureViewProofpoint Messaging SecurityHackstrike Fortress-1Tizor TZX 1000Контроль над почтовым трафикомДаДа Да Да Да Нет Контроль над веб-трафикомДа ДаДаНетДаНетКонтроль над доступом к серверам (БД, файловым, приложений)НетНетНетНетНетДаНаличие программных компонент, позволяющих обеспечить комплексностьДаДаДаНетНетНетНаличие широкого спектра дополнительных услуг (помимо тех. поддержки)ДаДаДаНетНетНетМинимальная стоимость10-15 тыс. долларов25 тыс. долларов100.000 долларов10 тыс. долларов (лицензия на 1 тыс. пользователей стоит 18 тыс.)неизвестно25 тыс. долларов

1.1.2.2 Основные виды программных продуктов, защищающие от хищения информации:

.1.2.2.1 Authentica ARM Platform

Североамериканская компания Authentica поставляет комплексное решение для всестороннего контроля над оборотом классифицированных сведений в корпоративной сети. Однако в отличие от большинства своих конкурентов фирма остановилась не на технологиях выявления и предотвращения утечек, а на управлении цифровыми правами в рамках предприятия (ERM - Enterprise Rights Management). Именно на примере основного продукта компании - Authentica Active Rights Management (ARM) Platform (рис 1.8) - будут рассмотрены достоинства и недостатки такого подхода. Полученные в результате анализа результаты также применимы для всех остальных решений, призванных решить проблему утечек посредством ERM-технологий. В частности для продуктов компаний Adobe, Workshare, Liquid Machines, SealedMedia, DigitalContainers и Microsoft. Также необходимо отметить, что решение Authentica ARM Platform имеет очень много общего с Microsoft Rights Management Services (RMS).

В основе решения Authentica лежит запатентованная технология ARM. С помощью ARM решение контролирует электронные документы, почтовые сообщения и вообще любые файлы. Дополнительные модули интегрируются с настольными приложениями (Microsoft Office и Outlook, Lotus Notes, Adobe Acrobat, Microsoft Explorer и Netscape) и внешними средствами аутентификации (LDAP, Windows Single Sign-on, X.509, RSA SecurID).

Рис 1.8 Схема работы Authentica ARM Platform


Функциональность «Active Rights Protection» подразумевает аутентификацию пользователей и их авторизацию для просмотра информации, контроль над печатью документов, а также стандартными операциями (копирование, редактирование, чтение), возможность работы с документами в режиме offline. В дополнение к этому вся чувствительная информация постоянно находится в зашифрованном виде и расшифровывается только на момент работы с ней. Шифрованию также подлежит обмен информацией между сервером политик ARM и клиентскими компонентами. Таким образом, конфиденциальные данные всегда защищены от несанкционированного доступа - даже при передаче по коммуникационным каналам. В то же время сама архитектура продукта приспособлена именно для защиты от несанкционированного доступа, а не от утечки. Другими словами, инсайдер, у которого есть права на доступ к конфиденциальному документу, может обмануть защиту. Для этого достаточно создать новый документ и переместить в него конфиденциальную информацию. Например, если инсайдером является сотрудник, в задачи которого входит подготовка отчета о прибыли, то он будет создавать этот высокочувствительный документ «с нуля», а, следовательно, файл не будет зашифрован, так как для него еще не создана специальная политика. Таким образом, утечка становится вполне реальной. Если еще учесть, что весь почтовый трафик шифруется, то у инсайдера фактически есть готовый защищенный канал для пересылки конфиденциальных данных. При этом никакой фильтр не сможет проверить зашифрованный текст.

Тем не менее, решение Authentica ARM Platform представляется эффективным продуктом для защиты от несанкционированного доступа, так как ни один нелегальный пользователь действительно не сможет получить доступ к данным, пока не отыщет ключ шифрования.

Дополнительным недостатком продукта является отсутствие возможности хранить архивы корпоративной корреспонденции, что значительно усложняет процесс расследования инцидентов безопасности и не позволяет вычислить инсайдера без лишнего шума.

В заключение необходимо отметить широкий комплекс сопроводительных услуг, которые Authentica оказывает заказчику: аудит и анализ ИТ-инфраструктуры с учетом бизнес-профиля компании, техническая поддержка и сопровождение, внедрение и развертывание решений, корпоративные тренинги для персонала, разработка политики безопасности. [7]


.1.2.2.2 InfoWatch Enterprise Solution

Комплексное решение InfoWatch Enterprise Solution позволяет обеспечить контроль над почтовым каналом и веб-трафиком, а также коммуникационными ресурсами рабочих станций. Продукт позволяет архивировать корпоративную корреспонденцию и абсолютно все пересылаемые по сети данные.

Архитектуру комплексного решения InfoWatch (рис 1.9) можно разделить на две части: мониторы, контролирующие сетевой трафик, и мониторы, контролирующие операции пользователя на уровне рабочих станций. Первые устанавливаются в корпоративной сети в качестве шлюзов и фильтруют электронные сообщения и веб-трафик, а вторые развертываются на рабочих станциях и ноутбуках и отслеживают операции на уровне операционной системы. Кроме того, следует выделить специальный модуль *Storage, который представляет собой хранилище всех входящих и исходящих сообщений, а также всего сетевого трафика.


Рис 1.9 Схема работы InfoWatch Enterprise Solution.


К мониторам уровня рабочей станции относится InfoWatch Net Monitor, в состав которого также входит InfoWatch Device Monitor. Модуль Net Monitor отслеживает операции с файлами (чтение, изменение, копирование, печать и др.), контролирует работу пользователя в Microsoft Office и Adobe Acrobat (открытие, редактирование, сохранение под другим именем, операции с буфером обмена, печать и т.д.), а также тщательно протоколирует все действия с конфиденциальными документами. Кроме того, модуль Device Monitor, интегрированный в Net Monitor, контролирует обращение к сменным накопителям, приводам, портам (COM, LPT, USB, FireWire), беспроводным сетям (Wi-Fi, Bluetooth, IrDA). Все эти компоненты могут работать на ноутбуках, при этом администратор безопасности в состоянии задать специальные политики, действующие на период автономной работы сотрудника. Во время следующего подключения к корпоративной сети мониторы сразу же уведомят офицера безопасности, если пользователь попытался нарушить установленные правила во время удаленной работы.

Все мониторы, входящие в состав InfoWatch Enterprise Solution, способны блокировать утечку в режиме реального времени и сразу же оповещать об инциденте офицера безопасности. Управление решением осуществляется через центральную консоль, которая позволяет настраивать корпоративные политики. Также предусмотрено автоматизированное рабочее место офицера безопасности, с помощью которого специальный служащий может быстро и адекватно реагировать на инциденты.

Важной особенностью комплексного решения InfoWatch является возможность архивировать и хранить корпоративную корреспонденцию и сетевой трафик. Для этого предусмотрен отдельный программный модуль InfoWatch Storage, который перехватывает все сообщения и весь трафик, а потом складывает их в хранилище с возможностью проводить ретроспективный анализ. Другими словами, компании могут эффективно расследовать инциденты информационной безопасности. Для этого не надо арестовывать рабочие станции служащих и вручную перебирать письма в почтовом клиенте. Такие действия подрывают рабочий климат в коллективе, унижают самого сотрудника и часто не позволяют добыть никаких доказательств его вины. Напротив, автоматизированная выборка сообщений из корпоративного архива приносит намного больше пользы, так как позволяет отследить динамику изменения активности пользователя.

Делая ставку на всесторонность своего решения, компания InfoWatch предлагает клиентам целый ряд сопроводительных и консалтинговых услуг. Среди них можно выделить: предпроектное обследование, помощь в формализации целей и средств информационной безопасности, создание эффективной политики безопасности, адаптация решения под нужды клиента, сопровождение и техническая поддержка, включающая персонального менеджера каждому заказчику. [7]


.1.2.2.3 Onigma Platform

Израильская компания Onigma (поглощена McAfee в 2006 году) специализируется на выявлении и предотвращении утечек конфиденциальной информации посредством мониторинга действий пользователей на уровне рабочих станций и фильтрации сетевого трафика. Любопытно отметить, что руководящие должности в отделе исследований и разработок фирмы занимают в основном бывшие сотрудники Министерства Обороны Израиля.

Компания предоставляет очень мало информации об архитектуре своего решения Onigma Platform и реализованных в нем технологиях. Тем не менее, имеющейся информации о реализованном функционале вполне достаточно, чтобы утверждать, что Onigma Platform - это программный продукт, покрывающий следующие каналы утечки данных: электронная почта, интернет-пейджеры, веб-трафик, физические устройства (USB-порты и принтеры). Данная функциональность реализована с помощь специальных агентов, которые устанавливаются на рабочих станциях и ноутбуках заказчика. Они следят за выполнением правил и соблюдением политики информационной безопасности, поддерживают централизованное управление через специальную консоль.

Одним из основных своих преимуществ компания Onigma считает тот факт, что ее решение быстро и легко развертывается и интегрируется в имеющуюся ИТ-инфраструктуру. Таким образом, по мнению поставщика, заказчик может существенно сэкономить на переобучении персонала, внедренческих и сопроводительных услугах. Недостатком Onigma Platform является невозможность создавать архивы корпоративной корреспонденции, что значительно осложняет расследование инцидентов, утечек, финансового мошенничества и подозрительной активности инсайдеров. Вдобавок, хранение деловой документации, к которой относятся электронные сообщения, является обязательным требованием целого ряда законов и нормативных актов, регулирующих бизнес во многих странах.

Дополнительной слабостью продукта является неглубокий контроль над операциями пользователей на рабочих станциях (в том числе мобильных). Решение Onigma Platform не позволяет осуществлять мониторинг действий служащих в офисных средах, на уровне файлов, а также работу с буфером обмена. [7]


.1.2.2.4 PC Acme

Продукт PC Activity Monitor (Acme) производится и продается компанией Raytown Corp. Он позволяет осуществлять всесторонний и максимально глубокий мониторинг операций пользователя на уровне рабочей станции. Следует сразу же отметить, что из всех представленных в обзоре программных решений только продукт PC Acme не удовлетворяет принципу комплексности и не покрывает одновременно сетевые каналы и ресурсы рабочих станций. Тем не менее, эта программа заслуживает рассмотрения, так как у заказчиков часто возникает проблема сравнения ее функциональности с возможностями других рассмотренных продуктов. Заметим, что трудности заказчиков связаны с не совсем точным позиционированием PC Acme, в результате которого может показаться, что продукт обладает активными (а не пассивными) функциями и некоторым аналогом комплексности. Чтобы прояснить ситуацию, необходимо рассмотреть возможности PC Acme Professional - максимально функциональной редакции продукта.

Программа PC Acme фактически состоит из двух частей: средства централизованного управления и развертывания и многочисленные агенты, внедряемые в рабочие станции по всей организации. Как легко догадаться, с помощью первой компоненты продукты можно централизованно распределить агенты по всей корпоративной сети, а потом управлять ими.

Агенты представляют собой программные модули, которые очень глубоко внедряются в Windows XP. Разработчики сообщают, что агенты располагаются в ядре операционной системе, и пользователю практически нереально нелегально удалить их оттуда или отключить. Сами агенты тщательно протоколируют все действия пользователей: запуск приложений, нажатие клавиш, движение мышки, передачу фокуса ввода, буфер обмена. Можно сказать, что журнал событий, получающийся на выходе, по степени своей детализации напоминает результаты неусыпного видеонаблюдения за экраном компьютера. Однако получаемый журнал, естественно, представлен в текстовом виде. Центральная консоль управления позволяет, как раз, и собирать запротоколированные данные на один единственный компьютер и анализировать их там. Вот тут-то и проявляются два основных недостатка программы.

Во-первых, абсолютно непонятно, как в огромном множестве событий офицер безопасности сможет выделить те, которые являются нарушением политики, привели к утечке и т.п. Другими словами, продукт PC Acme не работает с политиками вообще. Его задача сводится лишь к тому, чтобы составить максимально подробный протокол и скрытно передать его на центральный компьютер. Заметим, что в течение дня одна рабочая станция может сгенерировать десятки тысяч протоколируемых событий, а в корпоративной сети таких станций может быть несколько тысяч и даже больше. Очевидно, что проанализировать все это собственными руками невозможно. Между тем, встроенные фильтры событий позволяют осуществлять лишь самые примитивные операции, например, отделить события, связанные с конкретным приложением (скажем, Microsoft Word).

Во-вторых, даже если офицеру безопасности удастся обнаружить факт утечки, то он все равно уже не сможет ее предотвратить. Ведь агент PC Acme зафиксировал совершенное в прошлом действие, и конфиденциальная информация уже давно дошла до получателя. Конечно, можно предъявить претензии самому инсайдеру, но блокировать утечку таким способом невозможно.

Таким образом, программа PC Acme не только не обладает комплексностью, но и не препятствует утечке в принципе. Более того, журналы событий, которые ведутся каждым представленным в обзоре продуктом, всегда достаточно подробны, чтобы вычислить инсайдера постфактум и служить доказательством при обвинении инсайдера. При этом в этих журналов, в отличие от протокола PC Acme, зафиксированы действия лишь с конфиденциальными данными, а не все системные события подряд.

Можно было бы предположить, что продукт PC Acme подойдет для маленьких компаний, где за действиями, например, десяти пользователей вполне реально проследить, периодически проверяя журнал событий. Однако выделение функций ИТ-безопасности в отдельную должность офицера для малого бизнеса - это нонсенс. [7]


.1.2.2.5 Verdasys Digital Guardian

Американская компания Verdasys поставляет комплексное решение Digital Guardian, предназначенное для выявления и предотвращения утечек прямо на уровне рабочих станций. При этом продукт невозможно упрекнуть в отсутствии комплексности, так как Digital Guardian покрывает все каналы утечки, просто это делает это в тех местах, где информация используется.

Реализацией такого подхода являются программные агенты, устанавливаемые на персональные компьютеры и ноутбуки в организации. Агенты поддерживают работу в операционной системе Windows, а также в среде Citrix Metaframe и Microsoft Terminal Server. Агенты отвечают за ведение подробных журналов; контроль над приложениями, коммуникациями и данными; выявление нарушений политики; фильтрацию событий, записанных в журнал, перед отправкой на сервер Digital Guardian.

Точно так же, как в случае PC Acme, агент Digital Guardian является невидимым для пользователя, может быть внедрен удаленно и централизованно. Однако, в отличие от PC Acme, в составе Digital Guardian появляется сервер (рис 1.10), на который агенты отсылают протоколы событий. Третьим компонентов продукта является консоль управления, к которой можно получить доступ по сети. Консоль позволяет составлять отчеты, собирать и анализировать информацию, контролировать инсталляцию агентов, управлять политиками и т.д.


Рис 1.10 Архитектура Digital Guardian


Продукты Verdasys отличаются широким спектром сопроводительных услуг. Так, поставщик оказывает консалтинговые услуги еще до внедрения проекта, разрабатывает и внедряет предварительные проекты (например, создается экспериментальная группа рабочих станций, осуществляется мониторинг действий пользователей этих станций и анализируются результаты), глубокое участие поставщика во внедрении продукта и тренинги персонала.

Тем не менее, Digital Guardian обладает двумя недостатками. Во-первых, он не позволяет архивировать электронную корреспонденцию, что затрудняет расследование инцидентов ИТ-безопасности, усложняет процесс поиска инсайдера и не позволяет обеспечить соответствие с различными законам и нормативными актами. Во-вторых, Digital Guardian не производит контентную фильтрацию, отправляемого по сети трафика. Это вытекает из того, что фильтрация, вынесенная на уровне рабочей станции, требует огромного количества аппаратных ресурсов. К такому выводу пришли эксперты IDC. К тому же, это вполне логично: фильтрацию, с использованием лингвистического анализа, другие поставщики осуществляют на выделенных серверах. Следовательно, агенты Digital Guardian в состоянии отличить чувствительные документы от не конфиденциальных только с помощью заранее заданного списка защищаемых объектов (или помеченных цифровыми водяными знаками, что не суть важно). Отсюда, если пользователь создаст новый документ и наполнит его чувствительными сведениями, например, в рамках подготовки отчета (ведь работу с буфером обмена контролируется агентами), то этот документ будет оставаться уязвимым до тех пор, пока не будет внесен в список защищаемых объектов. Именно чтобы исключить такую брешь, разработчики решений в сфере выявления и предотвращения утечек применяют контентную фильтрацию.

Как уже отмечалось, при выборе решения необходимо учитывать параметр комплексности - покрывает ли продукт все возможные каналы утечки. В противном случае данные утекут через оставленную открытой «дверь». Следующим немаловажным моментом является возможность создавать и хранить архивы корпоративной корреспонденции. Такая функциональность позволяет провести служебное расследование, не беспокоя сотрудников и не привлекая внимания. Вдобавок к тому, что хранить электронные сообщения в течение нескольких лет требуют многие нормативные акты и законы, создание централизованного почтового архива позволяет избавиться от порочной практики ареста рабочих станций служащих. Наконец, последним важным параметром является возможность выбора между программной и аппаратной реализацией модулей, отвечающих за фильтрацию сетевого трафика. [7]

Таблица 1.2 Функционал программных решений по защите от утечек информации

Authentica ARM PlatformInfoWatch Enterprise SolutionOnigma PlatformPC AcmeVerdasys Digital GuardianКонтроль над почтовым трафикомДаДаДаНетДаКонтроль над веб-трафикомДаДаДаНетДаКонтроль над рабочими станциямиДаДаДаДаДаКомплексность (на основании предыдущих трех параметров)ДаДаДаНетДаСоздание архива корпоративной корреспонденцииНетДаНетНетНетВыбор между программной и аппаратной реализацией некоторых модулей НетДаНетНетНетНаличие широкого спектра сопроводительных и консалтинговых услугДаДаНетНетДаОсобенности решенияВстроенный модуль шифрованияКаждый заказчик получает персонального менеджера технической поддержкиНет особенностейКрайне низкая ценаНет особенностей

1.1.3 Вывод

Ни один разработчик не предлагает сегодня аппаратных модулей для предотвращения утечек через ресурсы рабочих станций (порты, принтеры, приводы и т.д.), так как эффективность этой технологии сомнительна. Однако обеспечить контроль над почтовым или web-трафиком с помощью отдельного устройства, а не выделенного сервера вполне логично.

В отличие от программных модулей, автономные устройства могут быть легко развернуты и не требуют серьезного сопровождения. Также в большинстве случаев аппаратное решение обладает более высокой производительностью. Однако программные компоненты, работающие на выделенных серверах, в некоторых случаях обладают большей гибкостью и возможностями более тонкой настройки. Кроме того, программные модули чаще всего обходятся значительно дешевле аппаратных. Поэтому к выбору того или иного решения необходимо подходить более чем основательно. Следующим немаловажным моментом является возможность создавать и хранить архивы корпоративной корреспонденции. Такая функциональность позволяет провести служебное расследование, не беспокоя сотрудников и не привлекая внимания. Вдобавок к тому, что хранить электронные сообщения в течение нескольких лет требуют многие нормативные акты и законы, создание централизованного почтового архива избавляет от порочной практики ареста рабочих станций служащих. Наконец, последним важным параметром является возможность выбора между программной и аппаратной реализацией модулей, отвечающих за фильтрацию сетевого трафика.

При выборе решения необходимо учитывать параметр комплексности - покрывает ли продукт все возможные каналы утечки. В противном случае данные утекут через оставленную открытой дверь. [8]


.2 Постановка задачи


Разработать программный модуль обнаружения текстовых областей в графических файлах для решения задач предотвращения утечки конфиденциальной информации.

Цель:

обеспечение информационной безопасности автоматизированной системы;

предотвращение распространения конфиденциальной информации в графических файлах.

Задача:

разработать подсистему обнаружения текстовых областей в графическом файле.

Требования:

подсистема должна выводить отчет об исследованных графических файлах;

результаты исследования должны зависеть от заданных критериев.


.2.1 Обоснование средств решения поставленной задачи

Изучив готовые решения по защите автоматизированных систем, которые существуют на данный момент и, учитывая все требования, программный модуль должен находить текстовые области в графических файлах, которые могут содержать в себе конфиденциальную информацию и сообщать о них для дальнейшего их исследования другими модулями системы защиты.

Главной особенностью данного модуля будет являться быстрое обнаружение нужных текстовых областей. Это позволит передавать на дальнейшее исследование другим модулям системы защиты для распознавания образов на предмет наличия конфиденциальной информации только те файлы, в которых содержатся текстовые области, удовлетворяющие определенным условиям. Это поможет ускорить обработку графической информации и работу системы защиты в целом, и добавит свойство комплексности системам защиты.

В основу методики взяты существующие алгоритмы обнаружения текстовых областей. Для ее реализации был выбран язык программирования Python 2.6.

1.3 Разработка алгоритма обнаружения текстовых областей в графических файлах


.3.1 Анализ алгоритмов обнаружения текстовых областей

.3.1.1 Алгоритм «Быстрое и эффективное текстовое обнаружение»

Алгоритм «Быстрое и эффективное текстовое обнаружение» разработан в Университете Дипломированного специалиста китайской Академии Наук, Пекин, Китай.


Рис 1.11 Блок-схема алгоритма «Быстрое и эффективное текстовое обнаружение»


Для оригинального изображения сначала используется «штриховой фильтр», который вычисляет горизонтальную, вертикальную и диагональные штриховые карты. Затем дважды используется SVM алгоритм, так называемый «Метод опорных векторов» чтобы классифицировать текстовые блоки, нетекстовые блоки и сам текст. [15]

1.3.1.1.1 Генерация Штриховых Карт


Рис. 1.12 Иллюстрация штрихового фильтра



Изначально цветное изображение преобразуется в полутоновое «grayscale», после чего генерируется горизонтальная, вертикальная и диагональные штриховые карты (рисунок 1.12).

Значение штрих фильтра в центральной точке зависит от значений пикселя в трех прямоугольных областях, где - три параметра, которые соответствуют ориентации, длине и ширине штриха соответственно. [15]

утечка конфиденциальная информация


Где - интенсивности пикселей по всем трем регионам;

- это стандартное отклонение интенсивности пикселей.

В этом методе формула имеет вид:


.3.1.1.2 Обнаружение блоков текста

С помощью подвижного окна размеров W*H, которое проходит по изображению SVM классификатор идентифицирует, существует ли потенциальный текстовый блок в данной позиции, покрытый подвижным окном B. Для каждого подвижного окна вычисляется «штриховая карта». Текстовые блоки обычно имеют существенные вычисленные значение по всем четырем направлениям. В данном случае используются статистические особенности в штриховых картах, чтобы фиксировать эти свойства. Конкретно, особенности включают: малое, дисперсию и взвешенную энергию.



Чтобы характеризовать пространственное распределение штрихов, мы определяем соответствующие особенности: вертикальную и горизонтальную конфигурации накопления. Для каждого подвижного окна в вертикальной штриховой карте они одинаково разделены на восемь областей прямоугольников. В каждом прямоугольнике вертикальная «VAP» вычисляется следующим образом:


Идентично и для каждого подвижного окна в горизонтальной штриховой карте:



Таким образом, каждый блок, покрытый подвижным окном, представлен 24-мерным характеристическим вектором.

По сравнению с другими классификаторами, такими как нейронная сеть, решающее дерево и другие, SVM классификатор нуждается в меньшем количестве учебных выборок и имеет лучшую способность обобщения. Таким образом, был выбран SVM классификатор, чтобы получить блоки текста кандидата.

В данном примере SVM классификатор обучался на наборе данных, состоящем из 240 текстовых блоков и 480 нетекстовых блоков. Если вывод классификатора SVM будет положительным, то пиксели в подвижном окне будут полностью помечены как текст. Двигающийся шаг подвижного окна горизонтально W / 2, вертикально H / 2. В результате создается двойное изображение маски, белые области которого представляют области текста кандидата, а черная область представляет фон. [15]

Рис. 1.13 Грубое текстовое обнаружение


.3.1.1.3 Извлечение строк текста кандидата

Как видно из рисунка 1.13, области кандидата могут покрывать несколько нетекстовых областей. Таким образом, используются следующие шаги для разделения и установления текстовых областей:

Рис 1.14 Разделение областей


Разделение области в маленькие прямоугольники (рисунок 1.14(b));

Если промежуток в горизонтальной строке меньше 1/6 длинны всей строки, то нужно объединить его (рисунок 1.14(c));

Для двух вертикально смежных прямоугольников, если ширина более короткого прямоугольника превышает 4/5 ширины более длинного, то необходимо объединить их в больший прямоугольник, высота которого - сумма их высот, а ширина - максимум ширины одного из прямоугольников (рисунок 1.14(d,e));

Если высота прямоугольника - меньше чем 1/3 высоты его вертикально смежного прямоугольника, то необходимо объединить их также как на предыдущем шаге.

Когда все прямоугольники получены, используется горизонтальный и вертикальный метод проектирования, чтобы эффективно ограничить текстовые строки. Значения интенсивности, используемые в оценке проектирования, являются суммой «откликов» в четырех штриховых картах. Для сгенерированного граничного соответствия прямоугольников текстовым строкам удалены некоторые очевидные нетекстовые прямоугольники, если их высоты не принадлежат диапазону , или их коэффициент пропорциональности превышает определенный порог . Рисунок 1.13(d) показывает конечные строки предполагаемого текста после операции проектирования. [15]


.3.1.1.4 Проверка наличия текста

Для каждого предполагаемого участка текста идет проверка новым классификатором SVM, чтобы, наконец, проверить является ли это истинной текстовой строкой.


{1.4, 1.0, 0.6, 0.2}


SVM классификатор обучался на наборе данных из 200 текстовых строк и 160 нетекстовых строк. [15]


Рис. 1.15 Проверка наличия текста


На рисунке 1.15(b, c) видно результат использования SVM классификатора.


.3.1.1.5 Экспериментальные результаты

На рисунке 1.16 показаны некоторые результаты испытания данного алгоритма.

Для количественных сравнений были взяты два показателя:

Скорость - среднее число обработанных изображений в секунду составила 12,9;

Точность - отношение правильно обнаруженных текстовых областей и имеющихся составила 91,1%.

Высокая точность заключается в том, что использование двух простых классификаторов достигает лучшей производительности, нежели использование одного сложного. [15]

Рис. 1.16 Результаты испытаний


Также существуют другие алгоритмы обнаружения тестовых областей:


.3.1.2 Алгоритм «Быстрое и устойчивое текстовое обнаружение в изображениях и видео кадрах»

Этот алгоритм разработан в Институте Вычислительных Технологий китайской Академии Наук, Китай.

В основе алгоритма лежат четыре свойства:

(1) Плотное разнообразие интенсивности;

(2) Контраст между текстом и его фоном;

(3) Структурная информация;

(4) Свойство текстуры.

Чтобы классифицировать блок изображения в текстовый или не текстовый различными моделями классификаторов, в алгоритме предложена другая структура обнаружения. Она использует эти четыре свойства. В грубом обнаружении блоки текста получаются исходя из первого и второго свойств, предполагая, что у всех текстовых областей есть плотное разнообразие интенсивности и контраст с фоном. Затем эти текстовые области с помощью третьего свойства разделяются на текстовые строки, а свойство четыре используется, чтобы отличить текст от других нетекстовых шаблонов, плотное разнообразие интенсивности которых подобно тексту.

Мы рассматриваем четыре вида особенностей текстуры, чтобы идентифицировать текстовые строки.

Они включают:

Особенности небольшой волны;

Особенности гистограммы небольшой волны;

Особенности вхождения небольшой волны;

Особенности гистограммы счета.

Используется алгоритм выбора особенности, чтобы найти эффективные особенности, и классификатор SVM, чтобы выполнить текстовую/нетекстовую задачу классификации.


Рис. 1.17 Блок-схема алгоритма


По сравнению с существующими подходами основные преимущества предложенного алгоритма следующие:

(1) Быстрое обнаружение.

(2) Обнаружение текста с изменением размера шрифта.

(3) Комбинация особенностей текстуры. В работах исследователи используют традиционные особенности текстуры, чтобы отличить текст с нетекстовыми шаблонами. В этой работе четыре вида особенностей объединены, чтобы выполнить эту задачу. Используется передовой алгоритм выбора особенности, для нахождения степени важности различных особенностей.

(4) Действительно устойчивое текстовое обнаружение. Метод может обнаружить текст в различных размерах и цветах. Он также нечувствителен к текстовой ориентации строки при использовании ориентированной области. Процедура классификации уменьшает ложные тревоги и делает метод эффективным даже в сложном фоне. [16]


.3.1.2.1 Многошкальная декомпозиция небольшой волны

Преобразование небольшой волны (рисунок 1.17) используется в этом алгоритме для хорошего определения местоположения, вычисляется с помощью отдельного фильтра как:



(а) Оригинальное изображение с различным размером текста;

(b) После преобразования.

Рис. 1.17 Двухуровневое преобразование волны



«H» и «G» - высоки и низкие полосовые фильтры соответственно, местоположения в двух уровнях декомпозиции, - многошкальное представление глубины оригинального изображения.

Текст различных размеров может быть извлечен из различных уровней декомпозиции. [16]

.3.1.2.2 Обнаружение предполагаемых участков текста

Рассмотрим рисунок 1.18:

(a) Оригинальное изображение;

(b) Пиксели кандидата в первом масштабе;

(c) Горизонтальные предполагаемые текстовые области в первом уровне;

(d) Основанный на плотности метод.

Рис 1.18 Обнаружение текстовых областей кандидатов


Рассматривая разнообразие интенсивности пикселей в текстовых областях (рисунок 1.18(b)) определяем особенность энергии небольшой волны пикселя ) в уровне n как:



Для обнаружения пикселей предполагаемой области, интегрируются коэффициенты небольшой волны в трех высокочастотных подполосах «LH», «HL» и «HH». Особенность энергии волны отражает разнообразие интенсивности вокруг пикселя в уровне n. Пиксель будет являться пикселем текста в уровне n если его энергия волны будет больше чем динамический порог:


Где является картой пикселей предполагаемых текстовых областей в уровне n как показано на рисунке 1.18(b), пиксели кандидата спроектированы в оригинальное изображение. - порог, определенный как:



Где - основной порог, значение которого 30.0, при котором текстовый пиксель может быть воспринят человеком. определен гистограммой энергии (рисунок 1.19). Значение может быть вычислено как:



гарантирует, что пиксели, которые находятся в темной области гистограммы (рисунок 1.19) будут являться пикселями предполагаемой текстовой области. Опытным путем найдено, что текстовые пиксели в изображении редко превышают 15% всех пикселей этого изображения. Поэтому выбран как 0,15. Определение таким образом может гарантировать, что текстовые области будут найдены в изображениях с различным контрастом. Для изображений с низким контрастом заменятся , это гарантирует, что большинство фоновых пикселей исключаться. С Инкрементом контраста и сложности изображения, выбран и адаптивно вычислен. И чем больше контраст в изображении, тем больше должен быть. Пиксели, контраст которых больше чем , являются пикселями текста. [16]


Рис. 1.19 Гистограмма энергии небольшой волны изображения.


.3.1.2.3Основанный на плотности рост области

Текстовая область сделана из кластера текстовых пикселей. Плотные текстовые пиксели могут создать текстовую область, изолированные - искажения. Для того чтобы соединить текстовые пиксели (блоки) в текстовые области используется специальная морфологическая операция - выращивающий метод:

(1) Ищется начальный пиксель;

(2) Если начальный пиксель «Р» найден, создается новая область. После чего итерационно собираются непомеченные пиксели кандидатов и маркируются этой областью;

(3) Если есть еще начальные пиксели, то начинается с шага (1);

(4) Маркируются найденные области как текстовые, а оставшиеся пиксели объединяются в фон.

Рисунок 1.18(d) является примером тестовых областей, найденных предложенной методикой, основанной на плотности пикселей. [16]


.3.1.2.4 Получение строк текста

Ориентация текстовых строк в области кандидата может быть как показано на рисунке 1.20


Рис. 1.20 Различна ориентация текстовых шаблонов


Много обнаруженных текстовых областей содержат многострочный текст. Специальная операция конфигурации проектирования используется, чтобы разделить эти области на текстовые строки. [16]

Текстовые и не текстовые области имеют различную дисперсию интенсивностей и пространственные распределения значений. Они вычисляются по формулам:


Особенности энергии, энтропии, инерции, местной однородности и корреляции в матрицах cо-вхождения вычислены соответственно как:



Далее все сводится опять же к обучению SVM классификатора.


Рис. 1.21 Результаты испытаний данного алгоритма


.3.1.3 Штриховой фильтр

Так как основной алгоритм базируются на штриховом фильтре, рассмотрим его более подробно.

Рис. 1.22 Блок схема Штрихового фильтра


Штриховой фильтр (рисунок 1.22) предназначен для текстовой локализации в видео и изображениях.



Рис. 1.23 Области для Штрихового фильтра

Для каждого пикселя в изображении вычисляется отклик штрихового фильтра (рисунок 1.23). Центральная точка обозначает пиксель изображения, вокруг которого есть три прямоугольных области. [17]

Штриховой отклик определятся по формуле:


- яркий штриховой отклик;

- темный штриховой отклик;


Рис. 1.24 Конфигурация Штрихового фильтра


Конечная ориентация - масштаб Штрихового фильтра определяются по формуле:


.3.1.4 Метод опорных векторов SVM

Так как во всех изученных алгоритмах используется так называемый SVM классификатор, основанный на методе опорных векторов, решено рассмотреть его более подробно.

Рассмотрим стандартную задачу классификации - пространство Rn, два класса объектов - и предположим, что классы линейно отделимы. Уравнение разделяющей гиперплоскости имеет вид , где w - нормаль к гиперплоскости. Полупространства, образуемые этой гиперплоскостью, задаются неравенствами и . Т.е. для всех точек одного класса будет выполнено первое неравенство, а для точек другого класса - второе. Таким образом, мы ищем решающую функцию в виде:



Ясно, что таких гиперплоскостей может существовать бесконечно много. Чтобы понять, какая именно нужна нам, вернемся к оценке риска классификации. В.Н. Вапником была доказана теорема, что риск классификации может быть оценен в терминах эмпирического риска (посчитанного на тренировочных данных) и слагаемого, учитывающего сложность класса функций, из которого выбирается решение:


Минимизация риска классификации эквивалентна решению следующей квадратичной задачи:



Размеры обучающей выборки следует оценивать как минимум несколькими сотнями тысяч. Это делает стандартные численные методы квадратичного программирования (метод Ньютона, прямодвойственные методы внутренней точки и другие) технически неприменимыми.

Недавно было предложено несколько интересных алгоритмов решения этой проблемы. Одни опираются на факт, что решение задачи не изменится, если из матрицы выкинуть строки и столбцы, соответствующие нулевым множителям Лагранжа. Другие предлагают решать подзадачи фиксированного размера, двигаясь в направлении наибольшего спуска целевой функции. Для решения задачи оптимизации, возникающей при обучении SVM, наиболее эффективным оказался метод, известный как Sequential Minimal Optimization (SMO).

Отличие SMO от других алгоритмов заключается в том, что на каждом шаге он решает минимально возможную подзадачу. Так как в задаче присутствует линейное ограничение, то минимальное количество множителей Лагранжа для совместной оптимизации равно двум. А для двух множителей задачу можно решить аналитически, не прибегая к численным методам квадратичного программирования. Несмотря на то, что приходится решать много подзадач, каждая из них решается настолько легко, что общее решение задачи может быть найдено очень быстро. К тому же, при таком подходе нет необходимости хранить даже часть Гессиана в памяти. Именно это алгоритм и был выбран для решения задачи оптимизации, возникающей при обучении SVM. [9, 10]


.3.2 Разработка алгоритма

Рис. 1.25 Блок-схема алгоритма

В основу моего алгоритма был взят существующий алгоритм «Быстрое и эффективное текстовое обнаружение» разработанный в Университете Дипломированного специалиста китайской Академии Наук, Пекин, Китай.


.3.2.1 Предварительная обработка изображений

Это главная функция, она включает в себя:

Нахождение размеров изображения (ширина, высота);

Перевод изображения в «Grayscale» режим;

Сжатие изображений (для тех, чей размер больше 600 пикселей по обеим сторонам);

Нахождение среднего отклонения интенсивности по всему изображению.

Перевод изображения в «Grayscale» режим так называемый «Серый» режим обязателен, это упрощает поиск «контрастных» пикселей и среднего отклонения интенсивности.

Изображение сжимается до размеров 600 пикселей по ширине или высоте, в зависимости от его пропорций.

Нахождение среднего отклонения интенсивности пикселей необходимо для того чтобы выявить «особо контрастных соседей» для каждого пикселя. Экспериментально вычислено, что именно среднее значение отклонения дает более эффективный результат, нежели среднее квадратичное.


.3.2.2 Поиск контрастных пикселей

Функция подсчитывает число «контрастных соседей» для каждого пикселя внутренней области рисунка (не лежащих на границе рисунка) и помещает результат в матрицу.

Эксперименты показали, что число 35 как пороговая разница в интенсивностях двух пикселей вполне работоспособно и очень эффективно.

Рассмотрим на примере:

08 02

56 48

30 14

У центрального «красного» пикселя разница в интенсивности больше 35 с пятью «синими» пикселями, поэтому этому пикселю присваиваем «контрастность» равную 5. В каждом квадратике, для каждого пикселя, число его «особо контрастных соседей» не может превзойти 8.


.3.2.3 Формирование списка предполагаемых текстовых областей

Алгоритм предполагает, что размер символа в шрифте лежит в промежутке от 8 до 32 пикселей.

Это основная функция, так называемая «счетчик штрихованности», аналог «Штриховых Карт». Она вычисляет степень «штрихованности» квадратного участка изображения размером 24 на 24 пикселя.

Рассмотрим подробнее:

Эта функция в окошке 24 на 24 пикселя в матрице считает количество пикселей, у которых число «особо контрастных соседей» равно 3 или 6. Это самая важная часть. Число «особо контрастных соседей» может быть от 0 до 8, но нас интересует только 3 или 6. Это связано с тем, что символ - есть набор вертикальных, горизонтальных и диагональных палочек.

Рассмотрим на примере:


###00

###00

###00

###00

###00

###00

###00


Через «#» обозначена часть буквы. Большинство ее поверхностных пикселей имеют 3 «особо контрастных соседа», угловые пиксели имеют 5, но углов в символе мало, поэтому можно проигнорировать их.

Чем больше таких пикселей в окошке, тем больше его «штрихованность». Также только для 6 «особо контрастных соседей». Это когда символ толщиной в один пиксель.

Пример:


#########00

#0000000000

#0000000000

#0000000000

#0000000000

#0000000000

#0000000000


У всех пикселей этой буквы "Г" 6 «особо контрастных соседей», кроме двух конечных пикселей - у них 7. Но конечных пикселей намного меньше "внутренних", поэтому их тоже можно проигнорировать.

Далее результаты вычисления количества «особо контрастных соседей» помещаются в массив, и вычисляется сумма количества пикселей имеющих 3 и 6 «особо контрастных соседа». С помощью нее и рассчитывается «штрихованность» окошка.


.3.2.4 Вычисление предполагаемых текстовых областей

Функция формирует список координат прямоугольных текстоподобных областей изображения путем двойного вызова функции «Формирование списка предполагаемых текстовых областей» и заполнения рабочей матрицы теми пикселями, которые попали в квадраты, прошедшие критерий на «текстоподобность».

1.3.3 Практическая реализация алгоритма

Для практической реализации алгоритма был выбран язык «Python 2.6», так как он обладает достаточным и удобным набором средств для решения поставленной задачи. Реализация алгоритма на других языках, например «С++» более трудоемкая, но скорость работы программного модуля значительно возрастет. «Python» был выбран для демонстрации работоспособности модуля и алгоритма в рамках поставленной задачи.

Разработанный программный модуль обрабатывает самые распространенные форматы графических файлов, такие как: '.bmp', '.jpg', '.jpeg', '.gif', '.png'. Модуль берет графические файлы из папки, путь к которой прописан в коде программы и, обрабатывая их, создает новые графический файлы с предполагаемыми текстовыми областями в этой же папке. Имя новых файлов выглядит как «zz_имя_файла». После того как все графические файлы в папке обработаны создается файл отчета в виде html - страницы, содержащей: входные фалы, результат обработки и описание файлов. Также в главном окне программы появляется информация по мере обрабатывания файлов и после завершения обработки (рисунок 1.26).

Рис. 1.26 Главное окно программы


В модуле есть параметры, которые отвечают за результат обработки и за определение потенциально опасных изображений, в которых может содержаться конфиденциальная информация, такие как:

Минимум для числа символов в «широком» участке текста (ns);

«Опасность» для числа всех участков (aw);

«Опасность» для числа всех "широких" участков (bw);

«Опасность» для общего числа символов во всех участках (cw).

Эти параметры можно менять в тексте программы для обеспечения различной степени фильтрации изображений и выявления потенциально «опасных». Фильтрация и выявление потенциально «опасных» изображений происходит по принципу:

Обнаружено текстоподобных участков: «Х» Из них содержащих не менее «ns» «условных» символов: «Y» .Общее число «условных» символов во всех участках: «Z», где X, Y, Z - значения, полученные в результате исследования изображения, сопоставляемые с параметрами.

Если X>aw и Y>bw - Да, то помечаем изображение как «Warning»;

Нет, то Если Z>cw - Да, помечаем изображение как «Warning»;

Нет, то изображение не помечается, где ns, аw, bw, cw - коэффициенты политики безопасности, которые вводим в коде.

Другими словами, сравниваем с заданным параметром «аw» количество «текстоподобных» участков, обнаруженных в изображении, также сравниваем количество «текстоподобных» участков содержащих «ns» «условных» символов с заданным параметром «bw». Если значения, найденные после исследования больше параметров, то на изображение ставится метка «Warning», если нет, то сравниваем общее количество «условных» символов в изображении с заданным числом «cw». Если общее количество «условных» символов в изображении больше заданного параметра, то на изображение ставится метка «Warning», если меньше, то анализируем следующие изображения.

Метка «Warning» необходима для того чтобы отметить изображение как потенциально «опасное», которое может содержать в себе конфиденциальную информацию. Для того чтобы система защиты, оснащенная данным модулем, была оповещена об «опасном» графическом файле и могла применить к нему определенные действия, например отправить на исследование другими модулями этой системы.


.3.3.1 Пример работы программного модуля

Рассмотрим пример работы модуля на графическом файле:

Исходный файл:

Рис. 1.27 Пример исследуемого изображения


В обработанном изображении выделяются предполагаемые текстовые блоки, остальное закрашивается серым фоном.

Файл после обработки:

Рис. 1.28 Результат исследования


При этом информация в отчете будет следующая:

Файл: text12.JPG;

Размеры растра: 816x891;

Имидж сжат до размеров: 600x655;

Обнаружено текстоподобных участков: 79;

Из них содержащих не менее 20 условных символов: 39;

Общее число условных символов во всех участках: 1534;

***WARNING***.

Это исследование было проведено со следующими параметрами в коде программы:

ns = 20;= 15;= 7;= 700.

Где:

Минимум для числа символов в "широком" участке текста (ns);

«Опасность» для числа всех участков (aw);

«Опасность» для числа всех "широких" участков (bw);

«Опасность» для общего числа символов во всех участках (cw).

Изображение после исследования получила метку «WARNING» потому как данные, полученные после исследования, не удовлетворяют критериям безопасности, установленным нашими параметрами. Поэтому изображение признано потенциально «опасным», то есть оно может содержать в себе конфиденциальную информацию.


.3.3.2 Особенности программного модуля

Параметр «cw» как общее число «условных» символов в изображении является глобальным параметром, который несет в себе возможность подстраховки от утечки информации, раскиданной по изображению небольшими текстовыми блоками, которые предыдущие условия могут пропустить, как не несущее в себе достаточного объема информации изображение.

Также в программном модуле есть другие особенности, которые позволяют снизить риск ложного обнаружения или наоборот - пропуска «опасного» графического файла.

Например:

(1) Если передаваемое изображение с потенциально «опасным» текстом повернуто на 90 градусов, исследуя его, текст естественно будет упущен, поэтому в модуле введена проверка изображения в перевернутом состоянии;

(2) Если «Штрихованность» предполагаемого текстового квадрата размером 24 на 24 пикселя очень большая и превосходит 3000, то это не будет являться текстовой область, так как таких плотных текстовых областей не бывает. В данной программе используется ограничение на плотность «Штрихованности» в интервале от 600 до 3000. Экспериментальным путем установлено что «Штрихованность» всех буквы и иероглифов в тексте попадает в промежуток от 600 до 3000;

(3) Сетка по своей структуре очень похожа не текст, от ее детектирования избавляемся с помощью пункта (2);

(4) Параметр «cw» как глобальный параметр, который несет функцию проверки на большое количество информации, раскиданной по изображению мелкими текстовыми блоками.


.3.3.3 Пример работы особенностей программного модуля

Рассмотрим пример работы особенностей программного модуля:

Исходный файл:

Как видно из рисунка 1.29 исследуемое изображение повернуто на 90 градусов и попадает под особенность (1).

Рис. 1.29 Пример исследуемого изображения


Файл после обработки:

Как видно из рисунка 1.30 программный модуль повернул изображение на 90 градусов и исследовал его. К сожалению, мы не можем отследить в какую сторону поворачивать изображение, поэтому результатом может оказаться перевернутое изображение. На особенность обнаружения текстовых областей это не влияет, так как текстовые блоки в любом положении не меняют своих свойств.

Рис. 1.30 Результат исследования


Исходный файл:

Как видно из рисунка 1.31 на изображении присутствует сетка и в ней текст. Оно попадает под свойства (2) и (3).

Рис. 1.31 Пример исследуемого изображения


Файл после обработки:

Как видно из рисунка 1.32 текст был успешно обнаружен, несмотря на наличие сетки, которая по своим свойствам очень походит на текстовую область, а сама сетка была проигнорирована.

Рис. 1.32 Результат исследования


.3.3.4 Пример работы программного модуля в изображениях с различным текстом и сложным фоном

Такие изображения часто используются при распространении рекламы и спам-сообщений (рисунок 1.34):

Исходный файл:

Рис. 1.33 Пример исследуемого изображения


Файл после обработки:


Рис. 1.34 Результат исследования

Пример работы модуля на немного повернутом изображении со сложным фоном (рисунок 1.36):

Исходный файл:


Рис. 1.35 Пример исследуемого изображения


Файл после обработки:


Рис. 1.36 Результат исследования

Пример работы модуля на изображении со сложным текстом (рисунок 1.38):

Исходный файл:


Рис. 1.37 Пример исследуемого изображения


Файл после обработки:


Рис. 1.38 Результат исследования


Пример работы модуля на сильно повернутом изображении со сложным текстом и фоном (рисунок 1.40):

Исходный файл:

Рис. 1.39 Пример исследуемого изображения


Файл после обработки:


Рис. 1.40 Результат исследования


1.3.3.5 Текст программы

Текст программы в Приложении 1.


.3.4 Вывод

Программный модуль разработан для обнаружения блоков текста большого объема в изображениях, которые могут содержать в себе конфиденциальную информацию. Также он хорошо работает в изображениях со сложным текстом и сложным фоном. Одним из его достоинств является то, что на обнаружение текста не влияет его размер или вид, в отличие от существующих аналогичных решений (рисунок 1.37). Главные недостатки модуля заключаются в его быстродействии и в том, что обнаружение текста будет безуспешным, если его цвет слабо отличается от фона изображения, но человеческий глаз может уловить его, или он повернут на достаточно сильный угол по отношению к ориентации изображения, как показано на рисунке 1.39. Таким образом, изучив все аспекты достоинств и недостатков разрабатываемого модуля, можно сделать вывод, что для решения поставленной задачи он подходит, но для обнаружения спама его следует усовершенствовать, что будет моим дальнейшим исследованием.


.4 Экспериментальное обоснование результатов исследования


.4.1 Выбор метода верификации

Для проведения экспериментов был выбран метод «ROC» кривых. Понятие кривых «ROC» (Receiver Operating Characteristic - функциональные характеристики приемника) взято из методологии анализа качества приёма сигнала (Signal Detection Analysis). Теория, стоящая за этим анализом, Theorie of Signal Detectability (TSD - "Теория определимости сигнала"), хотя и происходит первоначально из электроники и электротехники, но может также быть применена в любой области для анализа полученных результатов (рисунок 1.41).

Рис. 1.41 Пример построения «ROC» кривых


Для построения «ROC» кривых необходимы значения:

true positive rate (TPR) - истинная норма; positive rate (FPR) - норма ошибочного допуска.

Где TPR - позитивная истинная норма, а FPR - норма ошибочного допуска. TPR определяет производительность среди всех правильных позитивных выборок, доступных во время теста. FPR, с другой стороны, определяет, сколько неправильных позитивных результатов среди всех отрицательных выборок, доступных во время теста. [11, 12]

Они рассчитываются по формулам:


TPR = TP / P = TP / (TP + FN);

FPR = FP / N = FP / (FP + TN).


.4.2 Технология проведения экспериментов

Для проведения экспериментов и построения «ROC» кривых был взят набор из 130 графических файлов, 50 из которых содержат потенциально «опасные» текстовые области, а 80 - не содержат большого количества текстовой информации и не являются потенциально «опасными». Изображения были выбраны различной сложности и различных форматов.

В большинстве изображений присутствует сложный фон и сложный текст, различной формы и ориентации, как на рисунке 1.42, 1.43 для изображений с текстовыми областями. И сложный фон с различной контрастностью, как на рисунке 1.44 для изображений с маленькими текстовыми блоками или без текста.


Рис. 1.42 Пример изображения


Рис. 1.43 Пример изображения

Рис. 1.44 Пример изображения


Все изображения были подобраны так, чтобы расположение текстовых блоков не было повернуто под сильным углом по отношению к ориентации изображения как на рисунке 1.35. Также, чтобы текст в изображениях не сливался с фоном. Такие изображения как на рисунке 1.39 не подвергались исследованию.


.4.3 Результаты тестирования

Для построения «ROC» кривых модуль проанализировал графические файлы с различным параметрами:

Минимум для числа символов в «широком» участке текста (ns);

«Опасность» для числа всех участков (aw);

«Опасность» для числа всех "широких" участков (bw);

Параметр «cw» как общее число «условных» символов в изображении, который описан в особенностях программного модуля и присутствует в наборе основных параметров, не брался в расчет. Он является глобальным параметром и несет в себе возможность подстраховки от утечки информации, раскиданной по изображению небольшими текстовыми блоками.

Тест заключался в изменении параметров «ns», «aw» и «bw» и подсчета TPR и FPR по формулам 1.35 и 1.36 по результатам проведенного тестирования.

Эти результаты необходимы для построения «ROC» кривых:

Тестирование с параметрами:

ns = 20;

aw = 15;

bw = 7.

Воспользуемся формулами 1.35 и 1.36:


TPR = TP / P = TP / (TP + FN);

FPR = FP / N = FP / (FP + TN).


В нашем случае:

TP - это количество правильно обнаруженных изображений с текстом;

TN - это количество правильно игнорированных изображений без текста;

FN - это количество пропущенных изображений с текстом;

FP - это количество обнаруженных изображений без текста.

С данными параметрами было обнаружено 48 изображений с текстом из 50, т.е. 2 изображения были пропущены. Изображения без текста были все игнорированы. Следовательно:


TPR = 48 / (48 + 2) = 0,96;

FPR = 0 / (80 + 0) = 0.


Тестирование с параметрами:

ns = 10;

aw = 10;

bw = 3.

С данными параметрами было обнаружено 50 изображений с текстом из 50 и 2 изображения без текста были ложно помечены меткой «Warning». Следовательно:


TPR = 50 / (50 + 0) = 1;

FPR = 2 / (2 + 78) = 0,025


Тестирование с параметрами:


ns = 5;

aw = 5;

bw = 3.

TPR = 50 / (50 + 0) = 1;

FPR = 16 / (16 + 64) = 0,2.


Тестирование с параметрами:


ns = 5;

aw = 15;

bw = 5.

TPR = 49 / (49 + 1) = 0,98;

FPR = 1 / (1 + 79) = 0,0125.


Тестирование с параметрами:


ns = 10;= 5;= 5.= 50 / (0 + 50) = 1;= 3 / (3 + 77) = 0,0375.

Тестирование с параметрами:


ns = 3;

aw = 3;

bw = 1.

TPR = 50 / (0 + 50) = 1;

FPR = 28 / (28 + 52) = 0,35.


.4.4 Оценка эффективности обнаружения утечки информации

Из полученных результатов можно построить «ROC» кривую (рисунок 1.45):



Рис. 1.45 «ROC» кривая экспериментов


«ROC» кривая демонстрирует оценку эффективности обнаружения утечки информации, в зависимости от различных параметров в модуле.

Из графика видно, что эффективность будет наилучшей при параметрах, соответствующих полученным данным:


TPR = 0,98 и FPR = 0,0125.


Такими параметрами являются:

ns = 5;

aw = 15;

bw = 5.

При этих параметрах достигается эффективность порядка 98,5%. Поэтому сам алгоритм и реализованный программный модуль можно считать эффективными для определенного типа изображений, над которыми проводились эксперименты.


.4.5 Рекомендации по использованию разработанного модуля

Данный программный модуль разработан для демонстрации работоспособности алгоритма в рамках поставленной задачи. Также он может использоваться существующими системами защиты в целях предотвращения утечки конфиденциальной информации в графических файлах. Перекрывая данный канал от утечки по нему конфиденциальной информации, модуль повышает комплексность системы защиты и скорость ее работы. [14]

Пример использования данного модуля в системе защиты показан на рисунке 1.46.

Рис. 1.46 Пример использования модуля


Рисунок 1.47 Блок-схема взаимодействия модуля с другими модулями системы защиты

Пример взаимодействия данного модуля с другими модулями системы защиты показан на рисунке 1.47


.4.6 Вывод

На основании проведенных экспериментов на большом наборе из 130 изображений, которые были подобраны исходя из определенных условий, программный модуль показал эффективность - 98,5%, в соответствии с заданными критериями и условиями, что с учетом простоты его алгоритма и практической реализации можно считать очень высоким результатом. Поэтому данный модуль можно рекомендовать к использованию в различных системах защиты, с группой других модулей (рисунок 1.47), для предотвращения утечки конфиденциальной информации в графических файлах. Минусами данного модуля является его быстродействие, что можно исправить, переписав его на другой язык программирования, например «С++» и определенные условия нахождения текстовых областей в графическом файле. Устранение данных недостатков будет являться результатом моих дальнейших исследований в данной области.


2. Экологическая часть и безопасность жизнедеятельности


.1 Исследование возможных опасных и вредных факторов, возникающих при работе с ЭВМ, и их воздействие на пользователей


Любой производственный процесс, в том числе и работа с вычислительной техникой, сопряжен с появлением опасных и вредных факторов.

Опасным называется фактор, воздействие которого на человека вызывает травму, то есть внезапное повреждение организма в результате воздействия внешних факторов.

Вредным называется фактор, длительное воздействие которого на человека, приводит к профессиональным заболеваниям. Факторы различаются в зависимости от источника возникновения.


.1.1 Исследование возможных опасных и вредных факторов, возникающих при работе с ЭВМ

Питание ЭВМ производится от сети 220В. Так как безопасным для человека напряжением является напряжение 40В, то при работе на ЭВМ опасным фактором является поражение электрическим током.

В дисплее ЭВМ высоковольтный блок строчной развертки и выходного строчного трансформатора вырабатывает высокое напряжение до 25кВ для второго анода электронно-лучевой трубки. А при напряжении от 5 до 300 кВ возникает рентгеновское излучение различной жесткости, которое является вредным фактором при работе с ПЭВМ (при 15 - 25 кВ возникает мягкое рентгеновское излучение).

Развертка ЭЛТ создается напряжением с частотой:

Гц (кадровая развертка);

кГц (строчная развертка).

Следовательно, пользователь попадает в зону электромагнитного излучения низкой частоты, которое является вредным фактором.

Во время работы компьютера дисплей создает ультрафиолетовое излучение, при повышении плотности которого > 10 Вт/м2, оно становиться для человека вредным фактором. Его воздействие особенно сказывается при длительной работе с компьютером.

Во время работы компьютера вследствие явления статического электричества происходит электризация пыли и мелких частиц, которые притягивается к экрану.


.1.1.1 Вывод

При эксплуатации перечисленных элементов вычислительной техники могут возникнуть следующие опасные и вредные факторы:

поражение электрическим током;

рентгеновское излучение;

электромагнитное излучение;

ультрафиолетовое излучение;

статическое электричество.


.1.2 Анализ влияния опасных и вредных факторов на пользователя

.1.2.1 Влияние электрического тока

Электрический ток, воздействуя на человека, приводит к травмам. Такими травмами являются:

Общие травмы:

судорожное сокращение мышц, без потери сознания;

судорожное сокращение мышц, с потерей сознания;

потеря сознания с нарушением работы органов дыхания и кровообращения;

состояние клинической смерти;

Местные травмы:

электрические ожоги;

электрический знак;

электро-автольмия.

Проходя через тело человека, электрический ток оказывает следующие воздействия:

термическое (нагрев тканей и биологической среды);

электролитическое (разложение крови и плазмы);

биологическое (способность тока возбуждать и раздражать живые ткани организма);

механическое (возникает опасность механического травмирования в результате судорожного сокращения мышц).

Наиболее опасным переменным током является ток 20 - 100 Гц. Так как компьютер питается от сети переменного тока частотой 50 Гц, то этот ток является опасным для человека.


.1.2.2 Влияние рентгеновского излучения

В организме происходит:

торможение функций кроветворных органов;

нарушение нормальной свертываемости крови и т.д.


.1.2.3 Влияние электромагнитных излучений низкой частоты

Электромагнитные поля с частотой 60 Гц и выше могут инициировать изменения в клетках животных (вплоть до нарушения синтеза ДНК). В отличие от рентгеновского излучения, электромагнитные волны обладают необычным свойством: опасность их воздействия при снижении интенсивности не уменьшается, мало того, некоторые поля действуют на клетки тела только при малых интенсивностях или на конкретных частотах. Оказывается переменное электромагнитное поле, совершающее колебания с частотой порядка 60 Гц, вовлекает в аналогичные колебания молекулы любого типа, независимо от того, находятся они в мозге человека или в его теле. Результатом этого является изменение активности ферментов и клеточного иммунитета, причем сходные процессы наблюдаются в организмах при возникновении опухолей.


.1.2.4 Влияние ультрафиолетового излучения

Ультрафиолетовое излучение - электромагнитное излучение в области, которая примыкает к коротким волнам и лежит в диапазоне длин волн ~ 200 - 400 нм.

Различают следующие спектральные области:

- 280 нм - бактерицидная область спектра;

- 315 нм - зрительная область спектра (самая вредная);

- 400 нм - оздоровительная область спектра.

Синий люминофор экрана монитора вместе с ускоренными в электронно-лучевой трубке электронами являются источниками ультрафиолетового излучения. Воздействие ультрафиолетового излучения сказывается при длительной работе за компьютером. Основными источниками поражения являются глаза и кожа.

Энергетической характеристикой является плотность потока мощности [Вт/м2].

Биологический эффект воздействия определяется внесистемной единицей [эр]. 1 эр - это поток (280 - 315 нм), который соответствует потоку мощностью 1 Вт.

Воздействие ультрафиолетового излучения сказывается при длительной работе за компьютером. Максимальная доза облучения:

,5 мэр·ч/м2 за рабочую смену;

мэр·ч/ м2 в сутки.

При длительном воздействии и больших дозах могут быть следующие последствия:

серьезные повреждения глаз (катаракта);

рак кожи;

кожно-биологический эффект (гибель клеток, мутация, канцерогенные накопления);

фототоксичные реакции.


.1.2.5 Влияние статического электричества

Результаты медицинских исследований показывают, что электризованная пыль может вызвать воспаление кожи, привести к появлению угрей и даже испортить контактные линзы. Кожные заболевания лица связаны с тем, что наэлектризованный экран дисплея притягивает частицы из взвешенной в воздухе пыли, так, что вблизи него «качество» воздуха ухудшается, и оператор вынужден работать в более запыленной атмосфере. Таким же воздухом он и дышит.

Особенно стабильно электростатический эффект наблюдается у компьютеров, которые находятся в помещении с полами, покрытыми синтетическими коврами.

При повышении напряженности поля Е > 15 кВ/м, статическое электричество может вывести из строя компьютер.


.1.3 Вывод:

Из анализа воздействий опасных и вредных факторов на организм человека следует необходимость защиты от них.


.2 Способы защиты пользователей от воздействия на них опасных и вредных факторов


.2.1 Методы и средства защиты от поражения электрическим током

В помещении вычислительного центра существует опасность прикосновения одновременно к предметам, имеющим соединения с землей, и металлическому корпусу электрооборудования.

Как основной способ борьбы с опасностью поражения электрическим током (от поражения напряжением прикосновения) используется зануление.

Зануление - это преднамеренное соединение нетоковедущих металлических частей, которые могут оказаться под напряжением в результате повреждения изоляции, с нулевым защитным проводником (применяется в трехфазных сетях с заземленной нейтралью в установках до 1000 вольт).


Рис. 2.1 Защитное зануление

Для защиты используется нулевой защитный провод. В сеть вставляется предохранитель (автомат). Принцип защиты пользователей при занулении заключается в отключении сети за счет тока короткого замыкания, который вызывает перегорание предохранителя и отключает сеть.

При нормальном режиме работы сети ток, текущий через человека, можно рассчитать как:


Iч = Uф/ (Rч+r0) (2.1), где


Iч - ток, протекающий через человека [А];

Uф - фазовое напряжение (Uф = 220 В), [В];

Rч - сопротивление тела человека (Rч = 1000 Ом), [Ом];

r0 - сопротивление заземлителя (сопротивление обуви порядка 10 Ом), [Ом];

Так как r0 << Rч - следовательно, сопротивление заземлителя можно в расчет не брать.

Получается, что практически все Uф применено к телу человека и, следовательно, получается:


Iч = Uф / Rч (2.2)

Iч = 220 / 1000 = 0,22 А


Допустимые значения приложенного напряжения и протекающего через человека тока соответственно равны 36 В и 0,006 А. Полученные же при расчете цифры горазда превосходят эти значения (220 В и 0,22 А).

Рассчитаем ток короткого замыкания (Iкз) при срабатывании защитной схемы зануления и параметры предохранителя (Iном), используемого в схеме.


, (2.3), где:


Uф - фазное напряжение сети питания (Uф = 220 В), [В];

rТ - паспортная величина сопротивления обмотки трансформатора, (rТ = 0,312 Ом), [Ом].


Rобщ = r1 + r2 + r3 (2.4), где

(2.5)


? - удельное сопротивление нулевого защитного проводника (для меди ? = 0,0175 Ом·м), [Ом·м];

l - длина проводника, [м];

S - площадь поперечного сечения нулевого защитного проводника (S = 1 мм2), [мм2].

Возьмем l1 = 850 м, l2 = 150 м, l3 = 70 м;


r1 = 0,0175·850/1 = 14,875 Ом

r2 = 0,0175·150/1 =2,625 Ом

r3 = 0,0175·70/1 = 1,225 Ом

Rобщ = 14,875 Ом + 2,625 Ом + 1,225 Ом = 18,725 Ом


По величине Iкз определим, с каким Iном необходимо в цепь питания ЭВМ включать автомат.

, следовательно , (2.6) где

k - коэффициент, указывающий тип защитного устройства (в зависимости от типа автомата: k=3 для автомата с электромагнитным расщепителем).


Iном = 11,68 А / 3 = 3,9 А


Вывод:

Для отключения ПЭВМ от сети в случае короткого замыкания или других неисправностей в цепь питания ПЭВМ необходимо ставить автомат с Iном = 4 А.


.2.2 Методы и средства защиты от рентгеновского излучения

Существует 3 основных способа защиты от рентгеновского излучения:

время (работа не более 4 часов);

расстояние (не менее 50 см от экрана);

экранирование.

Необходимо придерживаться строгого графика работы - время работы за компьютером не должно превышать половины рабочей смены (4 часа).

Для рентгеновского излучения - предельно допустимая доза для людей, которые постоянно или временно работают непосредственно с источником ионизирующих излучений не должна превышать D = 0,5 бэр/год в год.

Определим уровень мощности дозы на различных расстояниях от экрана монитора по формуле:


Рri = Р0·е-m·r (2.7), где


Р0 - мощность дозы излучения на расстоянии 5 см от экрана, мкР/ч;

Prj - уровень мощности рентгеновского излучения на заданном расстоянии, мкР/ч;

r - расстояние от экрана, см;

m - коэффициент ослабления воздухом рентгеновских лучей, см-1.

Для расчета возьмем m = 3,14·10-2 см-1.


Таблица 2.1 Зависимость уровня мощности дозы от расстояния до источника:

r, см51030405060Рrj, мкР/ч1007353392821

Принимая среднее расстояние между пользователем и монитором за 60 см и зная, что годовая доза рентгеновского излучения опасная для здоровья равна 0,5Р - можно рассчитать реальную дозу радиации получаемую пользователем за год:


Dr = Di · n · n1 · n2, где - доза радиации за год;

n - нормируемое ежедневное время работы за монитором равное 4ч;

n1 - количество рабочие дней в неделю (5 дней);

n2 - количество рабочих недель в году (в среднем 43 недели);

Di - мощность дозы рентгеновского излучения на расстоянии 60 cм;


Dr = 15,2 · 4 · 5 · 43=0,013Р (бэр).


,013Р < 0,5Р (предельно допустимая доза 0,5Р значительно превосходит полученное значение дозы).


.2.2.1 Вывод:

Оператору рекомендуется находиться от монитора на расстоянии не менее 60 см.


.2.3 Методы и средства защиты от ультрафиолетового излучения

Для защиты от ультрафиолетового излучения:

защитный фильтр или специальные очки (толщина стекол 2мм, насыщенных свинцом);

одежда из фланели и поплина;

побелка стен и потолка (ослабляет на 45-50%);

мощность люминесцентных ламп не должна превышать 40 Вт.


.2.4 Методы и средства защиты от электромагнитных полей низкой частоты

Защита от электромагнитных излучений осуществляется временем, расстоянием, экранированием:

время работы - не более 4 часов;

расстояние - не менее 50 см от источника;

экранирование.

Относительно электромагнитных излучений низкой частоты можно отметить, что в современных мониторах нижний предел спектра смещен в сторону высоких частот посредством увеличения частоты кадровой развертки до 90 - 120Гц и значительно превышает наиболее опасную частоту - 60 Гц.

Чтобы уменьшить опасность надо:

не работать с открытой ЭВМ;

соблюдать расстояния между соседними ЭВМ (не < 1,5м);

исключить пребывание сбоку от монитора (? 1,2 м).


.2.5 Методы и средства защиты от статического электричества

Электростатические поля вызывают скопление пыли, попадающей на лицо и глаза оператора.

Норма: 15 кВ/м.

Защита от статического электричества и вызванных им явлений осуществляется следующими способами:

наличие контурного заземления;

использование нейтрализаторов статического электричества;

скорость подвижного воздуха в помещении должна быть не более 0,2 м/с;

отсутствие синтетических покрытий;

влажная ежедневная уборка помещения вычислительного центра для уменьшения количества пыли;

проветривание без присутствия пользователя.


.2.6 Вывод

Выбранные методы и способы защиты от опасных и вредных факторов обеспечивают защиту пользователей, работающих с вычислительной техникой.

Заключение


В результате проделанной работы проведен анализ обзор существующих систем защиты от утечки конфиденциальной информации.

Проведены исследования различных алгоритмов обнаружения текста в графических и видео файлах.

Разработан простой алгоритм обнаружения текстовых областей в графических файлах.

Разработан программный модуль обнаружения текстовых областей в графических файлах.

На основании проведенных исследований были получены эффективные результаты работы алгоритма и программного модуля. В связи с этим его можно использовать в системах защиты для выявления и предотвращения утечки конфиденциальной информации в графических файлах.


Список использованной литературы


Сузи Р.А. Язык программирования Python. - М.: БИНОМ. Лаборатория знаний, Интернет-университет информационных технологий - ИНТУИТ.ру, 2006.

Курс лекций Python. - М., #"justify">Приложение 1


Текст программы

pic_dir = 'D:/TD/Pics/test/'

ns = 20 # минимум для числа символов в "широком" участке текста;

aw = 15 # ворнинг для числа всех участков;

bw = 7 # ворнинг для числа всех "широких" участков;

cw = 700 # ворнинг для общего числа символов во всех участках;

prfx = 'zz_' # префикс для имен рез. файлов;

fmts = ('.bmp', '.jpg', '.jpeg', '.gif', '.png') # список обрабатываемых форматов файлов;

# начало строки для html отчета;

rpt = '''

<html>

<head>

<title>Отчет</title>

<META http-equiv="Content-Type" content="text/html; charset=Windows-1251">

</head>

<body style="background:#F5F5DC;">

<center>

<h3>Отчет<br>

по обнаружению текста в растровых графических файлах</h3>

</center>

<table>

<tr style="background-color:#999999;"><td>&nbsp;</td></tr>

'''PIL import Imagetext_detector(pic_dir, fn):

try:

fp = open(pic_dir + fn, 'rb')

io = Image.open(fp)

io.load()

fp.close()

except:

return -1

sz = 600

c_min = 35

dw = 24

dh = 24

d8 = ((1,1),(1,0),(1,-1),(0,-1),(-1,-1),(-1,0),(-1,1),(0,1))

w, h = io.size

global rpt

rpt += '<tr><td>Файл: ' + fn + '</td></tr>\n'

rpt += '<tr><td>Размеры растра: ' + str(w) + 'x' + str(h) + '</td></tr>\n'

if min(w, h) > sz:

rsz = sz * 1.0 / min(w, h)

w = int(0.5 + w * rsz)

h = int(0.5 + h * rsz)

io = io.resize((w, h), Image.ANTIALIAS)

rpt += '<tr><td>Имидж сжат до размеров: ' + str(w) + 'x' + str(h) + '</td></tr>\n'

im = io.convert('L')

if io.mode != 'RGB':

io = io.convert('RGB')

io2 = io.copy()

lum = [[0] * w for i in range(h)]

nei = [[0] * w for i in range(h)]

sm = 0

for i in range(h):

for j in range(w):

lum[i][j] = im.getpixel((j, i))

sm += lum[i][j]

io2.putpixel((j, i), (111,111,111))

sr = sm * 1.0 / h / w

c = 0

for i in range(h):

for j in range(w):

c += abs(sr - lum[i][j])

c = c / h / w

c = int(0.5 + c)

c = max(c, c_min)

def res_image(r):

for ri in r:

for p in range(ri[0], ri[1] + 1):

for q in range(ri[2], ri[3] + 1):

io2.putpixel((q, p), io.getpixel((q, p)))

f_out = open(pic_dir + prfx + fn, 'wb')

io2.save(f_out)

f_out.close()

def get_nei():

for i in range(1, h - 1):

for j in range(1, w - 1):

y = 0

t = set([])

for k in range(8):

if abs(lum[i][j] - lum[i + d8[k][0]][j + d8[k][1]]) > c:

y += 1

t.add(k)

if y in (3,):

if min(t) + (y - 1) == max(t) or \

t == set((6,7,0)) or t == set((7,0,1)):

nei[i][j] = y

else:

nei[i][j] = -y

else:

nei[i][j] = y

def stroke_calc(p1, q1):

p2 = min(h - 1, p1 + dh)

q2 = min(w - 1, q1 + dw)

nm = (p2 - p1) * (q2 - q1)

u = 0.0

x = [0] * 10

for i in range(p1, p2):

fl = 0

for j in range(q1, q2):

y = nei[i][j]

if y >= 0:

x[y] += 1

if y == 0:

fl += 1

if fl == q2 - q1:

u += 1.0

if 0 in x[:7] or nm > (x[3] + x[6]) * 20:

return x[9]

cnt1 = x[3] * 16 + x[6] * 16

cnt2 = x[0]

x[9] = int(cnt1 * cnt2 * 1.0 / nm)

x[9] = int(x[9] * (1 + u / (p2 - p1))**2)

if x[9] < 600 or x[9] > 3000:

x[9] = 0

return x[9]

def get_text_regions():

ww = w / dw

hh = h / dh

b = [[0] * (w + 3) for i in range(h + 1)]

for dy in (0, dh / 2):

m = [[0] * (ww + 3) for i in range(hh + 1)]

for i in range(1 + dy, h, dh):

for j in range(1, w, dw):

m[(i - 1 - dy) / dh][(j - 1) / dw] = stroke_calc(i, j)

for i in range(hh + 1):

for j in range(ww):

if m[i][j] != 0 and m[i][j + 1] != 0 and m[i][j + 2] != 0 and \

m[i][j] + m[i][j + 1] + m[i][j + 2] > 3 * 800:

m[i][ww + 2] = 1

break

for i in range(hh + 1):

if m[i][ww + 2] == 0:

continue

for j in range(ww + 1):

if m[i][j] != 0:

h1 = i * dh + 1 + dy

h2 = h1 + dh

h2 = min(h - 1, h2)

w1 = j * dw + 1

w2 = w1 + dw

w2 = min(w - 1, w2)

for p in range(h1, h2):

b[p][w + 2] = 1

for q in range(w1, w2):

if nei[p][q] != 0:

b[p][q] = 1

step = 60

for i in range(h):

if b[i][w + 2] != 0:

j = 0

cnt = 0

while j <= w - step:

if b[i][j] != 0 and b[i][j + 1] != 0 and b[i][j + 2] != 0:

sm = sum(b[i][j:j + step])

if sm > step * 0.4:

for k in range(j, j + step):

b[i][k] += 2

cnt += 1

j += step

else:

j += 1

else:

j += 1

if cnt == 0:

b[i] = [0] * (w + 3)

else:

b[i][w + 2] = cnt

cnt = 0

for i in range(h + 1):

if b[i][w + 2] == 0:

if cnt > 0 and cnt < 8:

for ii in range(i - cnt, i):

b[ii] = [0] * (w + 3)

cnt = 0

else:

cnt += 1

r = []

for i in range(h):

for j in range(w):

if b[i][j] > 1:

cnt = 1

x1 = w

x2 = 0

y1 = h

y2 = 0

b[i][j] *= -1

v = [[i, j]]

while len(v) != 0:

ww = []

for vv in v:

for k in range(8):

yy = vv[0] + d8[k][0]

xx = vv[1] + d8[k][1]

if xx < 0 or xx >= w or yy < 0 or yy >= h:

continue

if b[yy][xx] > 1:

b[yy][xx] *= -1

ww += [[yy, xx]]

x1 = min(x1, xx)

x2 = max(x2, xx)

y1 = min(y1, yy)

y2 = max(y2, yy)

v = ww[:]

cnt += len(v)

dx = x2 - x1 + 1

dy = y2 - y1 + 1

pl = cnt * 1.0 / dx / dy

if pl > 0.5 and dy > 6 and dy < 45 and dx >= dy * 3:

r += [[y1, y2, x1, x2, dx / dy]]

return r

get_nei()

r1 = get_text_regions()

ans = r1

rot_or_not = 20

if len(r1) < rot_or_not:

nei0 = nei[:]

w, h = h, w

nei = [[0] * w for i in range(h)]

for i in range(h):

for j in range(w):

nei[i][j] = nei0[j][h - i - 1]

r2 = get_text_regions()

if sum((ri[4] for ri in r2)) > sum((ri[4] for ri in r1)): # bug in text11.jpg;

ans = r2

io = io.transpose(Image.ROTATE_90)

io2 = io2.transpose(Image.ROTATE_90)

if len(ans) == 0:

rpt += '<tr><td>Текстоподобных участков не обнаружено!</td></tr>\n'

rpt += '<tr><td><img src="' + fn + '">'

rpt += '<tr style="background-color:#999999;"><td>&nbsp;</td></tr>\n'

return 0

else:

res_image(ans)

cnt = 0

nss = 0

for ai in ans:

nss += ai[4]

if ai[4] >= ns:

cnt += 1

rpt += '<tr><td>Обнаружено текстоподобных участков: ' + str(len(ans)) + '</td></tr>\n'

rpt += '<tr><td>Из них содержащих не менее %d условных символов: '%ns + str(cnt) + '</td></tr>\n'

rpt += '<tr><td>Общее число условных символов во всех участках: ' + str(nss) + '</td></tr>\n'

if (len(ans) >= aw and cnt >= bw) or nss >= cw:

rpt += '<tr><td><font color=red><h3>***WARNING***</h3></font></td></tr>\n'

rpt += '<tr><td><img src="' + fn + '"> '

rpt += '<img src="' + prfx + fn + '"></td></tr>\n'

rpt += '<tr style="background-color:#999999;"><td>&nbsp;</td></tr>\n'

return len(ans)ostime import time= time()= 0= 0= os.listdir(pic_dir).sort()fn in ld:

if fn[-4:].lower() not in fmts or fn.startswith(prfx):

continue

tf = time()

print 'Обрабатывается файл:', fn

res = text_detector(pic_dir, fn)

if res != -1:

sch1 += 1

if res != 0:

sch2 += 1

print 'Обнаружено текстоподобных участков:', res

print 'Время обработки (сек): %.2f'%(time() - tf)

print

else:

print 'Ошибка открытия или чтения файла!'

print+= '<tr style="background-color:#004400;"><td>&nbsp;</td></tr>\n' += '<tr><td>Текстоподобные участки были обнаружены в %d из %d файлов'%(sch2, sch1) + '</td></tr>\n'

rpt += '<tr><td>Общее время обработки составило (сек): %.2f'%(time() - tm) + '</td></tr>\n'

rpt += '<tr style="background-color:#004400;"><td>&nbsp;</td></tr>'+= '</table>\n</body>\n</html>\n'= open(pic_dir + 'report.html', 'wt').write(rpt).close()

'Текстоподобные участки были обнаружены в %d из %d файлов'%(sch2, sch1)

print 'Общее время обработки составило (сек): %.2f'%(time() - tm)


Приложение 2


Руководство программиста

.1 Назначение и условия применения программы

Программа разработана для существующих систем защиты от утечки конфиденциальной информации, с учетом всех требований и условий ее работы. Она необходима для того, чтобы перекрыть возможный канал утечки конфиденциальной информации в графических файлах и тем самым повысить комплексность системы защиты в целом.

Основные функции программы:

Анализ графических файлов;

Выявление текстовых областей, удовлетворяющих заданным критериям;

Вывод отчета об исследованных графических файлах;

Пометка потенциально «опасных» изображений.

Для работы программного модуля необходим установленный на ПК язык программирования Python 2.6 и графическая библиотека к нему.

.2 Характеристика программы

Программный модуль можно рекомендовать к использованию в различных системах защиты, с группой других модулей, для предотвращения утечки конфиденциальной информации в графических файлах. Минусом данного модуля является его быстродействие, что можно исправить, переписав его на другой язык программирования, например С++.

Правильность работы данного модуля была проверена с помощью тестирования, суть его изложена в пункте 1.4 Экспериментальное обоснование результатов исследования.

.3 Обращение к программе

Предполагается, что обращение к модулю производит система защиты, когда необходимо проанализировать графический файл.

Отдельно программный модуль можно протестировать путем вызова его из консоли языка программирования и указав в коде папку с графическими файлами.

.4 Входные и выходные данные

Входными и выходными данными являются графические файлы до и после обработки соответственно. В эту же папку помещается отчет об исследованных графических файлах.

.5 Сообщения

В главном окне программы появляется информация, какой файл исследуется в данный момент и время обработки каждого исследованного файла. В конце исследования, в главном окне программы, появляется общее время обработки и количество файлов с предполагаемыми текстовыми областями.



Введение На сегодняшний день автоматизированные системы являются основой обеспечения практически любых бизнес-процессов, как в коммерческих, так и в госу

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ