Разработка алгоритма и программы автоматической обработки материалов для информационного ресурса

 

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ

БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ им. проф. М.А. БОНЧ-БРУЕВИЧА»








Дипломный проект на тему

Разработка алгоритма и программы автоматической обработки материалов для информационного ресурса













Санкт-Петербург 2013 г.

Реферат


В материалах пояснительной записки к дипломному проекту рассмотрены вопросы организации автоматической процедуры формирования тестов, для проверки потенциала знаний учащихся, прошедших ознакомление с текстовыми материалами, которые являются основой компьютерного - программного синтеза набора тестов, реализуемых в интерактивном режиме с учетом особенностей построения фраз и словосочетаний естественного языка


Abstract

materials of the explanatory note to the degree project questions of the organization of automatic procedure of formation of tests, for check of potential of knowledge of the pupils who have passed acquaintance with text materials which are a basis computer - program synthesis of a set of the tests realized in an interactive mode taking into account features of creation of phrases and phrases of a natural language are considered


Введение


Повсеместное использование компьютеров и широкого набора программных продуктов, сформировало новые представления о возможности разработки и создания интеллектуальных агентов, на основе программных модулей, обладающих большими возможностями усиления творческих усилий человека. Принимая во внимание исторически сложившиеся представления о знаниях, в широком смысле понимания этого термина, основу для создания интеллектуальных агентов составили тексты, чтение которых обогащало человека новыми познаниями. В общем понимании познания можно позиционировать двумя категориями. К первой категории относят общедоступные познания, которые, будучи воспроизведены в тексте или вербально воспринимаются слушателем однозначно и могут быть интерпретированы различным способом для решения практических задач. Вторая категория знаний приобретается посредством целевого изучения набора материалов, например, текстов. Формат текстового документа исторически использовался в обучающем процессе. Текстовый документ, по современным представлениям может быть представлен и в электронном формате. Не акцентируя внимание на семантических аспектах такого позиционирования одного и того же текстового документа, отметим, что прочтение и усвоение знаний, представленных в текстовом документе, требует определенных навыков у читателя, а также является в высшей степени индивидуальным процессом. Следуя этим представлениям, организация учебного процесса - процесса приобретения знаний из текстового документа, обязательно требует проведения тест процедур.

Подготовка тест процедур по заданному набору текстовых материалов исполняется с учетом специфики аудитории тестируемых и, естественно, с учетом базовых знаний. Наличие базовых знаний об обсуждаемой теме, представленной в текстовом документе, может быть приобретено ранее, либо создается непосредственно в процессе прочтения текста. Знания, приобретенные ранее и повторно воспроизводимые в прочитываемом тексте, позволяют сформировать устойчивые долговременные ассоциации - образы тематических сюжетов текстового документа.

Создание устойчивых образов часто требуется для большого количества сфер практической деятельности человека. В качестве примера обычно рассматривают навыки так называемой категории служащих - «синих воротничков». Для такой категории очень важно иметь базовые профессиональные навыки исполнения определенных конкретных работ, причем посредством определенного инструмента и технологий.

Очевидно, с течением времени происходит смена технологий проведения работ, например, электрического монтажа в офисе, жилом помещении. Меняется инструментарий.

Сохранение прежних базовых практических навыков сохраняется, но требует знания новых технологических процедур, умения обращаться с новыми инструментами. На этом этапе целесообразно проводить обучение, ориентированное на приобретение новых знаний.

Такие знания, приобретаемые на основе прочтения текстового материала, требуют проверки. В ряде случаев можно рекомендовать проводить самопроверку, когда служащий после прочтения очередного текстового документа - регламентирующего исполнений определенных работ, самостоятельно осуществляет тест проверку собственных знаний. Аналогично можно рекомендовать проверку знаний, полученных впервые.

Организация тест процедур, для проверки знаний, выделяет две взаимодействующих персоны: обучаемого и преподавателя.

Для преподавателя актуальной задачей является создание или подбор учебного материала, представленного текстом.

Обучаемый знакомясь - прочитывая текст или воспринимая его вербально, со слов преподавателя получает знания. В образовательном процессе часто используется прием «самостоятельного ознакомления с учебным материалом».

Такой прием включает индивидуальные механизмы восприятия потенциала знаний, благодаря которым создается долговременный образ.

Все эти методологические приемы передачи знаний можно расширить, однако следует указать, что после завершения обучающего процесса обязательно требуется провести тестирование.

В современной практике, где повсеместно используются компьютеры и программные продукты, тестирование принято организовывать на тест материалах преподавателя. Тест процедуры формируются преподавателем на основе обучающего текстового материала.

Естественно, чем обширнее исходный текстовый материал, тем продолжительнее период подготовки тестов. В целом, весь процесс подготовки тестов достаточно трудоемок и реализуется посредством использования современных текстовых процессоров, например, таких Word.

Такой же вывод следует сделать и в том случае, когда для передачи знаний требовалось несколько текстовых документов. Тесты создаются преподавателем в формате текстовых фраз. В примитивном варианте предполагаемого ответа для таких фраз используется формат бинарного ответа - да или нет. В сложной формулировке вопроса от обучаемого требуется синтезировать некоторую реплику - суждение.

Следуя введенным представлениям и принимая во внимание актуальность процедуры проверки знаний, в работе представлен материал по разработке алгоритма и программы, позволяющей в автоматическом режиме составить список тестов по исходному текстовому материалу. Отличительной характеристикой такой автоматизированной процедуры является возможность подготовки тестов текстовому материалу, с учетом заранее представленной базы общедоступных знаний, которые позиционируются в виде тезауруса, иначе говоря, словоформ по избранной для подготовки специалиста тематике.

В материалах пояснительной записки последовательно представлены стадии разработки, а также приведены результаты предварительного исследования программы, в рамках европейского проекта RAIL BALTICA GROWTH CORRIDOR, где планируется осуществить дистанционный процесс подготовки специалистов в области транспорта.


Глава 1. Электронный документ


.1 Информационное содержание документа


Для того, что бы понять, что есть информационное содержание документа, необходимо прояснить, что вообще обозначает термин электронный документ. Существует несколько, взаимозаменяющих и дополняющих друг друга определений.

Электронный документ - это информация, зафиксированная на материальном носителе в виде набора символов, звукозаписи или изображения и предназначенная для передачи во времени и пространстве с использованием средств вычислительной техники и электросвязи с целью хранения и общественного использования.

Другое определение говорит нам, что электронный документ, есть форма представления информации в целях ее подготовки, отправления, получения или хранения с помощью электронных технических средств, зафиксированная на магнитном диске, магнитной ленте, лазерном диске и ином электронном материальном носителе.

Самым лаконичным, является следующее определение: документ, в котором информация представлена в электронно-цифровой форме.

Фактически, электронный документ, лишь способом представления отличается от бумажного документа, и имеет те же характеристики, информационное содержание и информационную ёмкость.

Информационное содержание отражает характер и спецификацию информации, представленной в данном документе. Варианты информации могут варьироваться от технической документации и научного труда, до публицистики или художественного эссе. Классификации, в основу которых положен признак содержания (смысла) документа, называют семантическими. В них производится деление на виды и подвиды в соответствии с признаком содержания документа по отраслям знаний, темам, предметам, проблемам.

Однако независимо от рода представленной информации, имеет место быть, различная информационная ёмкость электронных документов. Документ создается для хранения и передачи социальной информации во времени и/или пространстве. Именно документ организует, систематизирует информацию, дает ее в фиксированном виде. В любом документе она подается в определенном порядке, обобщении, взаимосвязи различных данных.

В документе информация и ее носитель генетически связаны воедино. Однако для понимания сущности документа необходимо условно разделить информационную и материальную стороны документа и рассмотреть их отдельно.

Слово «информация» (лат. informatio - разъяснение, изложение) имеет множество значений, из которых наиболее общее и широкое - «отраженное многообразие». Такое значение позволяет рассматривать как информационные многие процессы, происходящие в технических механизмах, живой и неживой природе, в обществе.

Информационную ёмкость документа следует понимать, как количество информации, содержащейся в документе, рассчитываемое на основе суммирования весов смысловых дескрипторов - слов и словосочетаний. Количество информации - в теории информации это количество информации в одном случайном объекте относительно другого. Исходя из этого, крайне сложно рассчитать реальную информационную ёмкость электронного документа, хотя сделать это относительно другого документа представляется возможным.

Электронный документ, содержащий некую информацию, открывает понятие информационного потока, потока данных со смысловым (семантическим) содержанием. Рассматривать этот поток, удобнее всего применительно к некой области действия документа или работы какой либо организации. Информационный поток - совокупность информации, необходимая для осуществления работы системы.

Для каждого, реального объекта технологической работы системы, существует своя информационная копия. Например: некий груз имеет накладную квитанцию, больной в больнице - историю болезни, школьник - дневник или классный журнал. Информационный поток, составленный из этих информационных копий, выходит за границы данной системы. Рассмотрим для примера процесс обучения школьников.


Рисунок 1.1 Схема информационных потоков учебного заведения


Информация о проведении занятий запускает функционирование следующих технологических процессов. Возникает и встречный поток информации: отчёты об успеваемости и посещаемости. Видно, что документы и их информационные копии, могут запускать информационные потоки в различных направлениях и различной информационной ёмкости.


.2 Виды электронных документов


Электронный документ может использоваться во всех сферах деятельности, где применяются программные и технические средства, необходимые для создания, обработки, хранения, передачи и приема информации. С помощью электронных документов могут совершаться сделки (заключаться договоры), производиться расчеты, осуществляться переписка и передача документов и иной информации.

Электронные документы могут содержать в себе информацию определённого типа, либо смешанного.


Рисунок 1.2 Виды электронных документов


Следует отметить, что у электронного документа, существует больше видов, что говорит о его несомненном преимуществе. Однако наиболее распространёнными, являются текстовые и графические документы.

Текстовые документ представляет из себя последовательность символов (в основном печатных знаков, принадлежащих тому или иному набору символов). Это символы обычно сгруппированы в строки. В современных системах строки разделяются разделителями строк, в прошлом же применялось хранение строк в виде записей постоянной или переменной длины (например на перфокартах). Текстовой документ может содержать как форматированный, так и неформатированный текст.

Графический документ представляет собой файл, содержащий информационную модель изображения объекта, предназначенную для использования в той или иной области компьютерной графики или специально с тем или иным программным средством. Каждому типу графических документов соответствует формат графического файла. Форматом графического файла называется стандартизованная структура данных, в которую преобразуется графический документ при записи на носитель для последующей обработки и хранения.

В документах смешанного типа, совмещены два и более видов представления данных. Их преимуществом является возможность визуализации информации документа, для лучшего понимания и усвоения.


.3 Электронный документооборот


Документооборот - движение документов в организации с момента их создания или получения до завершения исполнения или отправления (ГОСТ Р 51141-98); комплекс работ с документами: приём, регистрация, рассылка, контроль исполнения, формирование дел, хранение и повторное использование документации, справочная работа.

Электронный документооборот (ЭДО) - единый механизм по работе с документами, представленными в электронном виде, с реализацией концепции «безбумажного делопроизводства».

Виды обработки электронных документов бывают нескольких типов:

Общие виды обработки:

·Создание

·Редактирование

·Сохранение

·Переименование

·Перемещение по маршруту

·Помещение в папку

·Индексирование

·Удаление

Специализированные виды обработки:

·Экспертиза

·Согласование, визирование, подписание

·Регистрация

·Классификация

·Исполнение

·Контроль

·Связывание документов по ссылкам

·Поиск

·И другие, определяемые спецификой.

Обработка документа в электронном виде осуществляется в рамках документационного процесса в пределах тех прав доступа, которые предоставлены сотрудникам, являющимся ролями в маршруте документа.

В каждой отрасли или в разных видах деятельности при обработке документов как в бумажном, так и в автоматизированном виде имеется своя специфика, связанная с различиями как в составах обрабатываемых документов, так и в процедурах обработки. В связи с этим для автоматизации специфичных документационных процессов применяются разные системы. Также существует несколько видов документооборота.


Рисунок 1.3 Виды документооборота


Автоматизированный документооборот предназначен для решения большого спектра задач.


Рисунок 1.4 Задачи автоматизированного документооборота


Кроме выше перечисленного, современные СЭД так же реализует дополнительные задачи, которые раньше выполняли отдельные программы:

·Оперативный обмен информацией и документами - вместо электронной почты и интернет пейджеров

·Просмотр ленты новостей компании, ознакомление с опубликованными документами - вместо интернет порталов

·Работа с органайзером и списком персональных поручений - вместо ежедневников

Исходя из задач, стоящих перед автоматизацией документационных процессов, определяется набор требуемых функций, которые должна реализовывать система документооборота:

·Создание атрибутных карточек документов

·Прикрепление к карточкам документов файлов произвольных типов

·Формирование текста документа из предопределённого шаблона с подстановкой в него значений переменных, которые могут быть в карточке документа или базе данных

·Создание версий документов

·Формирование образа электронного документа на бланке с использованием шаблонов

·Сохранение образа документа в файл pdf или Word

·Управление правами доступа пользователей

·Создание маршрутов документов

·Управление движением документов по маршрутам

·Рассылка участникам документационных процессов уведомлений и напоминаний

·Ведение журналов документов

·Ведение справочников и классификаторов

·Регистрация и классификация регистрируемых в СЭД документов

·Формирование поручений

·Поиск карточек документов

·Подписание документов электронной цифровой подписью

·Формирование отчётов и статистики о движении документов

К общесистемным функциям автоматизированного документооборота можно отнести:

·Возможность удалённой работы с документами через интернет

·Использование информационного хранилища СУБД для хранения документов и метаданных

·Возможность одновременной работы с СЭД

·Обеспечение информационной безопасности

·Персональная аутентификация пользователей СЭД

oШифрование трафика

oРолевая модель управления доступом

1.4 Авторская идентификация документа


Авторская принадлежность документа, а также его идентификация, всегда являлись актуальным вопросом. У традиционного бумажного документа, существует несколько способов идентификации, например по почерку автора или по его подписи. К сожалению эти способы абсолютно не применимы к электронному документу. Однако существует возможность подписания такого рода документа Электронной Цифровой Подписью (ЭЦП).

Электронная подпись (ЭП), Электронная цифровая подпись (ЭЦП) - информация в электронной форме, присоединенная к другой информации в электронной форме (электронный документ) или иным образом связанная с такой информацией. Используется для определения лица, подписавшего информацию (электронный документ).

По своему существу электронная подпись представляет собой реквизит электронного документа, позволяющий установить отсутствие искажения информации в электронном документе с момента формирования ЭП и проверить принадлежность подписи владельцу сертификата ключа ЭП. Значение реквизита получается в результате криптографического преобразования информации с использованием закрытого ключа ЭП.

Электронная подпись предназначена для идентификации лица, подписавшего электронный документ, и является полноценной заменой (аналогом) собственноручной подписи в случаях, предусмотренных законом.


Рисунок 1.5 Схема возможностей ЭЦП


Существует несколько схем построения цифровой подписи. Первая схема на основе алгоритмов симметричного шифрования. Данная схема предусматривает наличие в системе третьего лица - арбитра, пользующегося доверием обеих сторон. Авторизацией документа является сам факт шифрования его секретным ключом и передача его арбитру.

Вторая схема построения цифровой подписи - на основе алгоритмов асимметричного шифрования. На данный момент такие схемы ЭП наиболее распространены и находят широкое применение.


Рисунок 1.6 Варианты схем построения ЭЦП


В России юридически значимый сертификат электронной подписи выдаёт удостоверяющий центр. Правовые условия использования электронной цифровой подписи в электронных документах регламентирует Федеральный закон Российской Федерации от 6 апреля 2011 г. N 63-ФЗ «Об электронной подписи».


.5 Электронные ресурсы


В настоящее время происходит процесс становления и развития электронных ресурсов, так называемых "сетевых электронных библиотек" и они пользуются очень большой популярностью. Электронная библиотека - это информационная система, позволяющая надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (текстовых, изобразительных, звуковых, видео и др.), локализованных в самой системе, а также доступных ей через телекоммуникационные сети. Электронную библиотеку можно рассматривать как нетиражируемое электронное издание архивных документов.

В России на смену советской системе книгоиздания, состоявшей из 230-250 издательств, пришла совершенно иная структура. Лицензии на право ведения издательской деятельности сегодня имеют более 15 тысяч юридических и физических лиц, отвечающих требованиям Закона РФ "О средствах массовой информации". Как и для большинства развитых стран характерна дифференциация издательств по масштабам и направлениям работы. Постоянно растет число книготорговых организаций, имеющих выход в Интернет. Сегодня Интернет имеют более 300 издательско-книготорговых организаций. Библиотеки являются активными участниками книжного рынка и довольно успешно ведут бизнес, имеют возможность привлекать авторов, оплачивать их творческую работу. Практически все крупные российские библиотеки имеют компьютерные средства, компьютерные сети, работают с Интернетом, переходят к электронным версиям печатных изданий.

Сегодня, в России существуют и создаются электронные библиотеки по самым различным направлениям и на основании самых разных принципов: от гигантской (по российским меркам) библиотеки Машкова, до "цифровой библиотеки коллекции первопечатных славянских книг". Существуют небольшие электронные библиотеки по жанрам (поэзия, проза серебряного века и т.д.), по авторам (Пушкина, Цветаевой, Владимира Высоцкого и т.д.), по событиям (1812 года и др.) Однако деятельность электронных библиотек законодательно не регулируется.

В рамках архива-библиотеки должны быть решены следующие задачи:

·выявление источников комплектования и организация экспертизы ценности электронных копий архивного хранения для формирования страхового фонда;

·формирование электронного каталога как формы реализации НСА;

·фондирование и составление описей фондов в электронном виде как форма реализации учетных функций;

·участие в межархивном обмене дубликатами страхового фонда электронных копий;

·формирование фонда пользования как в локальных, так и сетевых формах доведения до потребителей, представление материалов фонда пользования в электронных публикациях;

·обеспечение сохранности информационных массивов и реализация автоматизированного поиска и доведения информации до конечного потребителя.

В России в соответствии со ст.16 ФЗ "Об авторском праве и смежных правах", автору в отношении созданного им произведения принадлежат исключительные имущественные права на его использование в любой форме и любым способом, в том числе право на воспроизведение, распространение, сообщение для всеобщего сведения по кабелю. Все перечисленные имущественные авторские права могут передаваться другим лицам только на основании авторского договора, который заключается в письменной форме и его существенным условием является размер авторского вознаграждения.

Однако цифровые копии произведений могут использоваться без согласия обладателя исключительных авторских прав и без выплаты ему вознаграждения исключительно в личных целях. Сюда можно отнести домашние компьютерные библиотеки и архивы, экземпляры цифровой подписи, предназначенные для личного использования. Электронные библиотеки, доступ к которым не ограничивается кругом семьи их создателя, под нормы о "свободном" использовании не подпадают. Библиотеки создаваемые, в сети Internet или при учебных заведениях для свободного посещения, корпоративные библиотеки и даже традиционные публичные библиотеки, желающие увековечить свои старые фонды, должны оформить отношения с обладателем исключительных авторских прав еще до начала использования электронных копий произведений.

Также необходимо определить правовой статус Интернет и других электронных библиотек. В соответствии с Федеральным законом "О библиотечном деле" библиотекой является информационное, культурное, образовательное учреждение, располагающее организованным фондом тиражированных документов и представляющее их во временное пользование физическим и юридическим лицам.


.6 Интеллектуальные основы защиты электронных документов


Впервые термин "электронный документ" был юридически закреплен в Федеральном законе "Об электронной цифровой подписи" от 10.01.2002 года: Электронный документ - это документ, в котором информация представлена в электронно-цифровой форме.

июля 2006 года вступил в силу новый Федеральный закон "Об информации, информационных технологиях и о защите информации" № 149-ФЗ. Статья 1 посвящена сфере действия закона. Она практически ничем не отличается от статьи 1 ФЗ "Об информации, информатизации и защите информации. Федеральный закон "Об информации, информационных технологиях и о защите информации регулирует отношения, которые возникают при осуществлении права на поиск, получение, передачу, производство и распространение информации; применении информационных технологий; обеспечении защиты информации.

В ФЗ "Об информации, информационных технологиях и о защите информации" были исключены бывшие в законе 1995 года термины: "информатизация", "информационные процессы", "информационные ресурсы", "информация о гражданах", "средства обеспечения автоматизированных информационных систем и их технологий", "собственник информационных ресурсов, информационных систем и технологий и средств их обеспечения", "владелец информационных ресурсов, информационных систем, технологий и средств их обеспечения", пользователь информации.

ФЗ "Об информации, информационных технологиях и о защите информации" расширил понятие "информация": "Информация - сведения (сообщения, данные) независимо от их представления". В данном контексте термин "информация" становится универсальным, он обозначает любые сведения о ком-либо или о чем-либо, получаемые из любого источника в любой форме: письменной, устной, визуальной и т.д.

В ФЗ "Об информации, информационных технологиях и о защите информации" вызывает множество вопросов определение "документированной информации". Согласно закону документированная информация - это информация, зафиксированная на материальном носителе путем документирования информации. Однако, в ст.11 - Документирование информации, не поясняется, что же такое процесс документирования по существу.

Основной недостаток данного закона состоит в том, что его положения прописаны недостаточно четко, и это прежде всего касается понятийного аппарата. Однако, несомненным достижением является включение в закон статьи, приводящей в единообразие состояние делопроизводства в государственных органах и органах местного самоуправления и приравнивающей электронное сообщение, подписанное электронной цифровой подписью или иным аналогом собственноручной подписи, к бумажному документу, подписанному собственноручной подписью.

июля 2007 года был введен в действие новый стандарт в области делопроизводства - Гост Р ИСО 15489-1-2007 "Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования". Он был создан на основе международного стандарта ISO 15489-1: 2001 "Information and documentation. Records management" ("Информация и документация - Управление документами").

Создание и внедрение стандартов, в практику работы организаций, позволяет не допустить хаоса в сферах документационного и информационного обеспечения управления. Для России это является наиболее актуальным, так как государство фактически не регулирует делопроизводство.

Стандарт регулирует процессы управления документами государственных, коммерческих и общественных организаций. Положения стандарта являются рекомендациями в отношении создания систем управления документами, включения в них документов, а также обеспечения соответствия подлинных документов установленным в стандарте характеристикам (аутентичность, достоверность, целостность, пригодность для использования и др.). Действие Гост Р ИСО 15489-1-2007 распространяется на документы всех форматов и на всех носителях (в том числе и на электронных), создаваемые или получаемые государственной, коммерческой или общественной организацией в процессе ее деятельности или лицом, на которого возложена такая обязанность.

Федеральным законом "О техническом регулировании" от 27.12.2002 № 184 ФЗ было установлено, что стандарт носит рекомендательный характер. Но несмотря на это стандарт содержит руководящие указания по управлению документами в рамках процессов управления качеством и окружающей средой в соответствии с национальными стандартами ГОСТ Р ИСО 9001 и ГОСТ Р ИСО 14001 и обязателен для исполнения в организациях, аттестующихся на соответствии системам менеджмента качества (СМК).

Действие Гост Р ИСО 15489-1-2007 не распространяется на управление архивными документами в архивных учреждениях, но несмотря на это в нем подчеркивается значимость архивной службы при привлечении ее к участию в процессе планирования и внедрения политики процедур управления документами.

В заключении, необходимо отметить, что Гост Р ИСО 15489-1-2007 "Система стандартов по информации, библиотечному и издательскому делу. Общие требования" распространяет единые правила и процедуры управления документами на государственный и частный сектор экономики.


Глава 2. Обработка электронного документа


2.1 Кодирование информации


Кодирование - это процесс преобразования сообщения в комбинацию символов в соответствии с кодом называется кодированием, процесс восстановления сообщения из комбинации символов называется декодированием.

Код - правило (алгоритм) сопоставления каждому конкретному сообщению строго определённой комбинации символов (знаков) (или сигналов). Кодом также называется отдельная комбинация таких символов (знаков) - слово. Для различия этих терминов, код в последнем значении ещё называется кодовым словом.

В машинах изначально используется двоичное кодирование для обработки всей информации. Двоичный код - это способ представления данных в одном разряде в виде комбинации двух знаков, обычно обозначаемых цифрами 0 и 1. Разряд в этом случае называется двоичным разрядом. В случае обозначения цифрами "0" и "1", возможные состояния двоичного разряда наделяются качественным соотношением "1" > "0" и количественными значениями чисел "0" и "1". Используя два двоичных разряда можно закодировать четыре различные комбинации: 00 01 10 11, три двоичных разряда - восемь: 000 001 010 011 100 101 110 111, и так далее. При увеличении разрядности позиционного двоичного кода на 1, количество различных комбинаций в позиционном двоичном коде удваивается.

Двоичные коды являются комбинациями двух элементов и не являются двоичной системой счисления, но используются в ней как основа. Двоичный код также может использоваться для кодирования чисел в системах счисления с любым другим основанием. Пример: в двоично-десятичном кодировании (BCD) используется двоичный код для кодирования чисел в десятичной системе счисления.

При кодировании алфавитно-цифровых символов (знаков) двоичному коду не приписываются весовые коэффициенты, как это делается в системах счисления, в которых двоичный код используется для представления чисел, а используется только порядковый номер кода из множества размещений с повторениями. В системах счисления k-разрядный двоичный код, (k-1)-разрядный двоичный код, (k-2)-разрядный двоичный код и т. д. могут отображать одно и то же число. Например, 0001, 001, 01, 1 - одно и то же число - «1» в двоичных кодах с разным числом разрядов - k.

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера.

В процессе вывода символа на экран компьютера производится обратный процесс - декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствуют различные символы. В настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

Широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а N = 216 = = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows&Office (начиная с 1997 года).


Рисунок 2.1 Виды представления символов в разных кодировках


Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. Например, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово "ЭВМ", тогда как в других кодировках это будет бессмысленный набор символов.

Однако, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.


.2 Стандарты кодирования


При вводе текстовой информации в компьютер символы (буквы, цифры, знаки) кодируются с помощью различных кодовых систем, которые состоят из набора кодовых таблиц, размещенных на соответствующих страницах стандартов для кодирования текстовой информации. В таких таблицах каждому символу присваивается определенный числовой код в шестнадцатеричной или десятичной системе счисления, т. е. кодовые таблицы отражают соответствие между изображениями символов и числовыми кодами и предназначены для кодирования и декодирования текстовой информации. При вводе текстовой информации с помощью клавиатуры компьютера каждый вводимый символ подвергается кодированию, т. е. преобразуется в числовой код, при выводе текстовой информации на устройство вывода компьютера (дисплей, принтер или плоттер) по числовому коду символа строится его изображение. Присвоение символу определенного числового кода является результатом соглашения между соответствующими организациями разных стран. В настоящее время нет единой универсальной кодовой таблицы, удовлетворяющей буквам национальных алфавитов разных стран.

Современные кодовые таблицы включают в себя международную и национальную части, т. е. содержат буквы латинского и национального алфавитов, цифры, знаки арифметических операций и препинания, математические и управляющие символы, символы псевдографики. Международная часть кодовой таблицы, базирующаяся на стандарте ASCII (American Standard Code for Information Interchange), кодирует первую половину символов кодовой таблицы с числовыми кодами от 0 до 7F, или в десятичной системе счисления от 0 до 127. При этом коды от 0 до 20 (0 ? 32) отведены функциональным клавишам (F1, F2, F3 и т. д.) клавиатуры персонального компьютера.- американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов. ASCII представляет собой кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов. Изначально разработанная как 7-битная, с широким распространением 8-битного байта ASCII стала восприниматься как половина 8-битной. В компьютерах обычно используют расширения ASCII с задействованным 8-м битом и второй половиной кодовой таблицы.


Рисунок 2.2 Пример международной части кодовой таблицы ASCII


Также существуют и другие стандарты кодирования. Один из них - Unicode. Unicode - стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» ( Unicode Consortium, Unicode Inc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.

Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, universal character set) и семейство кодировок ( UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам - элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F

К концу 1980-х годов стандартом стали 8-битные символы, при этом существовало множество разных 8-битных кодировок. Это объяснялось как постоянным расширением круга поддерживаемых языков. В результате появилось несколько проблем


Рисунок 2.3 Виды проблем и варианты их решений для Unicode


Консорциум Юникода работает в тесной связи с рабочей группой ISO/IEC/JTC1/SC2/WG2, которая занимается разработкой международного стандарта 10646 (ISO/IEC 10646). Между стандартом Юникода и ISO/IEC 10646 установлена синхронизация, хотя каждый стандарт использует свою терминологию и систему документации.

Сотрудничество Консорциума Юникода с Международной организацией по стандартизации ( International Organization for Standardization, ISO) началось в 1991 году. В 1993 году ISO выпустила стандарт DIS 10646.1. Для синхронизации с ним Консорциум утвердил стандарт Юникода версии 1.1, в который были внесены дополнительные символы из DIS 10646.1. В результате значения закодированных символов в Unicode 1.1 и DIS 10646.1 полностью совпали.

В дальнейшем сотрудничество двух организаций продолжилось. В 2000 году стандарт Unicode 3.0 был синхронизирован с ISO/IEC 10646-1:2000. Предстоящая третья версия ISO/IEC 10646 будет синхронизирована с Unicode 4.0. Возможно, эти спецификации даже будут опубликованы как единый стандарт.

Аналогично форматам UTF-16 и UTF-32 в стандарте Юникода, стандарт ISO/IEC 10646 также имеет две основные формы кодирования символов: UCS-2 (2 байта на символ, аналогично UTF-16) и UCS-4 (4 байта на символ, аналогично UTF-32). UCS значит универсальный многооктетный (многобайтовый) кодированный набор символов (universal multiple-octet coded character set). UCS-2 можно считать подмножеством UTF-16 (UTF-16 без суррогатных пар), а UCS-4 является синонимом для UTF-32.


.3 Форматы представления текстовых файлов


Формат файлов определяет способ хранения текста в файле. Простейший формат содержит только числовые коды символов, другие форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Существуют универсальные форматы и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текста из одного формата в другой используются специальные программы - конвертеры.

Расширение имени файла (filename extension, часто говорят просто расширение файла или расширение) - последовательность символов, добавляемых к имени файла и предназначенных для идентификации типа (формата) файла. Это один из распространённых способов, с помощью которых пользователь или программное обеспечение компьютера может определить тип данных, хранящихся в файле.

Расширение обычно отделяется от основной части имени файла точкой. В операционных системах CP/M и MS-DOS длина расширения была ограничена тремя символами, в современных операционных системах это ограничение отсутствует. Иногда могут использоваться несколько расширений, следующих друг за другом, например, «.tar.gz».


Рисунок 2.4 Графическое представление некоторых текстовых форматов


Начнём рассмотрение текстовых расширений с формата TXT. Он является изначальным, простейшим текстовым форматом. Текст хранится в виде последовательности символов и размер файла в байтах равен числу символов, плюс непечатаемые, такие как пробел, абзац и др. За счёт этого достигается малый размер файла. Однако возможности по форматированию подобных документов сильно ограничены. Легко переводиться в формат DOC и DOCX. Фактически расширение .txt служит лишь для открытия текста в программе по умолчанию.

Следующим, рассмотрим формат doc. Формат .DOC или .doc - расширение имени файла, используемое для файлов, представляющих текст, с разметкой или без.

Расширение .DOC часто использовалось для обозначения простых текстовых файлов без форматирования, однако позже стало использоваться для двоичных форматов с разметкой.

В 1990-х корпорация Microsoft стала использовать расширение для серии форматов файлов своего текстового процессора Microsoft Word. В результате монополии Microsoft на рынке офисных продуктов «DOC» стало синонимом этого формата файлов. Другие значения расширения «.doc» практически вышли из употребления на платформе IBM PC.

Двоичные файлы формата DOC содержат большее количество информации о форматировании текста (например, сценарии), чем файлы документов, использующие другие форматы Microsoft (RTF и др.), но хуже совместимы с текстовыми редакторами сторонних разработчиков. И сами файлы, созданные Microsoft Word разных версий, не всегда совместимы между собой.

С появлением Microsoft Office 2007, компания Microsoft перешла на новые форматы, базирующиеся на Office Open XML . Office Open XML (OOXML, DOCX, проект ISO/IEC) - серия форматов файлов для хранения электронных документов пакетов офисных. Формат представляет собой zip-архив, содержащий текст в виде XML, графику и другие данные, которые могут быть переведены в последовательность битов (сериализованы) с применением защищённых патентами двоичных форматов, спецификации которых были опубликованы Microsoft для пользователей OOXML на условиях Microsoft Open Specification Promise.

Первоначально формат создавался как замена прежнему двоичному формату документов, который использовали приложения Microsoft Office вплоть до версии Office 2003 включительно. В 2006 году формат Office Open XML был объявлен свободным и открытым форматом Ecma International. Он является форматом по умолчанию для приложений Microsoft Office 2007 и более поздних версий.(Open Document Format, for Office Application) - открытый формат файлов документов для хранения и обмена редактируемыми офисными документами, в том числе текстовыми документами (такими как заметки, отчёты и книги), электронными таблицами, рисунками, базами данных, презентациями.

Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате. 1 мая 2006 года принят как международный стандарт ISO/IEC 26300.

Стандарт был совместно и публично разработан различными организациями, доступен для всех и может быть использован без ограничений. Open Document представляет собой альтернативу частным закрытым форматам, (включая Word (.doc), Excel (.xls) и PowerPoint (.ppt) - форматы, используемые в Microsoft Office 97-2003), а также формату Microsoft Office Open XML.Document является единственным стандартом для редактируемых офисных документов, утверждённым независимым комитетом по стандартам и реализованным несколькими поставщиками программного обеспечения. Open Document может быть использован любым поставщиком ПО, включая, в том числе, поставщиков закрытого программного обеспечения и разработчиков, использующих GNU GPL.(Portable Document Format) - кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции, - значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ как таковой готовится в своей специализированной программе - графической программе или текстовом редакторе, САПР и т. д., а затем экспортируется в формат PDF для распространения в электронном виде, передачи в типографию и т. п. PDF с 1 июля 2008 года является открытым стандартом ISO 32000.

Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации.

Чаще всего PDF-файл является комбинацией текста с растровой и векторной графикой, реже - текста с формами, JavaScript, 3D-графикой и другими типами элементов.- технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов - книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами и т. д.стал основой для нескольких библиотек научных книг. Он довольно популярен, и в нём делается большое количество разных документов.

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет - преобразования, а маска - алгоритмом JB2.

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.

Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. В присутствии сложного заднего плана выигрыш объёма составляет обычно 4-10 раз. Однако при стандартных настройках в DjVu используется сжатие данных с потерями, поэтому для особо важных документов обычно используются форматы сжатия без потерь: PNG, JPEG 2000, TIFF и т. п. В DjVu также можно использовать и сжатие данных без потерь. Так например утилита CJB2 из пакета DjVuLibre предоставляет сжатие без потерь.

Последним из рассматриваемых форматов, будет формат HTML. HTML (Hyper Text Markup Language) - стандартный язык разметки документов в интернете. Большинство веб-страниц создаются при помощи языка HTML (или XHTML). Язык HTML интерпретируется браузерами и отображается в виде документа в удобной для человека форме.является приложением («частным случаем») SGML (стандартного обобщённого языка разметки) и соответствует международному стандарту ISO 8879. XHTML же является приложением XML.

Изначально язык HTML был задуман и создан как средство структурирования и форматирования документов без их привязки к средствам воспроизведения (отображения). В идеале, текст с разметкой HTML должен был без стилистических и структурных искажений воспроизводиться на оборудовании с различной технической оснащённостью (цветной экран современного компьютера, монохромный экран органайзера, ограниченный по размерам экран мобильного телефона или устройства и программы голосового воспроизведения текстов). Однако современное применение HTML очень далеко от его изначальной задачи. Например, тег <TABLE>, несколько раз использованный для форматирования страницы, которую вы на данный момент читаете, предназначен для создания в документах самых обычных таблиц, но, как можно убедиться, здесь нет ни одной таблицы. С течением времени основная идея платформонезависимости языка HTML была принесена в жертву современным потребностям в мультимедийном и графическом оформлении.- теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причём начало и конец каждого элемента обозначается специальными пометками - тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных (например, тег перевода строки <br>). В этом случае обычно не указывается закрывающий тег. Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, размер шрифта для элемента font). Атрибуты указываются в открывающем теге.


2.4 Текстовые процессоры и редакторы


Текстовый процессор - компьютерная программа, используемая для написания и модификации документов, компоновки макета текста и предварительного просмотра документов в том виде, в котором они будут напечатаны (свойство, известное как WYSIWYG).

Современные текстовые процессоры помимо форматирования шрифтов и абзацев и проверки орфографии включают возможности, ранее присущим лишь настольным издательским системам, в том числе создание таблиц и вставку графических изображений.

Наиболее известными примерами текстовых процессоров являются Microsoft Word и OpenOffice.org Writer.

Текстовыми процессорами в 1970-е - 1980-е годы называли предназначенные для набора и печати текстов машины индивидуального и офисного использования, состоящие из клавиатуры, встроенного компьютера для простейшего редактирования текста, а также электрического печатного устройства. Позднее наименование «текстовый процессор» стало использоваться для компьютерных программ, предназначенных для аналогичного использования.

Программы для работы с текстами можно разделить на простые текстовые процессоры, мощные текстовые процессоры и издательские системы.

Текстовый редактор - самостоятельная компьютерная программа или компонент программного комплекса (например, редактор исходного кода интегрированной среды разработки или окно ввода в браузере), предназначенная для создания и изменения текстовых данных вообще и текстовых файлов в частности.

Построчный (строковый) текстовый редактор ( line editor) работает с текстом как последовательностью пронумерованных строк, выполняя операции над текстом в указанных строках. Примером такого редактора может быть edlin, входивший в состав MS-DOS. Контекстный (строковый) редактор (context editor), примером которого может быть ECCE ( Edinburgh Compatible Context Editor), выполняет операции над текстом в текущей позиции.

Экранный текстовый редактор позволяет пользователю перемещать курсор в тексте с помощью клавиш или других устройств ввода.

Текстовые редакторы предназначены для работы с текстовыми файлами в интерактивном режиме. Они позволяют просматривать содержимое текстовых файлов и производить над ними различные действия вставку, удаление и копирование текста, контекстный поиск и замену, сортировку строк, просмотр кодов символов и конвертацию кодировок, печать и т. п.

Рассмотрим основные виды редакторов.- простой текстовый редактор, являющийся частью операционных систем Microsoft Windows, начиная с вышедшей в 1985 году Windows 1.0, и Windows NT. Также "Блокнот" присутствует в операционной системе Windows 8.

Блокнот использует оконный класс EDIT. Вплоть до вышедшей в 2000 году Windows Me поддерживались только самые базовые функции, многие функции были доступны только из меню, а максимальный размер файла составлял 64 килобайта (предел класса EDIT). В настоящее время редактор поддерживает контекстную замену, горячие клавиши, снят предел в 64 Кбайт и добавлена поддержка Юникода.

Кроме Windows, Блокнот способен выполняться также в ReactOS и Wine.

Альтернативой Блокноту является текстовый редактор MS-DOS (EDIT.COM), который можно вызвать из командной строки в виде «edit».

Блокнот не способен корректно работать с файлами в текстовом формате Unix, где символом переноса является байт с кодом 10, в отличие от Windows и DOS, где используются байты 13, 10.

Существует множество бесплатных более функциональных программ, заменяющих стандартный Блокнот, например: Bred, AkelPad, BDV Notepad, EditPad Lite, TED Notepad, PSPad, Notepad++ и Notepad2. Они были особенно полезны в системах Windows версий 4.x, в которых функциональность Блокнота предельно ограничена.

Следующим рассмотрим текстовый процессор WordPad. WordPad - текстовый процессор, входящий в состав Microsoft Windows, начиная с Windows 95. Обладает большим набором инструментов, чем Блокнот, но не дотягивает до уровня полноценного текстового процессора вроде Microsoft Word или OpenOffice.org Writer. WordPad представляет собой эволюционировавшую версию программы Windows Write из Windows 1.0.

Поддерживает форматирование и печать текста, но не имеет ряда таких важных инструментов как таблицы и средств проверки орфографии.

Предшественник WordPad, редактор Write, сохранял файлы в собственном формате .wri. Ранние версии WordPad также позволяли открывать файлы в этом формате, позже поддержка .wri была убрана.

Собственного формата файлов WordPad не имеет. Фактически основным форматом, используемым этим редактором, является формат RTF. Кроме того, вплоть до Windows XP (включительно) WordPad поддерживал также формат .doc (Word 6.0 - 2003), однако лишь в той степени, в какой позволяли возможности этого редактора. В версии для Windows XP возможность сохранения файлов в формате .doc отсутствует, а в версии для Windows Vista нет возможности и открывать подобные файлы.

Версия WordPad входящая в состав Windows 7 поддерживает работу с новыми форматами документов - Office Open XML (.docx) и OpenDocument (.odt).Word - текстовый процессор, предназначенный для создания, просмотра и редактирования текстовых документов, с локальным применением простейших форм таблично-матричных алгоритмов. Выпускается корпорацией Microsoft в составе пакета Microsoft Office. Первая версия была написана Ричардом Броди (Richard Brodie) для IBM PC, использующих DOS, в 1983 году. Позднее выпускались версии для Apple Macintosh (1984), SCO UNIX и Microsoft Windows (1989). Текущей версией является Microsoft Office Word 2013 для Windows и Microsoft Office Word 2011 для Mac.

Microsoft Word является наиболее популярным из используемых в данный момент текстовых процессоров, что сделало его бинарный формат документа стандартом де-факто, и многие конкурирующие программы имеют поддержку совместимости с данным форматом. Расширение «.doc» на платформе IBM PC стало синонимом двоичного формата Word 97-2000. Фильтры экспорта и импорта в данный формат присутствуют в большинстве текстовых процессоров. Формат документа разных версий Word меняется, различия бывают довольно тонкими. Форматирование, нормально выглядящее в последней версии, может не отображаться в старых версиях программы, однако есть ограниченная возможность сохранения документа с потерей части форматирования для открытия в старых версиях продукта. Последняя версия MS Word 2007 «использует по умолчанию» формат, основанный на XML, - Microsoft Office Open XML. Спецификации форматов файлов Word 97-2007 были опубликованы Microsoft в 2008 году. Ранее большая часть информации, нужной для работы с данным форматом, добывалась посредством обратного инжиниринга, поскольку основная её часть отсутствовала в открытом доступе или была доступна лишь ограниченному числу партнёров и контролирующих организаций.

Как и прочие приложения из Microsoft Office, Word может расширять свои возможности посредством использования встроенного макроязыка (сначала использовался WordBasic, с версии Word 97 применяется VBA - Visual Basic для приложений). Однако это предоставляет широкие возможности для написания встраиваемых в документы вирусов (так называемые «макровирусы»).

В последних версия MS Office 2007 \ 2010 компания Microsoft использует стойкий алгоритм шифрования AES с 128-битным ключом. Формирование ключа происходит путем 50000 \ 100000 кратного применения SHA-1 хэш функции, что делает перебор паролей крайне медленным, и при использовании стойкого пароля шансы его подобрать близки к нулю.Acrobat - пакет программ, выпускаемый компанией Adobe Systems для создания и просмотра электронных публикаций в формате PDF. Он был создан в 1993 году. Существует несколько версий пакета, отличающихся возможностями: Adobe Acrobat Standard, Adobe Acrobat Professional, Adobe Acrobat Professional Extended (бывший Adobe Acrobat 3D) и Adobe Acrobat Elements. Разработка Adobe Acrobat Professional Extended прекращена, поддержка для Acrobat 9 Pro Extended продлится до 26 июня 2013 года, а для Acrobat 3D версии 8 - до 29 мая 2012 года. Для просмотра и печати публикаций (без возможности редактирования) доступен бесплатный Adobe Reader. Десятая версия пакета программ Acrobat X вышла в 3-х редакциях: Acrobat X Standard, Acrobat X Pro и Acrobat X Suite. Acrobat Professional, начиная с версии 7.0, содержит в себе Adobe Live Cycle Designer. Acrobat Suite дополнительно содержит: Captivate (включая Media Encoder), Photoshop и Presenter. В версии XI Adobe Live Cycle Designer заменён более упрощённой программой - Adobe Forms Central. С версии XI в линейке Acrobat прекращается дальнейшее развитие Acrobat Suite, пользователям которым нужны мультимедийные и коммуникационные функции предлагается приобрести Adobe eLearning Suite, который содержит в себе все программы входившие ранее в Acrobat Suite.

Foxit Reader - бесплатное прикладное программное обеспечение, для просмотра электронных документов в стандарте PDF, для операционных систем: Windows, Windows Mobile, Linux, Android, iOS и Symbian. Программа создана как альтернатива пакету Adobe Reader, по сравнению с которым имеет меньший объём (15.7 Мб, против 37,2 Мб у Adobe Reader X), меньшую требовательность к ресурсам и более высокое быстродействие.- программа, предназначена для просмотра файлов в формате DjVu. Программа поддерживает два языка: русский и английский. Два языка включено в ее поддержку, так как она написана русскоговорящими разработчиками.

Поддержка просмотра как в однооконном так и в двухоконном режимах. Широкая настройка яркости и контрастности изображения, дает возможность подобрать оптимальное для глаз пользователя положение, при котором будет удобно и комфортно читать с экрана компьютера. Реализована полная индексация не только страниц но и содержания. Программа DjVuReader поддерживает копирование в буфер обмена как текста так и изображения. В программе DjVuReader появилась возможность открывать все вкладки в одном окне - не нужно держать в трее множество копий программ. Данная поддержка реализована так же как и в современных браузерах, которые уже давно поддерживают данную функцию.

Программная часть продукта DjVuReader начинается с того, что данный проект был полностью написан в среде разработки Borland C Builder 6. Как заверяют разработчики они писали программу для себя, так как файлы в формате DjVu удобны в хранении, их никто никогда не взламывает и места они занимают не много. При написании программы DjVuReader за основу была взята другая программа, которая базировалась на операционной системе Linux, а именно - DjVuLibre 3.5.12, из которой был взят исходный код, распространяющийся бесплатно. После этого была построена DLL модель под VC-7 и уже написана программа для устройств под управлением операционной системы Windows. С помощью программы DjVuReader любой пользователь может внедрить в файл с расширением DjVu собственное содержание, другими словами, разбить его как удобно. Однако данное дерево нельзя будет увидеть в аналогичных программах, которые позволяют просматривать файлы в формате DjVu.

Последней рассматриваемой программой, будет Microsoft Excel. Microsoft Excel - программа для работы с электронными таблицами, созданная корпорацией Microsoft для Microsoft Windows, Windows NT и Mac OS. Она предоставляет возможности экономико-статистических расчетов, графические инструменты и, за исключением Excel 2008 под Mac OS X, язык макропрограммирования VBA (Visual Basic for Application). Microsoft Excel входит в состав Microsoft Office и на сегодняшний день Excel является одним из наиболее популярных приложений в мире. Microsoft Excel обладает широкой областью применения.


Рисунок 2.5 Области применения Microsoft Excel


В Microsoft Excel вплоть до 2003 версии включительно, использовался свой собственный бинарный формат файлов (BIFF) в качестве основного. Excel 2007 использует Microsoft Office Open XML в качестве своего основного формата.

Несмотря на то, что Excel 2007 поддерживает и направлен на использование новых XML-форматов в качестве основных, он по-прежнему совместим с традиционными бинарными форматами. Кроме того, большинство версий Microsoft Excel могут читать CSV, DBF, SYLK, DIF и другие форматы.Excel 2007, наряду с другими продуктами Microsoft Office 2007, вводит множество новых форматов файлов. Они являются частью Office Open XML (OOXML) спецификации .API позволяет открывать таблицы Excel в ряде других приложений. Это включает в себя открытие документов Excel на веб-страницах с помощью ActiveX или таких плагинов, как Adobe Flash Player. Проект Apache POI представляет Java-библиотеки для чтения и записи электронных таблиц Excel. Также предпринимались попытки копировать таблицы Excel в веб-приложения с использованием разделённых запятыми значений (CSV).

Глава 3. Семантика электронных документов


.1 Единицы языка


Единица языка - элемент системы языка, неразложимый в рамках определённого уровня членения текста и противопоставленный другим единицам в подсистеме языка, соответствующей этому уровню. Может быть разложима на единицы низшего уровня.

В отношении разложимости различают простые и сложные единицы: простые абсолютно неделимы (морфема как значимая единица, фонема); сложные делимы, однако деление обязательно обнаруживает единицы низшего языкового уровня. Единицы языка делятся по признаку звуковой оболочки.


Рисунок 3.1. Типы единиц языка по признаку звуковой оболочки


Единицы языка вступают друг с другом в отношения трёх типов:

·парадигматические;

·синтагматические;

·иерархические (менее сложные единицы низших уровней входят в единицы высших).

Отношения первых двух типов возможны лишь между единицами, относящимися к одному уровню.

Также в семантике существует понятие парадигмы. Парадигма - словоизменительная парадигма - в лингвистике список словоформ, принадлежащих одной лексеме и имеющих разные грамматические значения. Обычно представлена в виде таблицы.

Обычно парадигмы упорядочены в некотором традиционном порядке граммем, например, парадигма русского склонения записывается в порядке падежей.


Таблица 3.1 Порядок падежей русского языка

ПадежВопросПримерИменительныйКто? Что?СемантикаРодительныйКого? Чего?СемантикиДательныйКому? Чему?СемантикеВинительныйКого? Что?СемантикаТворительныйКем? Чем?СемантикойПредложныйО ком? О Чём?О семантике

Парадигма личного спряжения в европейских языках записывается обычно в порядке «иду -идёшь -идёт» (и соответственно лица называются первым, вторым и третьим), а, например, в арабском языке порядок обратный.

Существуют морфологические теории, считающие именно парадигмы центральным понятием морфологии, а членение слова на морфемы - факультативным или вторичным.

Синтагма - совокупность нескольких слов, объединённых по принципу семантико-грамматически-фонетической сочетаемости, единица синтагматики. Объём конкретной синтагмы определяется не только реальным употреблением слов в связке, но и самой сочетаемостью - возможностью объединения предметов, признаков и процессов окружающей действительности.

Минимальной длиной синтагмы следует считать простые словосочетания, однако размер их может достигать целой фразы, поэтому понятия «синтагма» и «словосочетание» не всегда совпадают.

Несколько другое понимание термина обнаруживается в фонетике, где синтагмой именуется относительно законченный по смыслу отрезок речевой цепи, границы которого определяются только просодическими средствами. В данном случае, синтагма - фонетическое единство, выражающее единое смысловое целое в процессе речи-мысли и могущее состоять как из одной ритмической группы, так и из целого ряда их.


3.2 Информационная семантика


Информационная семантика - это направление в моделировании смысла фраз на естественном языке, основанное на анализе количества переданной информации.

Естественный язык (ЕЯ) представляет знаковую систему, отражающую жизненный опыт человека и его взаимодействия с окружением в форме, приспособленной для передачи другим людям и для организации собственного оптимального поведения.

Жизненно полезный опыт животных сохраняется в накопленном объеме интуитивного восприятия, в зрительных и слуховых образах. Человек сохраняет намного больший объем информации, причем не только в виде расплывчатых картин прошлого, но и в дискретных конструкциях естественного языка. Известно, что несмотря на огромный объем информации, поступающей на органы чувств, усваивается и остается в памяти человека только ее малая часть. По измерениям нейрофизиологов усваивается в среднем около 30 бит в секунду или 100-200 слов в минуту (около 7 бит абстрактной информации и около 60 бит образной информации).

ЕЯ выполняет две главные функции: служит средством коммуникации и одновременно является средством моделирования явлений окружающего мира. Эта вторая функция языка осуществляется путем запоминания всего множества ситуаций, в которых оказывался человек, и организацией механизмов оперативного извлечения этой информации. ЕЯ позволяет хранить информацию в дискретном виде, что обеспечивает защиту от искажений. Образная часть информации нанизывается на цепочки букв и слов ЕЯ и образует хронологически развивающийся гипертекст.

Полноценное понимание ЕЯ достигается вместе с созреванием человека, когда его суммарный лингвистический опыт (СЛО) достигает десять в десятой степени бит (около 200 миллионов слов). До последнего времени не было устройств, способных оперировать с такими большими объемами информации. Современная компьютерная техника подошла к рубежу, за которым открываются принципиально новые возможности работы с ЕЯ. На повестке дня стоит решение проблемы обеспечения полноценного интерфейса человека с компьютером и начала эры партнерства человека с компьютерными системами. Смысл фраз ЕЯ может имеет двоякое толкование.

С одной стороны, можно считать осмысленными те фразы, которые связаны с поведением и целями носителя языка, а с другой стороны, понятие смысла связывается с информацией, с моделированием внешнего мира и взаимодействия с ним и в передаче информации. Первая концепция смысла носит преходящий характер, меняется в зависимости от ситуации и поведения индивидуума, и она является связана с употреблением ЕЯ, а не с его неотъемлемыми характеристиками. Эту часть смысла целесообразно не связывать с семантикой языка, а относить ее к прагматике. Ее можно называть интересом. Вторая интерпретация семантики представляет предмет изучения теоретической лингвистики.

Таким образом, объектом семантических исследований является информационная система, позволяющая накапливать опыт и моделировать в языковой форме поведение человека. Поэтому конкретная семантика, изучающая смысловое содержание слов и фраз ЕЯ, должна опираться на статистические методы. В 1960 г. Е. Делавней предложил термин. Статистическая семантика и определил ее как статистическое изучение смысла слов по их частотности и порядку следования. Этот термин вошел в энциклопедию. Познавательная (информационная) функция ЕЯ становится главным предметом семантических исследований. Статистический подход предполагает относительный характер смысловых отношений в зависимости от СЛО человечества, индивидуумов или текстов отдельных документов. Соответственно можно говорить о теоретической семантике языка, о семантике языка индивидуальных носителей языка и о семантике языка книг и документов.

Традиционная теоретическая лингвистика изучает формальные системы смысловых связей, выработанные человечеством, в то время как конкретное наполнение смысловых связей остается за рамками этой дисциплины. Только за последнее десятилетие появилась техническая возможность изучать конкретное наполнения СЛО и возникающие в нем связи - конкретную семантику. СЛО человека формируется в процессе взаимодействия с окружающим миром. Человек живет в мире, который постоянно, но относительно медленно, изменяется. Поэтому можно предположить, что статистические характеристики СЛО по мере накопления опыта становятся все более устойчивыми и все более концентрируют жизненно важную информацию.

В математической формулировке накопление СЛО можно рассматривать как стационарный случайный процесс, с частотами событий, которые стремятся к некоторым переделам. Эти гипотетические пределы определяют генеральную совокупность, характеризующую индивидуума, а СЛО индивидуума в каждый момент времени можно рассматривать как накапливаемый выборочный материал. В первом приближении удобно пренебречь дискурсом и предположить, что предложения и фразы следуют в СЛО статистически независимо. Тогда СЛО представляет выборку из множества независимых реализаций предложений или фраз ЕЯ.

В информационном подходе к анализу текстов совершенно случайный текст связывается с произвольной ничего не значащей информацией ("статистическим шумом"). Значимую информацию несут закономерности в чередовании букв и слов в тексте. При отсутствии априорной информации единственный способ идентификации этих закономерностей состоит в регистрации повторений фрагментов текста в СЛО. Каждое априори достаточно маловероятное повторение фрагмента текста в корпусе несет информацию о закономерностях в текстах ЕЯ и о закономерностях в опыте взаимодействия человека с окружением. Для оценки вероятности повторения фрагментов текста следует ввести Н0-гипотезу об отсутствии закономерностей, то есть о случайном следовании слов в тексте. Повторение некоторых фрагментов в корпусе может быть настолько маловероятным, что его можно считать не случайным, а специально предусмотренным.

В рамках информационной концепции смысл каждой фразы, каждого предложения и документа определяется лишь только на фоне предыдущего (или объемлющего) текста и измеряется количеством новой информации, которую этот фрагмент несет. Рассмотрим задачу излечения терминов из научных документов. Пусть для статистического выявления смысла привлекаются контрастные фоновые тексты.

Пусть X - текст изучаемого документа.

Пусть R - достаточно полный корпус текстов из области науки, содержащей X .

Пусть T - достаточно полный корпус фоновых общенаучных или общеязыковых документов.

Тогда слово или фраза х из X считается термином, если x содержится в R, но x не содержится в T .

Слово или фраза х из Х не считается термином, если х содержится в Т.

Слово или фраза х из X считается авторским выражением (авторским клише), если x содержится в T , но x не содержится в R.

Выделение смысловых областей текста, одна из задач семантики. В рассматриваемом проекте, используется так называемая семантика научных публикаций. Научную терминологию обычно выделяют с опорой на имеющиеся специальные словари. Для автоматического извлечения терминов можно использовать разницу частот слов и фраз в текстах выбранной узкой специальности на фоне текстов более широких областей ("вычитание частот", "контрастный метод").


Рисунок 3.2 Извлечения смысловой области


Комбинация этих методов дает возможность эффективно извлекать также многословную терминологию. Однако, этот способ выделения терминов эффективен только при обработке всех или большинства общепринятых в выбранной области науки источников. Поэтому фоновые тексты должны включать достаточно большие корпусы как общенаучных, так и общелитературных текстов. Повторение пар слов в статьях и книгах на ЕЯ априори достаточно маловероятно. Поэтому каждую повторяющуюся пару слов можно считать структурным элементом и использовать его для анализа смысла. Анализ пар с успехом используется в компьютерных системах для выделения терминов и анализа смысла текстов. Фактически извлекаемая область может носить название семантического поля, а объединяющим фактором всех словоформ, будет специализация исходного текста.

3.3 Семантическое поле


Семантическое поле, термин, применяемый в лингвистике чаще всего для обозначения совокупности языковых единиц, объединенных каким-то общим (интегральным) семантическим признаком; иными словами - имеющих некоторый общий нетривиальный компонент значения. Первоначально в роли таких лексических единиц рассматривали единицы лексического уровня - слова; позже в лингвистических трудах появились описания семантических полей, включающих также словосочетания и предложения.

Одним из классических примеров семантического поля может служить поле цветообозначений, состоящее из нескольких цветовых рядов (красный - розовый - розоватый - малиновый; синий - голубой - голубоватый - бирюзовый и т.д.): общим семантическим компонентом здесь является 'цвет'.

Семантическое поле обладает следующими основными свойствами:

·Семантическое поле интуитивно понятно носителю языка и обладает для него психологической реальностью.

·Семантическое поле автономно и может быть выделено как самостоятельная подсистема языка.

·Единицы семантического поля связаны теми или иными системными семантическими отношениями.

·Каждое семантическое поле связано с другими семантическими полями языка и в совокупности с ними образует языковую систему.

В основе теории семантических полей лежит представление о существовании в языке некоторых семантических групп и о возможности вхождения языковых единиц в одну или несколько таких групп. В частности, словарный состав языка (лексика) может быть представлен как набор отдельных групп слов, объединенных различными отношениями: синонимическими (хвастать - похваляться), антонимическими (говорить - молчать) и т.п.

Элементы отдельного семантического поля связаны регулярными и системными отношениями, и, следовательно, все слова поля взаимно противопоставлены друг другу. Семантические поля могут пересекаться или полностью входить одно в другое. Значение каждого слова наиболее полно определяется только в том случае, если известны значения других слов из того же поля. Сравним два цветовых ряда красный - розовый и красный - розовый - розоватый. Если ориентироваться только на первый цветовой ряд, то несколько разных цветовых оттенков могут быть обозначены одной той лексемой розовый. Второй цветовой ряд дает нам более детальное членение оттенков цвета, т.е. те же цветовые оттенки будут соотнесены уже с двумя лексемами - розовый и розоватый.

Отдельная языковая единица может иметь несколько значений и, следовательно, может быть отнесена к разным семантическим полям. Например, прилагательное красный может входить в семантическое поле цветообозначений и одновременно в поле, единицы которого объединены обобщенным значением 'революционный'. Связи между единицами отдельного семантического поля могут различаться по «широте» и специфичности.

Наиболее общие типы связей - это связи парадигматического типа (синонимические, антонимические, родовидовые и др.).

Например, группа слов дерево, ветка, ствол, лист и т.д. может формировать как самостоятельное семантическое поле, объединенное отношением «часть - целое», так и входить в состав семантического поля растений.

В этом случае лексема дерево будет служить гиперонимом (родовым понятием) для таких лексем, как, например, береза, дуб, пальма и т.д.

Семантическое поле глаголов речи может быть представлено в виде объединения синонимических рядов (разговаривать - беседовать - общаться - ...; ругать - бранить - критиковать...; дразнить - высмеивать - вышучивать - ...) и т.д.

Примером минимального семантического поля парадигматического типа может служить синонимическая группа, например некоторая группа тех же глаголов речи. Это поле образуют глаголы говорить, рассказывать, болтать, трепаться и др. Элементы семантического поля глаголов речи объединены интегральным семантическим признаком 'говорения', но их значение не тождественно. Единицы этого семантического поля различаются дифференциальными признаками, например 'взаимное сообщение' (разговаривать), 'одностороннее сообщение' (сообщать, докладывать). Кроме того, они различаются стилистическими, узуальными, деривационными и коннотативными компонентами значения. Например, глагол ругать, кроме семы 'говорения', обладает также дополнительным коннотативным значением- отрицательной экспрессивностью.

Общий семантический признак, объединяющий элементы конкретного семантического поля, в других семантических полях того же языка может выступать как дифференциальный. Например, семантическое поле 'глаголов коммуникации' включит в себя поле глаголов речи наряду с такими лексемами, как телеграфировать, написать и др. Интегральным семантическим признаком для этого поля будет признак 'передачи информации', а 'канал передачи информации' - устный, письменный и др. - выступит в роли дифференциального признака.

Для выявления и описания семантических полей нередко используются методы компонентного анализа и ассоциативного эксперимента. Группы слов, полученные в результате ассоциативного эксперимента, носят название ассоциативных полей.

Сам термин 'семантическое поле' в настоящее время все чаще заменяется более узкими лингвистическими терминами: лексическое поле, синонимический ряд, лексико-семантическое поле и т.п. Каждый из этих терминов более четко задает тип языковых единиц, входящих в поле и/или тип связи между ними. Тем не менее во многих работах как выражение 'семантическое поле', так и более специализированные обозначения употребляются как терминологические синонимы.


.4 Семантика в поисковых системах


Поисковая система - программно-аппаратный комплекс с веб- интерфейсом, предоставляющий возможность поиска информации в интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина - комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

По данным компании Net Applications, в ноябре 2011 года использование поисковых систем распределялось следующим образом:

·Google - 83,87 %;

·Yahoo! - 6,20 %;

·Baidu - 4,22 %;

·Bing - 3,69 %;

·Yandex - 1,7 %;

·Ask - 0,57 %;

·AOL - 0,36 %.

Поиск организованный поисковыми системами, фактически является информационным поиском. Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.

Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

·определение (уточнение) информационной потребности и формулировка информационного запроса;

·определение совокупности возможных держателей информационных массивов (источников);

·извлечение информации из выявленных информационных массивов;

·ознакомление с полученной информацией и оценка результатов поиска.

На данный момент существует несколько методов поиска информации. Одни используются в локальных поисковых системах (картотеки, внутримашинный поиск), другие в глобальных поисковых интернет системах.

Процесс поиска документов по чисто формальным признакам, указанным в запросе.

Для осуществления нужны следующие условия:

·Наличие у документа точного адреса

·Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

·Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

Ещё один вид поиска - документальный поиск. Процесс нахождения в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Два вида документального поиска:

·Библиотечный, направленный на нахождение первичных документов.

·Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

Следующий вид поиска - фактографический. Процесс поиска фактов, соответствующих информационному запросу.

К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

Различают два вида:

·Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.

·Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

Следующие методы являются более частными способами организации поиска.

Булевый поиск - это комбинация элементов, позволяющих включать и исключать из поисковых результатов документы, содержащие определенные слова. Это достигается с помощью булевых операторов and, not, or, near.

Булевый поиск представляет собой одну из самых простых поисковых программ сравнения. Ярким примером булевого поиска служит использование любой крупной поисковой системы (Google, Yahoo) со множеством слов. Это предполагает использование оператора And для поиска всех элементов. Например, при вводе запроса семантический информационный поиск, поиску подлежат все слова, соответствующие запросу. Все страницы, где есть слова: семантический, информационный и поиск, будут представлены в результатах.

Другой пример. Если пользователь хочет исключить из поиска один из элементов, например, информационный поиск - семантический, поисковый алгоритм воспримет это следующим образом: все релевантные результаты, имеющие слова: информационный и поиск, будут включены в результаты поиска, а вот страницы, на которых есть слово семантический, будут исключены.

Очень редко поисковая система не поддерживает булевый поиск. В основном, булевы операторы представлены во всех системах и функционируют автоматически.

Многие современные поисковые системы мира поддерживают поиск с использованием Wildcard-символов. Зачастую Wildcard-символы в виде астериска (*) или знака вопроса (?) используются для замены букв при написании.

Поиск с использованием Wildcard-символов предполагает поиск элементов, которые подходят словам с пропущенной буквой, например, слова text или test можно искать следующим образом: с помощью te*t или te?t.

Последним рассмотри поиск построенный на применении принципов семантики. Семантический поиск - это процесс поиска документов по их смысловому содержанию.

Главные необходимые условия для его машинной реализации - это перевод содержания документов и запросов с естественного человеческого языка на информационно-поисковый язык, понятный машине, и составление на его базе поисковых образов документа и, в конечном итоге, точного запроса и составление поискового описания, в котором указывается дополнительное условие.

Принципиальная разница между адресным (повсеместно используемым сегодня) и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске - с точки зрения содержания. Это означает, что при адресном поиске мы имеем некоторый экстракт документа (например индекс), хранящийся в базе, вместе с точным адресом на этот документ. И оперировать при таком поиске мы можем в любом случае только этими специально подготовленными экстрактами. При истинном содержательном поиске (семантическом поиске) мы оперируем всем содержимым документа для определения его полноценного смысла и контекста, и только после этой операции понимания - формируем представление о его релевантности запросу. Именно поэтому при семантическом поиске находится множество документов без указания их адресов. В этом принципиальное отличие от этого типа поиска каталогов и картотек, которые используются сегодня повсеместно.

Несмотря на то, что данный вид поиска будущего реализуется сегодня на стыке таких наук, как математика, программирование, лингвистика и психология, к сожалению, пока до сих пор отсутствует ясное и непротиворечивое понимание того, как должен реализовываться идеальный механизм семантического поиска, - все, что мы имеем на данный момент, это лишь его частные случаи.

Первая сложность возникает, когда семантический поиск начинают считать решением всевозможных задач - от современной системы поиска, где доминирует Google, до задач, которые нельзя решить вычислительным путем. Все еще более усложняется тем, что в настоящее время есть лишь несколько областей знания, где семантический поиск действительно справляется лучше - это сложные запросы о выводах и рассуждениях о сложных системах данных.

Рисунок 3.3 Проблематика семантического поиска


Как видно из приведенных данных, Google легко справляется с основными видами запросов. К сожалению, автоматическая обработка естественного языка дает в этом лишь небольшое преимущество. Google даст верный ответ на вопрос о годе рождения Леонардо, не предоставляя никаких шансов усовершенствовать процесс поиска пониманием существительных и глаголов, которые вбивает пользователь в строку поиска.

Перед тем, как рассмотреть задачи, с которыми легко справляется семантический поиск, рассмотрим самые сложные задачи. Существуют требующие вычисления задачи, которые не имеют ничего общего с пониманием семантики слова. На ранней стадии существования Семантического поиска бытовало мнение, что с его помощью мы сможем решать даже сверхсложные задачи, но, к сожалению это не так. Есть пределы того, что мы можем вычислить, и есть класс задач с огромным числом возможных решений.

Но есть также и пласт задач, с которыми семантический поиск справляется великолепно. Мы решали их при помощи тематической базы данных. Но не стоит забывать, что семантические технологии помогают нам отыскать тематическую информацию, рассредоточенную по всей сети - потому для нас нет ничего удивительного в том, что семантические поисковые системы превзойдут тематические запросы.

Ниже рассмотрены некоторые виды семантических машин, организовывающих поиск информации на русском языке.

Система Dialogus (#"justify">Интерфейс ресурса разделен на две главные зоны: рабочую область, содержащую основной список результатов, и боковую вспомогательную колонку. В ней выводятся запросы, поступившие в систему от других пользователей и тематически похожие на заданный вами, а также, что особенно интересно, картинки, подходящие по мнению поисковика под интересующую вас тему.

Интересная особенность Dialogus заключается в том, что машина с помощью флэш-ролика показывает процесс обработки заданного вами вопроса в режиме реального времени. Пусть это и не несет практической нагрузки, однако любопытно знать, что запрос проходит фазы разбора и формализации, нормализации терминов, синтаксического и морфологического анализа, предварительного поиска в базе самой системы и в Сети, нахождения стоп-слов и собственно выдачи текстового ответа.

Результаты Dialogus представляют собой краткие текстовые выдержки, в которых по мнению системы находится ответ на заданный вопрос. Каждый фрагмент сопровождается кнопками, позволяющими просмотреть текст более подробно, а также увидеть графическую миниатюру исходной веб-страницы.

На сервисе можно зарегистрироваться, после чего вам предоставляется возможность самостоятельно ответить на какой-либо вопрос, сопроводив свой текст ссылкой на интернет-источник. Кроме того, каждому полученному ответу вы сможете присваивать рейтинг, который будет учитываться при доработке алгоритмов системы. В качестве дополнительного бонуса сервис будет хранить список из десяти ваших недавних запросов и выводить его в боковой колонке своего интерфейса.

Следующей рассматриваемой поисковой системой является Stocona Global Search. Фирма «Стокона» существует с 2001 года и занимается разработками в области искусственного интеллекта. Один из ее продуктов - система интернет-поиска Stocona Global Search (www.stocona.ru/services/globalsearch.aspx), которая использует семантические технологии разбора запроса. На данный момент проект не функционирует, а сам сайт сменил профиль. Все нижеописанное является исследованием проекта во время его полноценного функционирования.

Данная поисковая машина предлагает три режима поиска: «Новостной поиск», «Мета-поиск» и «Синтаксический анализ». Если первый ничего особенного собой не представляет, то два оставшихся режима весьма любопытны. «Мета-поиск» использует в работе ведущие русскоязычные поисковики: Yandex, Google и Rambler. В данном режиме работает алгоритм семантического разбора запроса на естественном языке.

Система поддерживает 14 типов вопросов - в основном простые, направленные на выяснение конкретных фактов или свойств объектов. Stocona автоматически выбирает в заданном вопросе ключевые понятия, учитывает их различные морфологические формы, разбирает аббревиатуры, а также пытается подобрать однокоренные слова и близкие синонимы. Семантика принимается во внимание и на этапе сортировки найденных ссылок при определении их релевантности запросу.

Результаты выводятся в виде отсортированного по релевантности списка, содержащего выдержки из текста проиндексированных веб-страниц, на которых подсвечиваются ключевые понятия из вашего запроса, а также дополнительные слова, которые система нашла и учла в ходе поиска. Каждый текстовый фрагмент сопровождается линком на оригинальную веб-страницу. Поскольку интернет-сервис Stocona Search использует индексные базы других поисковых машин, рядом с каждой ссылкой выводится название нашедшего ее поисковика.

Последняя рассматриваемая система - это AskNet. Система AskNet (#"justify">При поступлении запроса AskNet определяет наиболее вероятный объект поиска, учитывая синонимы, обрабатывая аббревиатуры и словесные записи цифр (например даты). Свободно сформулированное вопросительное предложение будет корректно разобрано системой только в том случае, если в нем содержится не более двух сказуемых или трех других однородных членов. Вопрос также должен быть грамматически верным и синтаксически согласованным. В принципе, AskNet может обработать и предложение с ошибками, однако ждать в таком случае достойного результата не стоит. Заметим, что эта система, как, в общем-то, и другие машины, включенные в настоящий обзор, не проверяет орфографию в запросе и не обладает способностью формулировать ответы на основе логической комбинации данных. Ответ будет выдан, только если соответствующая информация в какой-то форме прописана в базе проиндексированных текстов., как и Stocona, лучше всего понимает только определенный набор типов вопросов. Перечень поддерживаемых в настоящее время конструкций на русском и английском языках подробно разобран в «Справке» проекта.

Если система не сможет обработать ваш запрос с учетом семантики, поиск будет проведен в обычном режиме - только по ключевым понятиям.

Семантические технологии в AskNet также работают на этапе формирования ответа - связи между словами в поисковой фразе учитываются при сортировке результатов. Ответы представлены традиционным списком линков, сопровождаемых краткой выдержкой из текста найденной веб-страницы, на которой красным цветом выделяются ключевые понятия вашего запроса, а зеленым - слова, сформулированные системой на основе семантической обработки. Оригинальный документ можно просмотреть, не покидая сервиса, - достаточно щелкнуть по ссылке «Просмотр», расположенной возле каждой позиции. Она открывает на странице результатов фрейм, в который и загружается источник.


Глава 4. Программа для автоматической обработки материалов


.1 Среда разработки


Для начала создания программы обработки материалов, необходимо рассмотреть две главные процедуры работы программы. Первой процедурой следует считать получение тестового материала. Второй - формирование теста.

Первую процедуру моно разделить на две части: обращение к информационному ресурсу и формирование тестового материала. Вторая процедура также делится на две составляющие, на запуск программы смысловой обработки текста и процедуры формирование теста.

Обращение к информационному ресурсу происходит в интерактивном режиме. Оператор или эксперт производит загрузку материалов на компьютер, после чего запускает программный модуль формирования формата, в котором будет происходить анализ текста, а затем и формирование теста. По этому принципу можно сформировать стек исходных текстов, а также вспомогательных общелитературных текстов для сравнения, именуемых эталонными текстами.

Запуск программы смысловой обработки текста и формирование теста происходит уже в автоматизированном процессе, с использованием программных модулей, разработанных в различных средах.

Рисунок 4.1 Схема программных процедур


В материале разработки использовано три программных среды (оболочки): WordTabulator v2.2.3, Visual Basic for Applications и программная платформа 1С. На рис. 2 представлена схема взаимосвязи между этими тремя оболочками.


Рисунок 4.2 Взаимодействие сред разработки


Опишем представленные программные оболочки. Среда - WordTabulator v2.2.3 предназначена для анализа текстов в среде Windows 9x/NT/2000/XP. Это удобный инструмент для построения упорядоченного индекса символьных элементов в заданном множестве текстов. Программа понимает тексты в основных русскоязычных кодировках (Win-1251, KOI8-r, DOS-866). Дополнительной возможностью является задание кодовой страницы ASCII, для которой множество символов алфавита обрабатываемых элементов ограничивается латинскими буквами. В качестве таких элементов могут быть словоформы, словосочетания или синтагмы. Программа WordTabulator принадлежит к категории бесплатного программного обеспечения и разработана за счет грантовой поддержки Института «Открытое Общество» (фонд Джорджа Сороса). В нашем случае программа Word Tabulator будет использоваться для сравнения нашего исходного текста с эталонными текстами, то есть текстами имеющими общелитературный характер. Это будет делаться для получения стека ключевых слов - слов отражающих специализацию данного текста. Объёмы сравнения текстов будут большими, поэтому необходима программа справляющаяся с большим объёмом входящей информации за короткий период времени.

Среда - Microsoft Excel Visual Basic for Applications (VBA, Visual Basic для приложений) - упрощённая реализация языка программирования Visual Basic, встроенная в линейку продуктов Microsoft Office (включая версии для Mac OS), а также во многие другие программные пакеты, такие как AutoCAD, Solid Works, CorelDraw, WordPerfect и ESRI ArcGIS. VBA покрывает и расширяет функциональность ранее использовавшихся специализированных макроязыков, таких как WordBasic.Basic считается средством быстрой разработки прототипов программы, для разработки приложений баз данных и вообще для компонентного способа создания программ, работающих под управлением операционных систем семейства Microsoft Windows.

На данном языке создан модуль сортировки ключевых слов в группы, по принципу их взаимозаменяемости в будущем тесте. Microsoft Excel выбран по причине удобного интерфейса в виде электронной таблицы, и возможности простой реализации группировки с помощью VBA.

Последней средой обработки материалов является встроенный язык программирования 1С:Предприятие, который используется в семействе программ 1С:Предприятие. Данный язык является предварительно компилируемым предметно-ориентированным языком высокого уровня. Средой исполнения языка является программная платформа 1С:Предприятие. Визуальная среда разработки (Конфигуратор) является неотъемлемой частью пакета программ 1С:Предприятие. Диалекты языка для платформ 1С 7 версий (7.0, 7.5, 7.7) совместимы снизу вверх с незначительными исключениями. Языки для платформ 1С:7х и 1С:8х совместимы по основным операторам, но значительно отличаются в работе с прикладными объектами, вследствие чего перенос кода из 1С:7х в 1С:8х не имеет смысла. Встроенный язык 1С:8 наиболее подобен по своему синтаксису языку Visual Basic. Язык 1С используется нами для составления окончательных тестов и удобен своей возможностью использования документов Microsoft Excel для выгрузки и загрузки информации, а также составления внутренних таблиц для хранения данных. К тому же быстрая работа приложений написанных на 1С, гарантирует высокую производительность и минимальные затраты времени.


4.2 Получение стека ключевых слов


Для автоматического извлечения специальных терминов следует использовать разницу частот слов и фраз в текстах выбранной узкой специальности на фоне текстов более широких областей («вычитание частот», «контрастный метод»). По мнению большинства экспертов, работающих в сфере разработки интеллектуальных приложений анализа текстов, этот способ выделения терминов эффективен при обработке общепринятых в выбранной области науки источников. Поэтому фоновые тексты должны включать достаточно большие корпусы как общенаучных, так и общелитературных текстов. Фактически процедура обработки начинается с удаления всех общелитературных слов (словоформ) из установленного текста. Следствием данной процедуры мы получаем список специальных слов обрабатываемого текста, в дальнейшем будем называть их ключевыми словами, которые и будут некой понятийной областью. Первой задачей здесь является подбор достаточного количества литературы для сравнения. Чем больше сверочных текстов мы подберём, тем более достоверным будет список ключевых слов. Но при подборе данных текстов следует учитывать их тематику. Ни в коем случае нельзя допускать пересечения тематики с основным текстом, для недопущения удаления части ключевого кластера. Будем полагать, что Но допустим нужное количество литературы подобрано, в таком случае необходим инструмент сверки огромного количества текстов за приемлемое время. Для осуществления метода «вычитания частот» воспользуемся программой WordTabulator.


Рисунок 4.3 Схема работы модуля получения ключевых слов


В папку Множество входных текстов производим загрузку текстов. В папку Множество исключений загружаем тексты для сверки (эталонные тексты). Рекомендуется загружать текст в формате .txt, так этот формат не нуждается в перекодировке, а следовательно увеличивается скорость обработки. Файл Эталон включает в себя порядка 10 Мб художественной литературы для сверки. Рассмотрим пример, выберем файл текста Революция в физике, автор Луи Де Бройль. Текст подходит нам, так, как является технически специализированным, и полученный нами список ключевых слов, будет более адекватным рассматриваемой задаче. Обратимся к программе WordTabulator и воспроизведем начальный фрейм.


Рисунок 4.4 Фрейм запуска программы WordTabulator


В меню Опции проекта выбираем обработку исключений Вычитание, кодировку Win-1251 и задаём файл выходного результата.


Рисунок 4.5 Фрейм настройки параметров анализа


Проведенное исследование программы показало, что сравнение текстов, общим объёмом более 11 Мб, происходит за 12, 7 сек. После отработки программы, в файле Выходного индекса мы получим список слов по алфавиту с частотой их появления в тексте. Он и будет являться искомым списком ключевых слов данного текста. Формат представления данных в файле, описан в таблице 4.1.


Таблица 4.1 Пример расчета частоты ключевых слов

№ п/пЧастота употребления словавыделяемое Слово6903коэффициента6912коэффициентов

Рисунок 4.6 Фрейм позиционирования ключевых слов


На этом этап начальной обработки текста, и в частности получение ключевых слов, заканчивается. Дальнейшая обработка будет строиться на их сортировке и группировке.


4.3 Группировка ключевых слов


Группировка ключевых слов, один из важнейших этапов обработки текста, для дальнейшего построения теста. Но для полного понятия того, как следует проводить группировку, необходимо понять, как в конечном итоге, должен выглядеть наш тест. Для конечного вида была выбрана форма, при которой из выбранного предложения удаляется ключевое слово, с обозначением пропуска, и на выбор предоставляется четыре варианта ответа.


Таблица 4.2 Структура одного вопроса теста

Текст предложение - суждения с выделенным местом вставки словоформы […]1Словоформа (ложь)2Словоформа (истина)3Словоформа (ложь)4Словоформа (ложь)

Одним из вариантов является истинное слово, три других варианта являются также ключевыми словами текста, но они, соответственно для этого предложения ложны. При таком вариант теста, проверяется не просто знание данного текста, но знание предметной области в целом. Однако здесь перед нами встаёт сразу несколько сложностей. Во-первых на практике, в список ключевых слов, всё равно попадают сторонние слова, не имеющие отношения к специальной тематике текста. Это происходит из-за недостаточного количества эталонных текстов для сверки. Во-вторых в списке ключевых слов находятся слова, относящиеся к разным частям речи, в разном числе и в различных склонениях. Из этого вытекает проблема, при которой из четырёх вариантов, данных для выбора, логически верным будет лишь истинный вариант, остальные три будут не подходить для подстановки.

Рассмотрим пример. Пусть задано предложение, в котором присутствует ключевая словоформа, выделенная прописью.

Однако позже физики убедились в том, что положительное электричество в конечном счете тоже должно рассматриваться как состоящее из отдельных совершенно одинаковых частиц - протонов.

Теперь удалим слово протонов, указав его в вариантах ответа, и дадим на выбор три других, случайным образом выбранных ключевых слова.

Однако позже физики убедились в том, что положительное электричество в конечном счете тоже должно рассматриваться как состоящее из отдельных совершенно одинаковых частиц - [……].

. протонов

. коэффициента

. кристаллах

. завуалирована

В приведённых выше вариантах суждений, формируемых в виде процедур поиска смысловой словоформы, отчетливо просматривается верное слово - протон. Слово протонов является существительным, множественного числа, родительного падежа. Это слово подходит по смыслу, по окончанию, и по физическому восприятию контекста. Второй вариант ответа коэффициента также является существительным в родительном падеже, однако в единственном числе. Третий вариант также, как и первые два - существительное, и так же как и слово «протонов, во множественном числе. Однако это слово представлено в предложном падеже, что также будет отличаться от первого варианта. Четвёртый вариант является глаголом, и фактически не имеет отношения к тематике текста, однако является редким в употреблении словом, которое не попало в эталонные, и стало ключевым, для исходного текста.

Теперь следует привести пример того, какими должны быть варианты ответов, что бы их невозможно было подобрать, без знания тематики текста.

Однако позже физики убедились в том, что положительное электричество в конечном счете тоже должно рассматриваться как состоящее из отдельных совершенно одинаковых частиц - [……].

. протонов

. нейтронов

. бозонов

. гравитонов

В выше описанном примере видно, что без знания основ квантовой физики, ответить на вопрос теста, довольно таки проблематично. Для этого и необходима группировка ключевых слов в таблицу, где они будут разделены по принципу взаимозаменяемости, для подстановки с правильным вариантом ответа. Однако довольно сложно определить все характеристики слова в автоматическом режиме, без подключения баз данных специализированных слов или технических словарей. Эту проблему, частично можно решить определением окончания слов, которые в большинстве случаев отвечают за все основные параметры слова, в том числе за часть речи, род, число ит.д. Удаление же из списка тех слов, которые не имеют непосредственного отношения к его специализации, можно за счёт отслеживания их частоты повторения в тексте. Специальные термины, имеющие значение, обычно повторяются в тексте более одного раза. Установив начальный порог вхождения, мы отсеем ещё больше ненужных слов из списка ключевых терминов. Для выполнения группировки, подойдёт Microsoft Excel и в частности VBA (Visual Basic fir Applications). В данной задаче не рассматривается проблема анализа больших массивов, а следовательно, средствами данной среды представляется возможным получить искомый результат. Для группировки следует осуществить процедуру импортирования списка ключевых слов, находящихся в файле Ключевые слова.txt в таблицу Excel. Выделив лист в среде Excel создадим поле для загрузки массива данных. Это и будет позиционироваться в виде таблицы. Также туда переносится и статистика их появления в тексте, полученная нами из программы WordTabulator. При помощи встроенного редактора формул Microsoft Excel, создадим порог вхождения слов в текст, с задаваемой частотой. Обновлённый создадим формулу прохождения ключевых слов в новый список, по пороговой частоте их вхождений в текст. Верхнее значение порога (ячейка D2), может задаваться произвольно, и указывает на минимальное количество вхождений слова в текст, для его попадания в новый список ключевых слов. Новый список ключевых слов будет находиться в соседнем столбце.


Рисунок 4.7 Фрейм отбора ключевых словоформ по частоте


Далее следует составить таблицу тех окончаний, по которым можно будет с большой вероятностью утверждать, что слова из одной группы, будут взаимозаменяемы. Для начала составим таблицу для окончаний существительных, т.к. в основном они являются наиболее важными терминами, знания о которых нам бы хотелось проверить. Окончания, в данном случае, имеются ввиду не грамматические, а фактические. В объединенных ячейках находятся взаимозаменяемые окончания.


Таблица 4.3 Группировка существительных единственного числа

Единственное число*[сть]*[о]*[ом]*[ем]*[ние]*[тие]слова оканчивающиеся на согласныеКроменет*[ло]*[ном]*[вом]*[чем]нетнет*[ав]*[ев]*[ов]*[ек]*[ок]*[ого]*[емом]*[шем]*[жал]*[шел]*[шёл]*[ал]*[ил]*[его]*[ском]*[щем]*[ул]*[ам]*[ым]*[ям]*[ан]*[но]*[аем]*[ен]*[ет]*[ит]*[от]*[ят]*[ово]*[уем]*[ан]*[ен]*[ево]*[уто]*[ято]

Таблица 4.4 Группировка существительных множественного числа

Множественное число*[ы]*[сти]*[ов]*[стей]*[ам]*[ям]*[ами]*[ями]*[ах]*[ях]Кроме*[ены]нетнетнетнет*[аны]*[вны]*[ьны]

В представленных выше таблицах 4.3 и 4.4 описаны некоторые виды окончаний существительных. Слова, заканчивающиеся на другие окончания могут принадлежать к разному роду, числу или падежу, и не могут быть разделены на группы, без подключения дополнительных словарей.

Последним этапом является создание программы автоматической группировки ключевых слов. Она пишется в виде нескольких макросов на языке VBA. (Листинг 1, 2 и 3). Схема алгоритма создания стека суждений представлена на рисунке 4.8.


Рисунок 4.8 Алгоритм программы создания стека суждений

Примечание: T - количество вопросов; х - количество ключевых словоформ; f - порог генератора случайных чисел; b - порог частоты; r - счётчик количества суждений; Q (1;65536)


Итогом отработки данной программы, является таблица, с распределёнными в неё ключевыми словами.


Рисунок 4.9 Фрейм таблицы группировки ключевых слов


В итоге, при построении стека ответов, выбираются только те слова, которые находятся в одном столбце с удалённым из предложения словом, что позволяет избежать возможности подбора ответа.

Рис. 4.10 Схема формирования стека ответов


.4 Алгоритм обработки материалов


Алгоритм обработки материалов информационного ресурса, отображает полную последовательность действий оператора, для получения необходимого нам стека суждений за определённое время. В алгоритм включены все, используемые в данном проекте, среды разработки и все основные действия.


Рисунок 4.11 Алгоритм обработки материалов информационного ресурса


Все действия по обработке материалов, показанные в алгоритме, производятся в течении 10 мин, и из исходного текста объёмом 500 Кб, формируется стек из 50 суждений.


Рисунок 4.12 Фрейм стека суждений с вариантами ответов

В файле Microsoft Excel формируется результат обработки текста. Он представляет собой стек суждений (выделенный жирным) и стеки ключевых слов с ячейками для выбора истинного варианта. Обработка ответов и их анализ не входят в рамки данного проекта, однако их реализация в данном исполнении вполне возможна.


Глава 5. Технико-экономические расчеты


В данном дипломном проекте рассматривается создание алгоритма и программы автоматической обработки материалов информационного ресурса. Использование данного программного продукта позволяет в автоматизированном режиме обрабатывать большое количество текстовой информации и создавать на основе обработки тесты, для проверки усвоения материала. Данные тесты направлены на определение степени владения человеком специальной - технической информацией, содержащейся в тексте. В автоматическом режиме выделяется область технической специализации текста, определяется список ключевых терминов и в конечном итоге из текста извлекаются суждения, из которых изъяты ключевые словоформы, и на выбор представлены варианты для подстановки. Один вопрос теста представляет из себя одно предложение, без ключевого слова изъятого программой, и четыре технических термина, как варианты ответа. Количество таких суждений задаётся оператором - экспертом автоматически, и зависит от размера текста.

Объектом для сравнения можно представить эксперта, создающего аналогичный тест в интерактивном режиме, по информационному ресурсу того же объёма. Данному эксперту, для начала придётся полностью изучить (прочитать) данный текст, после этого выделить всю специальную терминологию, после провести анализ подходящих для подстановки предложений и составить тест. Эксперт может использовать ПЭВМ, однако без программы, представленной в данном проекте, все его действия будут выполняться в ручном режиме.

Исходные данные для расчета затрат на создание ИС приведены в таблице 5.1.


Таблица 5.1

Исходные данные для расчета затрат на создание программного модуля

NNn/nНаименование показателяЕдиница измеренияЗначение1Годовой фонд рабочего временич19702Коэффициент дополнительной заработной платы%83Оклад программистаруб.150004Накладные расходы%155Оклад оператора АРМруб.115006Количество компьютеровшт.17Стоимость ЭВМруб.229008Стоимость программного обеспеченияруб.09Количество рабочих часов в деньч810Отчисления во внебюджетные фонды%3011Нормативный коэффициент экономической эффективности-0,15

.1 Расчет себестоимости машинного часа эксплуатации ЭВМ


Показатель «машинное время» используется для расчета себестоимости машинного времени одного часа эксплуатации ЭВМ, применяемого при определении затрат на разработку программного продукта и текущих затрат до и после внедрения проектного решения.

Материальные затраты включают в себя все издержки, связанные с обеспечением нормального функционирования рабочего места разработчика в расчете на весь период времени работ. Они указаны в таблице 5.2.


Таблица 5.2 Материальные затраты

НаименованиеЦена, руб.Количество, шт.Стоимость, руб.Картридж HP(Hewlett-Packard) 130,черный100011000Бумага Svetocopy1501150Итого материальных затрат:1150

5.3 Расчет экономической эффективности внедрения проектного решения


Расчет экономических показателей выполняется на основе таблицы 5.3, где приведено время, расходуемое оператором (экспертом)на операцию по разработке электрической схемы. Среднее необходимое количество операций в месяц равно 15.

До внедрения программного модуля создание тестов производилось вручную.


Таблица 5.3 Данные для расчета экономических показателей

ПоказательДо внедрения программного модуляПосле внедрения программного модуляВремя выполнения одной операции, ч80,30Суммарное время за месяц, ч1204,5Суммарное время за год, ч144054

Сводные данные основных технических, эксплуатационных и экономических показателей приведены в таблице 5.4.


Таблица 5.4 Технико-экономические показатели программного модуля

Наименование показателейЗначениеДо внедренияПосле внедренияНазначениеСоздание тестов на основе исходного материалаМесто использованияЦентр дистанционного обученияХарактеристики персонального компьютера: - ип ПК; - операционная система; - объем оперативной памяти.-AsusPro58S Intel Core 2 Duo 1,8ГГц; Linux Ubuntu; 2Гб DDR2;Характеристики программного продукта: - базовый программный продукт; - среда разработки - язык программирования - затраты времени на выполнение и отладку, ч. - Microsoft Excel Visual Basic for Applications; Visual Basic; 180ч;Основные этапы операции: - Подбор литературы - Обработка материала - Создание теста ручное; ручная; ручное; ручное; автоматическое; автоматическое;Время выполнения операций, ч80,30Экономия времени за месяц, ч-115,5Стоимость разработки тыс. руб.-124,6Годовой экономический эффект, тыс.руб.-141,3Срок окупаемости, лет-0,7

Глава 6. Мероприятия по обеспечению безопасности жизнедеятельности.


.1 Анализ характеристик проекта и трудовой деятельности


В данном дипломном проекте рассматривается процесс создания алгоритма и программы автоматической обработки материалов информационного ресурса. Данная программа создаётся для создания обучающих тестов-суждений по проверке специальных технических знаний. Алгоритм и программа представленные в проекте, работают в автоматизированном режиме и требуют присутствия оператора - программиста, для корректировки и обработки входящих информационных данных. Данные действия программист выполняет в режиме работы за ПЭВМ (персональной электронно-вычислительной машиной). Использование данной программы, может быть как основным видом деятельности эксперта, так и второстепенной. В процессе работы, оператор не производит тяжёлой физической деятельности, не имеет ограничений по времени и не испытывает значительных умственных напряжений.

Следовательно, в разделе безопасности жизнедеятельности может быть описано рабочее место инженера-программиста. В этом случае должны быть указаны рекомендации по организации режима работы за ПЭВМ, рассмотрены меры по обеспечению эргономичности и безопасности рабочего места инженера.


.2 Мероприятия по эргономическому обеспечению


Помещения для эксплуатации ПЭВМ должны иметь естественное и искусственное освещение. Эксплуатация ПЭВМ в помещениях без естественного освещения допускается только при соответствующем обосновании и наличии положительного санитарно-эпидемиологического заключения, выданного в установленном порядке. Естественное и искусственное освещение должно соответствовать требованиям действующей нормативной документации. Окна в помещениях, где эксплуатируется вычислительная техника, преимущественно должны быть ориентированы на север и северо-восток. Оконные проемы должны быть оборудованы регулируемыми устройствами типа: жалюзи, занавесей, внешних козырьков и др. Площадь на одно рабочее место пользователей ПЭВМ с ВДТ (видео- дисплейный терминал) на базе электроннолучевой трубки должна составлять не менее .

Рабочие столы следует размещать таким образом, чтобы видеодисплейные терминалы были ориентированы боковой стороной к световым проемам, чтобы естественный свет падал преимущественно слева. Искусственное освещение в помещениях для эксплуатации ПЭВМ должно осуществляться системой общего равномерного освещения. В производственных и административно-общественных помещениях, в случаях преимущественной работы с документами, следует применять системы комбинированного освещения (к общему освещению дополнительно устанавливаются светильники местного освещения, предназначенные для освещения зоны расположения документов).

Освещенность на поверхности стола в зоне размещения рабочего документа должна быть 300 - 500 лк. Освещение не должно создавать бликов на поверхности экрана. Освещенность поверхности экрана не должна быть более 300 лк. Следует ограничивать прямую блесткость от источников освещения, при этом яркость светящихся поверхностей (окна, светильники и др.), находящихся в поле зрения, должна быть не более . Также Следует уменьшать отраженную блесткость на рабочих поверхностях (экран, стол, клавиатура и др.) за счет правильного выбора типов светильников и расположения рабочих мест по отношению к источникам естественного и искусственного освещения, при этом яркость бликов на экране ПЭВМ не должна превышать и яркость потолка не должна превышать .

Яркость светильников общего освещения в зоне углов излучения от 50 до 90 градусов с вертикалью в продольной и поперечной плоскостях должна составлять не более 200 кд/м2, защитный угол светильников должен быть не менее 40 градусов. Светильники местного освещения должны иметь не просвечивающий отражатель с защитным углом не менее 40 градусов. В качестве источников света при искусственном освещении следует применять преимущественно люминесцентные лампы и компактные люминесцентные лампы (КЛЛ). При устройстве отраженного освещения в производственных и административно-общественных помещениях допускается применение металлогалогенных ламп. В светильниках местного освещения допускается применение ламп накаливания, в том числе галогенные.

Применение светильников без рассеивателей и экранирующих решеток не допускается.

Следует ограничивать неравномерность распределения яркости в поле зрения пользователя ПЭВМ, при этом соотношение яркости между рабочими поверхностями не должно превышать 3:1 - 5:1, а между рабочими поверхностями и поверхностями стен и оборудования 10:1.

При отсутствии светильников с ЭПРА (электронный пускорегулирующий аппарат) лампы многоламповых светильников или рядом расположенные светильники общего освещения следует включать на разные фазы трехфазной сети.

Общее освещение при использовании люминесцентных светильников следует выполнять в виде сплошных или прерывистых линий светильников, расположенных сбоку от рабочих мест, параллельно линии зрения пользователя при рядном расположении видеодисплейных терминалов. При периметральном расположении компьютеров линии светильников должны располагаться локализовано над рабочим столом ближе к его переднему краю, обращенному к оператору. Коэффициент запаса (Кз) для осветительных установок общего освещения должен приниматься равным 1,4. Коэффициент пульсации не должен превышать 5%.

Для обеспечения нормируемых значений освещенности в помещениях для использования ПЭВМ следует проводить чистку стекол оконных рам и светильников не реже двух раз в год и проводить своевременную замену перегоревших ламп.

Для внутренней отделки интерьера помещений, где расположены ПЭВМ, должны использоваться диффузно-отражающие материалы с коэффициентом отражения для потолка - 0,7 - 0,8; для стен - 0,5 - 0,6; для пола - 0,3 - 0,5. Полимерные материалы используются для внутренней отделки интерьера помещений. Помещения, где размещаются рабочие места с ПЭВМ, должны быть оборудованы защитным заземлением (занулением) в соответствии с техническими требованиями по эксплуатации. Не следует размещать рабочие места с ПЭВМ вблизи силовых кабелей и вводов, высоковольтных трансформаторов, технологического оборудования, создающего помехи в работе ПЭВМ.

В производственных помещениях при выполнении основных или вспомогательных работ с использованием ПЭВМ уровни шума на рабочих местах не должны превышать предельно допустимых значений, установленных для данных видов работ в соответствии с действующими санитарно-эпидемиологическими нормативами.

При выполнении работ уровень вибрации не должен превышать допустимых значений вибрации для рабочих мест. Шумящее оборудование (печатающие устройства, серверы и т.п.), уровни шума которого превышают нормативные, должно размещаться вне помещений с ПЭВМ.

Ниже указаны предельные уровни звука в зависимости от категории тяжести и напряженности труда, являющиеся безопасными в отношении сохранения здоровья и работоспособности.


Таблица 6.1 Предельные уровни звука (дБ) на рабочих местах

Категория напряженности трудаКатегория тяжести трудаЛегкаяСредняяТяжелаяОчень тяжелаяI. Мало напряженный80807575II. Умеренно напряженный70706565III. Напряженный6060--IV. Очень напряженный5050--

Проектирование рабочих мест, снабженных видеотерминалами, относится к числу важнейших проблем эргономического проектирования в области вычислительной техники.

Рабочее место и взаимное расположение всех его элементов должно соответствовать антропометрическим, физическим и психологическим требованиям. Большое значение имеет также характер работы. В частности, при организации рабочего места программиста должны быть соблюдены следующие основные условия: оптимальное размещение оборудования, входящего в состав рабочего места и достаточное рабочее пространство, позволяющее осуществлять все необходимые движения и перемещения.

Эргономическими аспектами проектирования видеотерминальных рабочих мест, в частности, являются: высота рабочей поверхности, размеры пространства для ног, требования к расположению документов на рабочем месте (наличие и размеры подставки для документов, возможность различного размещения документов, расстояние от глаз пользователя до экрана, документа, клавиатуры и т.д.), характеристики рабочего кресла, требования к поверхности рабочего стола, регулируемость элементов рабочего места.

Главными элементами рабочего места программиста являются стол и кресло. Основным рабочим положением является положение сидя.

Рабочая поза сидя вызывает минимальное утомление программиста. Рациональная планировка рабочего места предусматривает четкий порядок и постоянство размещения предметов, средств труда и документации. То, что требуется для выполнения работ чаще, расположено в зоне легкой досягаемости рабочего пространства.


Рисунок 6.1 Представление рабочего места программиста


Рисунок 6.2 Расположение основных и периферийных составляющих ПК. 1 - сканер, 2 - монитор, 3 - принтер, 4 - поверхность рабочего стола, 5 - клавиатура, 6 - манипулятор типа «мышь»


Для комфортной работы стол должен удовлетворять следующим условиям:

·высота стола должна быть выбрана с учетом возможности сидеть свободно, в удобной позе, при необходимости опираясь на подлокотники;

·нижняя часть стола должна быть сконструирована так, чтобы программист мог удобно сидеть, не был вынужден поджимать ноги;

·поверхность стола должна обладать свойствами, исключающими появление бликов в поле зрения программиста;

·конструкция стола должна предусматривать наличие выдвижных ящиков (не менее 3 для хранения документации, листингов, канцелярских принадлежностей).

·высота рабочей поверхности рекомендуется в пределах 680-760мм. Высота поверхности, на которую устанавливается клавиатура, должна быть около 650мм.

Большое значение придается характеристикам рабочего кресла. Так, рекомендуемая высота сиденья над уровнем пола находится в пределах 420-550мм. Поверхность сиденья мягкая, передний край закругленный, а угол наклона спинки - регулируемый.

Необходимо предусматривать при проектировании возможность различного размещения документов: сбоку от видеотерминала, между монитором и клавиатурой и т.п. Кроме того, в случаях, когда видеотерминал имеет низкое качество изображения, например заметны мелькания, расстояние от глаз до экрана делают больше (около 700 мм), чем расстояние от глаза до документа (300-450 мм). Вообще при высоком качестве изображения на видеотерминале расстояние от глаз пользователя до экрана, документа и клавиатуры может быть равным.


.3 Мероприятия по технике безопасности


В любом рабочем помещении, в том числе и офисном необходимо соблюдать технику электробезопасности, т.к. при неправильном использовании электрооборудования возможны поражения током.

Сила поражающего тока зависит от его рода и частоты, напряжения в сети, сопротивления цепи протекания тока, в том числе и тела человека, от пути тока через тело человека, индивидуальных свойств организма, площади контакта тела с проводником тока.

Характер воздействия переменного тока в зависимости от его силы:

·1мА - пороговый ощутимый ток;

·10-15 мА - пороговый не отпускающий ток - наибольший ток самостоятельного освобождения от электродов, захваченных действием мышц, через которые проходит ток (для постоянного тока - 50-80 мА); меньшие токи - отпускающие;

·51-100мА - пороговый фибрилляционный, так как возможна фибрилляция, приводящая к смерти, паралич дыхания;

·101-200 мА - фибрилляция, приводящая к смерти, паралич дыхания;

·201мА и более - сильные ожоги, паралич дыхания. Чем выше напряжение, тем опаснее, так как увеличивается сила тока.

Сопротивление человека принято 1000 Ом - это сопротивление верхнего слоя кожи и в меньшей степени - сопротивление внутренних органов. Сопротивление влажной, загрязненной кожи резко снижается. Наиболее уязвимы: тыльная (наружная) часть кисти руки, участок выше кисти, шея, висок, спина, плечо - прикосновение ими смертельно при очень малых силе тока и напряжении.

Существуют разные причины поражения электрическим током:

·прикосновение к находящимся под напряжением токоведущим частям оборудования;

·появление напряжения на нетоковедущих частях оборудования (т. е. не находящихся под напряжением при работе исправного оборудования), на земле из-за замыкания, статического или атмосферного электричества;

·работа на электроустройствах без соблюдения мер безопасности;

·некачественное заземление или зануление электроустановок;

·использование в особо опасных помещениях переносных электроустройств на напряжение более 36В.

На предприятии назначается ИТР (инженерно - технический работник), ответственный за электрохозяйство. Мелкие предприятия привлекают специализированную эксплуатационную организацию или в доле с другими содержат персонал во главе со своим ИТР. Электробезопасность от токоведущих частей оборудования устраняется техническими средствами: защитные оболочки (изоляция), ограждения; безопасное расположение токоведущих частей (на недоступной высоте или в корпусе оборудования), защитное отключение; предупредительная сигнализация, знаки опасности; блокировка. Для защиты при прикосновении к металлическим нетоковедущим частям электроустановок, оказавшимся под напряжением, т.е. для защиты от переходного напряжения используют: защитные заземление, зануление и отключение, малое напряжение (не более 42В), изоляцию токоведущих частей, СИЗ и предохранительные приспособления. При случайном замыкании токоведущих частей на изолированный от земли корпус оборудования он оказывается под напряжением и прикосновение к нему будет также опасно, как и к фазе. Преднамеренное соединение с землей металлических нетоковедущих частей, которые могут оказаться под напряжением, называется защитным заземлением Оно за счет уменьшения потенциала относительно земли из-за малого сопротивления снижает напряжение прикосновения к корпусу до безопасного уровня. Заземляют все оборудование с электроприводом, электрообогревом, холодильное, пускорегулирующее (пускатели, рубильники, регуляторы): во всех случаях при напряжении 380В и выше в сетях переменного и при 440В и выше в сетях постоянного тока; в помещениях с повышенной опасностью, особо опасных и вне помещений при напряжении 42-380В переменного тока и 110-440В постоянного.

Устройство для заземления состоит из заземлителей (металлических проводников, погруженных в грунт) и заземляющих проводников (также металлических, соединяющих заземляемые части электроустановки с заземлителем).

Защитное зануление - это также преднамеренное электрическое соединение металлической нетоковедущей части оборудования, но не с землей, а с заземленным нулевым проводом в трехфазных четырехпроводных электрических сетях (т.е. сетях с глухозаземленной нейтралью). Защитное отключение - это быстродействующая защита, отключающая электроустановку в случае возникновения опасности поражения человека током при замыканиях на землю или корпус и в других случаях. Защита от статического электричества - это предупреждение возникновения заряда заземлением, снижение потенциала заряда до безопасного подбором материалов, их скоростей движения, увлажнением воздуха, нейтрализацией заряда ионизацией воздуха и другими способами. Для непрерывного снятия зарядов с человека используют электропроводящие полы, заземленные оборудование, трапы, рабочие площадки, антиэлектростатические халаты, обувь с подошвой из кожи или электропроводной резины. Защита от атмосферного электричества (молнии) представляет собой молниеотводы и специальные заземления.


.4 Мероприятия по пожарной безопасности


Пожарная профилактика представляет собой комплекс организационных и технических мероприятий, направленных на обеспечение безопасности людей, на предотвращении пожара, ограничение его распространения, а также создание условий для успешного тушения пожара. Для профилактики пожара чрезвычайно важна правильная оценка пожароопасности здания, определение опасных факторов и обоснование способов и средств пожаропредупреждения и защиты. Одно из условий обеспечения пожаробезопасности - ликвидация возможных источников воспламенения.

В лаборатории источниками воспламенения могут быть:

·неисправное электрооборудование, неисправности в электропроводке, электрических розетках и выключателях. Для исключения возникновения пожара по этим причинам необходимо вовремя выявлять и устранять неисправности, проводить плановый осмотр и своевременно устранять все неисправности;

·неисправные электроприборы. Необходимые меры для исключения пожара включают в себя своевременный ремонт электроприборов, качественное исправление поломок, не использование неисправных электроприборов;

·обогревание помещения электронагревательными приборами с открытыми нагревательными элементами. Открытые нагревательные поверхности могут привести к пожару, так как в помещении находятся бумажные документы и справочная литература в виде книг, пособий, а бумага - легковоспламеняющийся предмет. В целях профилактики пожара предлагается не использовать открытые обогревательные приборы в помещении лаборатории;

·короткое замыкание в электропроводке. В целях уменьшения вероятности возникновения пожара вследствие короткого замыкания необходимо, чтобы электропроводка была скрытой.

·попадание в здание молнии. В летний период во время грозы возможно попадание молнии вследствие чего возможен пожар. Во избежание этого рекомендуется установить на крыше здания молниеотвод.

В целях предотвращения пожара с сотрудниками, работающими в помещении, проводится противопожарный инструктаж, на котором ознакомить работников с правилами противопожарной безопасности, а также обучить использованию первичных средств пожаротушения.

В случае возникновения пожара необходимо отключить электропитание, вызвать по телефону пожарную команду, эвакуировать людей из помещения согласно плану эвакуации, и приступить к ликвидации пожара огнетушителями. При наличии небольшого очага пламени можно воспользоваться подручными средствами с целью прекращения доступа воздуха к объекту возгорания.

На случай возникновения пожаров здания, сооружения и помещения должны быть обеспечены первичными средствами пожаротушения.

К первичным средствам пожаротушения принято относить внутренние пожарные краны, различного типа огнетушители, песок, войлок, кошму, асбестовое полотно, бочки с водой. Применяются первичные средства пожаротушения для тушения небольших очагов пожара. Первичные средства пожаротушения, находящиеся в производственных, складских и административно-бытовых помещениях, сооружениях и установках, передаются на сохранность начальникам цехов, другим должностным лицам соответствующих структурных подразделений предприятий.

Для указания местонахождения первичных средств пожаротушения следует устанавливать на видных местах внутри и вне.

Переносные огнетушители должны размещаться на расстоянии не менее 1,2 м от проема двери и на высоте не более 1,5 м от уровня пола, считая от низа огнетушителя. Допускается установка огнетушителей в тумбах или шкафах, конструкция которых должна позволять визуально определить тип огнетушителя и обеспечить свободный доступ к нему.

Огнетушители - технические устройства, предназначенные для тушения пожаров на начальной стадии их возникновения. Они классифицируются: по виду огнетушащих средств; по объему корпуса; по способу подачи огнетушащих средств; по виду пусковых устройств.

Углекислотные огнетушители служат для тушения небольших очагов горения веществ, материалов и электроустановок, за исключением веществ, которые горят без доступа кислорода. Огнетушащий эффект достигается за счет снижения температуры горения и процентного содержания кислорода в зоне горения. Углекислотные огнетушители классифицируются на: ручные; стационарные; передвижные.

Аэрозольные огнетушители применяются для тушения небольших очагов пожаров, загораний электроустановок под напряжением. Не рекомендуется применять их для тушения веществ, которые горят без доступа воздуха, а также щелочных и щелочноземельных металлов.

Порошковые огнетушители предназначены для тушения загораний бензина, дизельного топлива и других горючих жидкостей, электроустановок, находящихся под напряжением до 1000 В. Применяются для оснащения легковых автомобилей, на предприятиях химической и нефтехимической промышленности, на автотранспортных предприятиях, в авто-, авиа- и судостроении, в быту и т. д. Порошковые огнетушители подразделяются на: ручные; передвижные; стационарные. В качестве огнетушащего порошкового состава применяются порошки общего и специального назначения.

В офисных помещениях лучше всего использовать аэрозольные или углекислотные огнетушители, объёмом до 5 литров.

текстовый электронный документ кодирование

Заключение


Прогрессивное развитие практически всех процессов деятельности человека актуализирует проблему приобретения новых знаний, столь необходимых при исполнении различных производственных задач. Подготовка специалистов требует наличия не только опыта организации учебного процесса, но и использование современных технологий формирования потенциала знаний. В основе современной концепции организации учебного процесса находится представление об информационном ресурсе, который можно рассматривать как основное условие для формирования набора дидактических материалов. Эта точка зрения хорошо закрепилась в современном социуме, где каждое учебное заведение, независимо от направленности и специфики подготовки специалистов, обладает информационным ресурсом, позволяющим всем участникам образовательного процесса оперативно работать с дидактическими материалами. В техническом задании на данную разработку актуализируется проблема создания алгоритма и программы автоматической обработки материалов информационного ресурса. Постановка такой задачи следует из анализа современных условий организации образовательного процесса, где важную роль должны исполнять процедуры проверки знаний, посредством автоматических модулей обработки исходных материалов и создания тестовых процедур. В формальном отношении, такая постановка задачи хорошо известна обучающему персоналу, где постоянно приходится формировать пакет обучающих материалов, а затем в ручном режиме готовить набор тестов, причем с обязательным условием оценки качества их исполнения. В таком понимании решение поставленной задачи по автоматизации обработки исходных текстовых документов, рекомендуемых для изучения и приобретения знаний, с целью получения набора тестов, оказывается близким, в некотором отношении, к творческой деятельности человека. Выделяя этот аспект, следует признать наличие огромного количества проблем, затрудняющих создание «прямого» решения. В частности, ориентация на использование компьютеров с базовой конфигурацией программного обеспечения, организация интерактивных режимов и многое другое, требует расширения тематических вопросов пояснительной записки. Следуя этим представлениям, в материале пояснительной записки к дипломному проекту полагается, что в качестве базовых условий, имеющихся в наличии, существует информационный портал, есть несколько наборов программных модулей, способных частично проводить обработку текстовых - обучающих материалов. Для достижения конечного результата - получения набора тестовых материалов требуется сформировать интерактивные процедуры обращения к данным программным модулям, создать алгоритм и программу, посредством которых будет завершена целевая функция - создан набор тестовых процедур.

Решение поставленной задачи проводилось последовательно, посредством создания четырех разделов пояснительной записки, а также формированием разделов обей части, где помещен материал по экономическим расчетам и вопросам безопасности жизнедеятельности. Первый блок вопросов, рассматриваемый в четырех разделах воспроизводит общее представление о данной проблеме, демонстрирует наличие подобных разработок и их актуальность в образовательной среде. Заключительный четвертый раздел этого блока создан в соответствии с техническим задание по проекту и демонстрирует возможность получения набора тест процедур по различным дидактическим материалам применительно к международному проекту «Rail Baltica Growth Corridor Russia», где планируется проводить подготовку различных специалистов в области транспортной логистики и менеджмента. Предварительное обсуждение методологии осуществления такой автоматической процедуры с представителями образовательных центров Латвии, Эстонии и Финляндии, показали высокую степень интереса к разработке.

Приложение


Листинг 1


Sub OKONCHANIE_ed_ch()

Dim iRng As Range, iCell As Range, r As Long, t As Long, y As Long, u As Long, i As Long, O As Longp As Long, a As Long, s As Long, d As Long, m As Long= 8= 8= 8= 8= 8= 8= 8= 8= 8= 8= 8= 8iRng = Range("D2:D10000")Each iCell In iRngiCell Like "*сть" Then r = r + 1: Range("O" & r) = iCellEach iCell In iRngiCell Like "*о" Then t = t + 1: Range("P" & t) = iCellEach iCell In iRngiCell Like "*ом" Then y = y + 1: Range("Q" & y) = iCellEach iCell In iRngiCell Like "*ем" Then u = u + 1: Range("R" & u) = iCellEach iCell In iRngiCell Like "*ние" Then i = i + 1: Range("S" & i) = iCellEach iCell In iRngiCell Like "*тие" Then O = O + 1: Range("T" & O) = iCellEach iCell In iRngiCell Like "*ция" Then O = O + 1: Range("U" & m) = iCellSub


Листинг 2

OKONCHANIE()iRng As Range, iCell As Range, r As Long, t As Long, y As Long, u As Long, i As Long, O As Longp As Long, a As Long, s As Long, d As Long= 8= 8= 8= 8= 8= 8= 8= 8= 8= 8= 8= 8iRng = Range("D2:D6000")Each iCell In iRngiCell Like "*ы" Then r = r + 1: Range("E" & r) = iCellEach iCell In iRngiCell Like "*сти" Then t = t + 1: Range("F" & t) = iCellEach iCell In iRngiCell Like "*ов" Then y = y + 1: Range("G" & y) = iCellEach iCell In iRngiCell Like "*стей" Then u = u + 1: Range("H" & u) = iCellEach iCell In iRngiCell Like "*ам" Then i = i + 1: Range("I" & i) = iCellEach iCell In iRngiCell Like "*ям" Then O = O + 1: Range("J" & O) = iCellEach iCell In iRngiCell Like "*ами" Then p = p + 1: Range("K" & p) = iCellEach iCell In iRngiCell Like "*ями" Then a = a + 1: Range("L" & a) = iCellEach iCell In iRngiCell Like "*ах" Then s = s + 1: Range("M" & s) = iCellEach iCell In iRngiCell Like "*ях" Then d = d + 1: Range("N" & d) = iCellSub


Листинг 3

RedOkonch()iRng As Range, iCell As RangeiRng = Range("E9:E200")Each iCell In iRngiCell Like "*ены" Then iCell.ClearContentsiRng = Range("E9:E200")Each iCell In iRngiCell Like "*аны" Then iCell.ClearContentsiRng = Range("E9:E200")Each iCell In iRngiCell Like "*вны" Then iCell.ClearContents

'Ед. числоiRng = Range("P9:P200")Each iCell In iRngiCell Like "*ло" Then iCell.ClearContentsiRng = Range("P9:P200")Each iCell In iRngiCell Like "*ого" Then iCell.ClearContentsiRng = Range("P9:P200")Each iCell In iRngiCell Like "*его" Then iCell.ClearContentsiRng = Range("P9:P200")Each iCell In iRngiCell Like "*но" Then iCell.ClearContentsiRng = Range("P9:P200")Each iCell In iRngiCell Like "*уто" Then iCell.ClearContentsiRng = Range("P9:P200")Each iCell In iRngiCell Like "*ято" Then iCell.ClearContentsiRng = Range("P9:P200")Each iCell In iRngiCell Like "*ово" Then iCell.ClearContentsiRng = Range("P9:P200")Each iCell In iRngiCell Like "*ево" Then iCell.ClearContentsiRng = Range("P9:P200")Each iCell In iRngiCell Like "*имо" Then iCell.ClearContentsiRng = Range("Q9:Q200")Each iCell In iRngiCell Like "*ном" Then iCell.ClearContentsiRng = Range("Q9:Q200")Each iCell In iRngiCell Like "*вом" Then iCell.ClearContentsiRng = Range("Q9:Q200")Each iCell In iRngiCell Like "*емом" Then iCell.ClearContentsiRng = Range("Q9:Q200")Each iCell In iRngiCell Like "*ском" Then iCell.ClearContentsiRng = Range("R9:R200")Each iCell In iRngiCell Like "*чем" Then iCell.ClearContentsiRng = Range("R9:R200")Each iCell In iRngiCell Like "*шем" Then iCell.ClearContentsiRng = Range("R9:R200")Each iCell In iRngiCell Like "*щем" Then iCell.ClearContentsiRng = Range("R9:R200")Each iCell In iRngiCell Like "*аем" Then iCell.ClearContentsiRng = Range("R9:R200")Each iCell In iRngiCell Like "*уем" Then iCell.ClearContentsSub


ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕР

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ