Создание электронного тезауруса по дисциплине "Компьютерные сети"

 

Министерство сельского хозяйства Российской Федерации

Бузулукский гидромелиоративный техникум

Филиал ФГБОУ ВПО Оренбургский ГАУ











КУРСОВАЯ РАБОТА

По дисциплине: «Эксплуатация информационных систем»

На тему: «Создание электронного тезауруса по дисциплине «Компьютерные сети»



Выполнил: студент 31 группы ИС:

Русяев С.С

Проверил: Дурнев П.В







г. Бузулук, 2014 г


ВВЕДЕНИЕ


В настоящее время в связи с возрастанием объема информации, необходимой для принятия решений, и возможностями, предоставляемые компьютерными технологиями, автоматизированные тезаурусы стали широко использоваться в различных сферах деятельности человека. Организация быстрого и эффективного поиска информации становится все более не разрешимой проблемой. Цель документального поиска - нахождение и выдача соответствующих запросу пользователя документов или их описаний.

Традиционно информационно-поисковые системы применяются для тематического поиска научно-технической информации в крупных библиотеках, научно-технических центрах, архивах. Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой. При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу, а в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Именно на этой технологии основано действие информационно-поискового тезауруса. Целью курсовой работы является разработка электронного тезауруса по дисциплине «Компьютерные сети».

Основные этапы технологии разработки:

. Предварительная обработка текстов;

. Построение множества предпочтительных дескрипторов (ключевых понятий предметной области) и концептов;

. Выбор языка программирования или конструктора;

. Выбор шаблона;

. Выбор типа тезауруса;

. Создание тезауруса.

1. ОСНОВЫ РАЗРАБОТКИ ТЕЗАУРУСОВ


1.1 Понятие тезаурусов


Теза?урус (от греч. ???????? - сокровище), в общем смысле - специальная терминология, более строго и предметно - словарь, собрание сведений, корпус или свод, полномерно охватывающие понятия, определения и термины специальной области знаний или сферы деятельности, что должно способствовать правильной лексической, корпоративной коммуникации (пониманию в общении и взаимодействии лиц, связанных одной дисциплиной или профессией); в современной лингвистике - особая разновидность словарей, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами. Тезаурусы являются одним из действенных инструментов для описания отдельных предметных областей.

) Тезаурус (от греч. thesuarus "сокровище, сокровищница") -

словарь, в котором максимально полно представлены все слова языка с исчерпывающим перечнем примеров их употребления в текстах;

) Идеологический словарь, в котором показаны семантические отношения (родовидовые, синонимические и др.) между лексическими единицами.

Тезаурус в первом значении в полном объеме осуществим лишь для мертвых языков. Структурной основой для тезауруса во втором значении обычно служит иерархическая система понятий, обеспечивающая поиск от смыслов к лексическим единицам, т.е. поиск слов, исходя из понятия.

Тезаурус - библиотека с набором словарей синонимов, антонимов, родственных слов и родовидовых связей, которая служит для расширения поискового запроса, позволяющего находить релевантные текстовые фрагменты по смысловой близости к запросу. Высокая ценность Тезауруса заключается в большом объеме словарной базы и правильном ранжировании замен.

В широком понимании тезаурус обозначает систему знаний, которой располагает какой-либо субъект или группа субъектов, о действительности. Субъект также способен принимать новую информацию, за счет чего исходный тезаурус будет изменяться. В тезаурусе содержится не только информация о действительности, но и дополнительная информация, за счет которой появляется возможность приема новых сведений. В 1970-х годах распространились информационно-поисковые тезаурусы. В их состав входит лексическая единица, называемая дескриптором. Она служит для поиска информации в автоматическом режиме. Каждому слову тезауруса сопоставляется синонимичный дескриптор, для которого задаются семантические отношения. Выделяют иерархические (родовидовые) отношения и ассоциативные. В лингвистике семантическими отношениями, которые входят в тезаурус, могут быть антонимы, гипонимы, синонимы, паронимы и т.п. Тезаурусы, выраженные в электронном формате, могут быть эффективными инструментами, с помощью которых можно описывать конкретные предметные области. Если толковый словарь направлен на выявление смысла слова исключительно при помощи определения, то тезаурус помогает его выявить, используя соотношения слова с другими словами и их группами. Это позволяет использовать тезаурус для работы с заполнением баз знаний на основе искусственного интеллекта. В приложении Microsoft Word существует средство, которое называется «Тезаурус». С его помощью можно просматривать синонимы для любого слова, либо осуществлять поиск его определений. Это позволяет расширять свой словарный запас, узнать синонимы для уже известных слов. Чтобы воспользоваться данным средством, необходимо выделить в документе желаемое слово, после чего кликнуть по нему правой кнопкой мыши, выбрать пункт «Синонимы», после чего «Тезаурус».

тезаурус анализ язык семантизация


1.2 Классификация тезаурусов


В настоящее время существует значительное число информационно-поисковых тезаурусов, разработанных как у нас в стране, так и за рубежом. В 70-90-ые годы ХХ века в нашей стране было разработано большое количество ИПТ - свыше 200. В рамках программы кооперации между странами Евросоюза в области научной и технической информации была создана база данных Thesaurus Guide, содержащая сведения о тезаурусах западноевропейских государств, а также США, Канады, Южной Америки, ЮАР и Австралии. По данным эта БД содержит сведения о 654 тезаурусах, действовавших в 1985 г. и доступных на одном из официальных языков Европейского сообщества. Несмотря на некоторое снижение интереса к ИПТ в 90-е годы ХХ в., в настоящее время наблюдается активизация исследований и разработок в сфере ИПТ, расширяются области их применения. Поэтому важно знать о том, какие виды отечественных и зарубежных ИПТ существуют.

Все многообразие ИПТ можно проанализировать, воспользовавшись такими их параметрами, как широта тематического охвата, назначение в АИС, системность построения, особенности состава лексики и внутриструктурного построения, количество естественных языков, форма представления и знаковая природа информации. В соответствии с выбранными основаниями деления выделяются следующие виды ИПТ:

. По широте тематического охвата:

) Политематические (многоотраслевые). Примером одного из первых отечественных политематических тезаурусов может служить «Тезаурус научно-технических терминов», подготовленный и изданный в 1972 г. под руководством доктора технических наук Ю. И. Шемакина. Этот ИПТ содержал 19000 терминов по прикладным областям знания и был предназначен для использования в автоматизированных системах управления и обработки информации. В настоящее время крупнейшим русскоязычным политематическим тезаурусом является информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования в Университетской информационной системе «РОССИЯ» (УИС «Россия»). Он был разработан в 1995 г. Научно-исследовательским вычислительным центром МГУ им. М. В. Ломоносова (#"justify">) Отраслевые, составляющие наиболее многочисленную группу тезаурусов, например, ИПТ по информатике, подготовленный ВИНИТИ, серия отраслевых ИПТ, разработанных в 80-ые годы Кемеровским ЦНТИ (по технологии машиностроения, сельскому хозяйству, горному делу и др.). Среди масштабных отраслевых ИПТ, разработанных в последние годы, следует назвать информационно-поисковые тезаурусы ИНИОН по философии, экономике и демографии, правоведению, социологии, политологии.

) Узкоотраслевые или проблемные тезаурусы, предназначенные для поиска информации по отдельному внутриотраслевому направлению, например «Тезаурус по минералам», подготовленный ВИНИТИ, «Тезаурус по сталям», изданный кафедрой математической лингвистики ЛГУ, «Тезаурус терминологии гендерных исследований», разработанный А. А.Денисовой (#"justify">. По назначению различают:

) Базисные (базовые) ИПТ, представляющие собой политематические ИПТ, включающие основные понятия и их взаимосвязи, общие для нескольких тематических (отраслевых) подмассивов. В него включается лексика, обозначающая основные понятия комплекса наук: названия разделов наук, важнейшие научные категории, основные научные направления, понятия обобщенного, собирательного характера, лексика верхних уровней терминологической иерархии, лексико-семантические пересечения отраслевых ИПТ. Базисные ИПТ предназначены для использования в качестве лексико-семантической основы при построении, узкотематических рабочих тезаурусов. Таким образом достигается унификация рабочих тезаурусов и облегчается трудоемкий процесс их построения.

Базисные тезаурусы служат для выполнения следующих целей:

для совместного использования с отраслевыми тезаурусами при глубоком индексировании документов и обеспечения достаточно полного покрытия смежной тематики, что позволяет при создании отраслевых тезаурусов несколько сузить их тематический охват, ограничиваясь лишь специфическими для отрасли понятиями;

для самостоятельного использования при индексировании документов непрофильной и межотраслевой тематики;

для осуществления нормативной функции: базисный тезаурус выступает как средство координации всех функционирующих в информационной системе ИПТ.

Базисные тезаурусы иногда называют макротезаурусами, подчеркивая тем самым то, что они включают лексические единицы высокой степени общности и покрывающие широкую область знаний.

) Рабочие ИПТ, используемые в реальных АИС. В качестве рабочих тезаурусов могут выступать отраслевые, узкоотраслевые или проблемные ИПТ, построенные на основе базисного тезауруса. Если базисные тезаурусы, выступающие в качестве нормативных пособий, включают только основную лексику той или иной отрасли, совокупности отраслей, и наиболее очевидные парадигматические отношения, то рабочие тезаурусы отличаются большим лексическим богатством и развитой парадигматикой. Следовательно, семантическая сила рабочих ИПТ должна превосходить семантическую силу базисных тезаурусов. Особенностью рабочих тезаурусов является большое количество прагматических решений, имеющих силу только в рамках данной внутриотраслевой тематики. Рабочие ИПТ в специальной литературе фигурируют также под именем «микротезаурусы», что отражает как их небольшой объем, так и то, что они составляются на основе развития выборки из более общего ИПТ и дополнительно включают конкретные узкие понятия определенной области знания.

. По системности построения различают:

) Комплексы ИПТ. Комплекс ИПТ - это система тезаурусов по одной или нескольким отраслям знания, создаваемая в одной организации по единой методике.

) Отдельные ИПТ. Они отражают единичные попытки информационных служб и организаций, а также частных лиц создать ИПТ отраслевого или проблемного характера. Примерами таких ИПТ могут служить «Тезаурус по теоретической и прикладной лингвистике», разработанный С. Е. Никитиной, «Тезаурус терминологии гендерных исследований», созданный А. А.Денисовой и др.

. По особенностям состава лексики и внутриструктурного построения ИПТ:

) ИПТ, включающие в свой состав в качестве лексических единиц как дескрипторы, так и аскрипторы.

) ИПТ, включающие в свой состав в качестве лексических единиц только дескрипторы.

) Фасетизированные ИПТ - ИПТ, созданные на базе фасетного анализа лексики.

Реализация фасетно-блочного принципа построения ИПТ направлена на решение проблемы совместимости тезаурусов как внутри одной отрасли, так и в родственных отраслях, давая возможность обмениваться как отдельными лексическими единицами, так и их блоками, вплоть до объединения ИПТ в сводный тезаурус.

. По форме представления:

) ИПТ в печатном виде.

) ИПТ на машиночитаемых носителях, представленные на микрофишах, компакт-дисках, в форме электронных сетевых версий и др..

Наибольшее распространение нашли ИПТ, реализованные одновременно как на традиционных, так и на машиночитаемых носителях информации.

Следует подчеркнуть, что компьютерная реализация ИПТ повлекла за собой не только изменение формы их представления. Она обеспечила оперативность, а также удобство навигации и поиска информации. Так, например, гипертекстовая технология реализации тезауруса позволяет легко и быстро «передвигаться» по ИПТ, переходя от термина к его синониму, вышестоящим, нижестоящим и ассоциативным понятиям. Использование средств мультимедиа позволяет отражать в тезаурусе не только словесную (вербальную), но и звуковую и видеоинформацию (формульную, графическую, иллюстративную и др.), расширяя тем самым возможности ИПТ.

Классификация строится, главным образом, на материале современных тезаурусов английского языка с учетом вновь появившихся лексикографических произведений, представленных в печатном и электронном вариантах. В основу данной классификации положены следующие критерии:

-тип смысловых связей между единицами словника;

-объем словника;

-разработка значения лексем;

-грамматико-стилистическая квалификация лексем;

-демонстрация функционирования лексем;

-количество представленных языков;

-тип семиотических средств, используемых для семантизации лексем.

Классификация основывается на созданных ранее классификациях О.М. Карповой и И. Бурханова, а также на собственных результатах обзора более 30 словарей-тезаурусов. Терминология, используемая в классификации, введена в лексикографический аппарат В.В. Морковкиным, Ю.Н. Карауловым Ю.Н., И. Бурхановым, К. Марелло. Для максимально полного отображения типов существующих словарей-тезаурусов предлагаем создать многоуровневую классификацию.

Во-первых, по типу смысловых связей между единицами словника тезаурусы подразделяются на три крупных класса:

¾идеографический (идеологический) тезаурус;

¾аналогический тезаурус (терминология В.В. Морковкина);

¾ассоциативный тезаурус (терминология Ю.Н. Караулова).

Три данные типа тезаурусов отражают следующие виды смысловых связей лексем соответственно:

) Предметные или тематические связи, где объединение слов в одну группу происходит в силу сходства или общности функций обозначаемых словами предметов и процессов: предметы домашнего обихода, части тела, виды одежды, постройки и т.д. Таким образом, идеографический тезаурус - это лексикографическое произведение, представляющее лексические единицы в составе предметных (тематических) групп и организующее их в иерархическую структуру, предназначенную для репрезентации концептуализированного знания о мире.

) Лексико-семантические связи; объединение в группы с таким типом связи происходит по основному для слов признаку - лексическому значению. При этом также учитываются лексико-грамматические связи, в форме которых реализуются отдельные значения слов. Таким образом, аналогический тезаурус - это лексикографический справочник, основной единицей макроструктуры которого является лексико-семантическая группа; группы систематизированы в порядке алфавитного следования смысловых доминант.

) Семантико-синтаксические связи, на основании которых слова объединяются в группы или пары, предопределенные в своем возникновении и существовании двойными связями: смысловыми и синтаксическими. Смысловые связи слов устанавливаются, главным образом, между глаголами и прилагательными, выполняющими предикативную функцию в предложении, и существительными, например,

-между действием и органом (инструментом), при помощи которого оно совершается: хватать - рука, видеть - глаз, плыть - лодка и т.д.;

-между глаголами действия, требующими одного субъекта, и субъектом:

лаять - собака, ржать - лошадь и т.д.;

-между глаголами и определенным грамматическим дополнением, которого первые требуют: рубить - дерево, есть - еда и т.д.

Отсюда ассоциативный тезаурус - это словарь-тезаурус, организующий лексические единицы на основании существующих между ними смысловых и синтаксических связей и располагающий группы в соответствии с графической формой слов-центров.

В рамках того же критерия проводим дальнейшее подразделение типов. Так, идеографический тезаурус представлен 4-мя следующими типами:

. Собственно идеографический тезаурус;

. Тематический словарь;

. Систематический словарь;

. Тематико-систематический словарь (терминология И. Бурханова).

Собственно идеографический тезаурус - это особый тип идеографического словаря, макроструктура которого организуется в соответствии с синоптической картой. В отличие от других типов идеографического словаря, собственно идеографический тезаурус характеризуется логичной и строго упорядоченной классификационной структурой, созданной на основе научной таксономии, даже если лексикографическому описанию подвергается общая лексика. Тематический словарь - это особый тип идеографического тезауруса, основной единицей макроструктуры которого является тематическая группа, включающая лексемы, объединенные на основе классификации их денотатов (референтов) и рассматриваемые с точки зрения соответствия определенной теме.

Наличие синоптической карты в тематическом словаре является факультативным. Тематические словари, как правило, создаются для удовлетворения нужд иноязычных пользователей, поэтому список тем в таком словаре определяется степенью их значимости в коммуникативном пространстве пользователя. Систематический словарь - это особый тип идеографического тезауруса, классификационная структура которого предназначена для представления действительных семантических отношений, существующих между лексическими единицами языка. По своей сути классификационная структура представляет лексико-грамматическую классификацию вокабуляра, иными словами, его парадигматическую структуру, описанную с точки зрения подчинения и сочинения.

Тематико-систематический словарь - это особый тип идеографического словаря, представляющий собой сочетание тематического и систематического словаря.

Аналогический тезаурус, в свою очередь, подразделяется на 2 типа:

. Собственно аналогический тезаурус.

. Словарь синонимов / антонимов.

Считаем данное разделение правомочным на следующем основании. Ограничение лексико-семантических групп может проводиться по всему смысловому объему данного слова или по линии лишь некоторых его значений. Слова, пересекающиеся по одному значению и находящиеся в однотипных смысловых отношениях, образуют синонимический ряд, что всегда меньше по объему, чем лексико-семантическая группа.

Таким образом, словарь, отражающий сугубо синонимические/ антонимические отношения слов, можно считать отдельным типом аналогического тезауруса (словарь синонимов, антонимов). Опираясь на мнение Ю.Н. Караулова, полагаем, что ассоциативный тезаурус также подразделяется на подтипы:

. Ассоциативный словарь одного предъявления (условно, термин наш);

. Собственно ассоциативный тезаурус (термин Ю.Н. Караулова Ю.Н.).

Их принципиальное отличие состоит в следующем:

. Число стимулов в ассоциативных словарях 100 - 200; в ассоциативных тезаурусах - около 1000.

. Обычный ассоциативный словарь строится по результатам однократного предъявления стимулов. Программа составления ассоциативного тезауруса предусматривает три этапа: первый этап не отличается от традиционных ассоциативных экспериментов (по его итогам получается обычный ассоциативный словарь); на втором этапе в качестве стимулов используются реакции первого этапа; третий этап предполагает процедуру повторения второго этапа с использованием реакций этого этапа в качестве стимулов. Ассоциативное семантическое пространство после третьего этапа замыкается, так как не происходит приращения новых слов и смыслов в реакциях. Таким образом, ассоциативный тезаурус моделирует относительно замкнутое лексико-семантическое и грамматическое пространство, обслуживающее языковую жизнь социума.

Во-вторых, с точки зрения объема словника практически все существующие тезаурусы относятся к малым словарям, хотя количество лексических единиц, включенных в тот или иной справочник, различно ( около 150 тыс.; около 800). Необходимо отметить, что в силу присущих им по их лексикографической природе черт тематические, тематика - систематические словари, словари синонимов/антонимов и ассоциативные тезаурусы издаются, главным образом, в малом объеме.

В-третьих, в отношении генерализованности/специфичности словника тезаурусы подразделяются на общие и специальные. Общие тезаурусы отражают лексику общелитературного языка. Специальные тезаурусы, в основном, отражают лексику языковых стилей:

. тезаурусы литературного языка могут быть представлены словарями языка писателя или отдельного произведения, словарем эвфемизмов и т.д.;

. разговорный стиль может быть представлен словарем сленга;

.территориальные языковые особенности раскрываются в диалектном идеографическом словаре;

. язык науки отражается в научно-технических тезаурусах (терминов) и т.д.

Следует упомянуть, что не были проанализированы специальные систематические, тематико-систематические словари, специальные словари синонимов/антонимов и специальные ассоциативные словари-тезаурусы.

В-четвертых, с точки зрения разработки значения лексем, существующие тезаурусы делятся на три основных категории:

. Кумулятивные - представляющие собой группировки лексем без определения их значений;

. Дефинитивные - содержащие одноязычное толкование каждой лексической единицы группировки (терминология К. Марелло);

. Переводные - раскрывающие смысл лексической единицы посредством другого языка.

Следует признать, что доминирующее положение пока сохраняют кумулятивные тезаурусы. Это, прежде всего, касается идеографических тезаурусов, ибо, исходя из положения о том, что данный тип словаря предназначен для носителей языка и призван, по возможности, охватывать весь лексический массив языка, определение каждой лексической единицы сделало бы его излишне громоздким и неудобным для пользователя. Однако словари нового поколения все чаще содержат определения и пополняют группу дефинитивных тезаурусов (главным образом, аналогические тезаурусы).

В-пятых и в-шестых, в отношении грамматико-стилистической квалификации, а также демонстрации функционирования лексем, существующие тезаурусы можно подразделить на полные и дифференцированные. Полные тезаурусы содержат исчерпывающие добавочные семантико-функциональные характеристики (ДСФХ) и богатый иллюстративный материал; соответственно, в дифференцированных тезаурусах система помет и иллюстративные примеры более скудные.

В-седьмых, по количеству представленных языков выделяются одно- и двуязычные тезаурусы. На наш взгляд, возможны также и многоязычные лексикографические произведения такого рода.

В-восьмых, с точки зрения типа семиотических средств, используемых для семантизации лексем, можно говорить о тезаурусах традиционного печатного исполнении, иллюстративных (картинных) словарях и словарях со смешанными семиотическими средствами. Новым словом в мировой лексикографии является комбинированный словарь. Основное его отличие - использование нескольких способов организации лексики. Алфавитный порядок слов в словнике, как правило, сочетается с индексом - тезаурусом, в котором все лексические единицы, представленные в словаре, объединяются в группы согласно области их использования или понятия, которое они выражают. Таким образом, можно выделить толково-идеографический (комбинированный) словарь, толково-аналогический (комбинированный) словарь и (потенциально) толково-ассоциативный (комбинированный) словарь. Растет число электронных комбинированных словарей, одновременно совмещающих в себе толковый, аналогический словари и, косвенно, словарь сочетаемости. Популярность приобретают специальные одно- и двуязычные словари, содержащие как лингвистическую, так и энциклопедическую информацию; проанализированные нами словари подобного рода в целом систематизируют лексику по общности графической формы, т.е. по алфавиту, но также снабжены подробным тематическим приложением. Более того, благодаря системе гиперссылок приложения пользователь может без труда обращаться к статьям денотативно связанных лексем, лексем-гипонимов (гиперонимов) и т.п. Такие словари-тезаурусы можно условно обозначить как лингвистико-энциклопедические комбинированные словари. Кроме того, благодаря усовершенствованным техническим возможностям словарей расширяются ДСФХ лексем; свидетельством того являются, например, озвученные словари, словарные статьи которых дают аудио представление лексем.


1.3 Назначение и принципы работы тезаурусов


Кроме «общих» словарей, как при изучении языка, так и при его практическом использовании бывают, нужны словари идиом, сленга, синонимов, эвфемизмов, аббревиатур, личных имен, словоупотребления, а также словари профессиональной лексики. Некоторые, к сожалению, путают понятия «словарь синонимов» (Dictionary of Synonyms) и «тезаурус» (Thesaurus), а для кого-то последнее слово звучит и вообще пугающе. На самом деле всё просто: словарь синонимов построен по принципу "обычного" словаря стандартные слова располагаются в нем в алфавитном порядке, вот только вместо объяснения их значения в словарной статье приводится набор синонимов к этому слову, расположенных также в алфавитном порядке либо по принципу стилистической окрашенности слова (т. е. принадлежности его к области нейтральной, разговорной, специальной, официально-деловой лексики, сленгу и т.д.). Такие словари могут быть как большими, настольными, так и маленькими, карманными. Тезаурус тоже поможет вам подобрать синоним к нужному слову, но организован он по другому принципу.

Принцип работы:

Вы передаете в Тезаурус слово или выражение и получаете список родственных слов и выражений, соответствующих введенному вами запросу. Команда Тезаурус (Thesaurus) предоставляет пользователю словарь синонимов, антонимов, определений и примеров использования выделенного слова. Тезаурус можно использовать для поиска синонимов к любым словам, а не только для слов текущего документа. Для этого потребуется ввести нужное слово в текстовое поле окна диалога «Тезаурус» (Thesaurus). Тезаурус гипертекста состоит из тезаурусных статей и списка, главных тем. Каждому наименованию информационной статьи ставится в соответствие своя тезаурусная статья, имеющая заголовок информационной. Тезаурусная статья содержит список наименований других информационных статей, которые по смыслу являются родственными по отношению к заголовку данной. В тезаурусной статье отражены такие виды родства: род-вид, вид-род, часть-целое, предмет-процесс, процесс-предмет, процесс-этап процесса, этап процесса процесс. Могут быть и другие типы отношений. Полнота связей определяет полноту и точность поиска. Если информационная потребность сформулирована нечетко, то поиск осуществляется с помощью тезауруса, начиная с главной темы. Используя связи между наименованиями объектов, требуется прийти к наименованию объекта, соответствующему информационной потребности.

Альтернативные тезаурусы:

) Электронный тезаурус компьютерных терминов.

) Электронный тезаурус, основанный на голосовой передачи речи.

Проработка идеи №1:

Например, при чтении какого-либо компьютерного журнала многие не понимают или даже не знают некоторых терминов, сокращений и тому подобного, поэтому нужно создать тезаурус, в котором будут записаны компьютерные термины в алфавитном порядке и вся основная информация по этому термину. Этот тезаурус будет программой, как приложение на телефоне, чтобы каждый желающий смог носить его в кармане и доставать при необходимости.

Проработка идеи №2:

Например, слепые люди или инвалиды, не способные найти нужную им информацию по литературным источникам или не знакомые с Интернетом, смогут получить интересующую их информацию по электронному тезаурусу, основанного на голосовой передачи речи. Его принцип работы будет схож на обычный диктофон, в котором будет находиться всевозможная информация по любому поводу (типа Интернет). Принцип работы его заключается в следующем: включаем его и говорим термин, словосочетание или конкретную тему, которая нас интересует.

Через несколько секунд электронным голосом будут произноситься темы, выбрав тему, произносим ее в точности как произнес ее электронный голос, не добавляя при этом своих изменений. И, подождав несколько секунд, электронный голос будет рассказывать про эту тему.



2. РАЗРАБОТКА ЭЛЕКТРОННОГО ТЕЗАУРУСА ПО ДИСЦИПЛИНЕ «КОМПЬЮТЕРНЫЕ СЕТИ»


.1 Создание предварительного проекта


Тезаурус подразумевается как информационный и образовательный ресурс, целью которого является ознакомление с терминами по дисциплине компьютерные сети. Систематизация терминов будет осуществляться посредством разбиения их на категории.

Проводим анализ других сайтов тезаурусов, выявляем слабые и сильные стороны конкурентов и преимущества нашего будущего сайта. Одним из недостатков нашего сайта является небольшой масштаб уровня реализации, а так же небольшой контент (что возможно исправить по мере продвижения сайта). В силу того, что проект будет выполняться в рамках данного задания, выявляется еще один минус по сравнению с другими сайтами - отсутствие сервисов, например, таких как поиск. Недостатком же других информационно-поисковых тезаурусов, поддерживающих онлайн-сервисы, является недостаточно хорошее визуальное оформление, что вызывает неудобство у читателей. Так же недостатком некоторых сайтов является платность. Достоинства нашего сайта: бесплатность, простота, удобная навигация, хорошее визуальное оформление, отсутствие рекламы.

Проводим анализ языков программирования: HTML, Java, C++, Delphi.++ для прикладного программирования весьма тяжел, и разработка на нем занимает существенно больше времени. Заказные системы на нем, как правило, не делаются - заказ клиент отдает тому, кто выполнит работу быстрее, а на C++ быстро не получится. Его используют софтверные компании для разработки коробочных продуктов. Например, такие именитые софтверные компании как Microsoft, Intel, Oracle и т.д. Это мощный язык программирования, позволяющий разработать систему любой сложности.особенно популярен в России, но позиции свои сдает языкам программирования Java, C#. За границей он малоизвестен из-за неудачной маркетинговой политики его производителя. Программировать на нем проще и гораздо быстрей, чем на C++, при этом Delphi позволяет разрабатывать не менее сложные системы, чем C++. Чаще всего его можно встретить в отделах АСУ предприятий. Там он используется для автоматизации внутренних процессов предприятия.

Язык программирования Java, как молодой языки программирования, по сравнению с C++ и Delphi, явно выделяется тем, что в нем учтены современные требования к языкам прикладного программирования. Это язык программирования только для прикладных задач, не для системных. Данный язык программирования очень выразителен, красив, он легко расширяем, т.е. дописать новую функциональность на нем легче, чем на других языках программирования.является первым языком web-программирования. Именно на его основе построены многие команды на php, javascript и т.д. Таким образом можно сказать, что он вечен. Если поисковые системы по ряду признаков могут забанить какой-либо движок, то HTML неприкосновенен в этом плане. При написании сайта на чистом HTML языке на странице не будет ничего лишнего, она быстро загружается, хорошо доступна для поисковых роботов, легче оптимизируется. В HTML можно продумать свою Иерархию страниц, выделить главные и провести добротную внутреннюю оптимизацию сайта.


2.2 Поэтапная разработка тезауруса


Первым этапом создания тезауруса был поиск информации о строении тезаурусов, его типах и действующие программы. Вторым этапом был выбор языка программирования и схема построения своего будущего тезауруса. Третий этап - это поиск информации для его заполнения, для этого я использовал «Учебно-методический комплекс Компьютерные сети».

Вот пара примеров тезаурусов (смотрите рисунок 1.1 и рисунок 1.2):

Рисунок 1.1 - Информационно-поисковая система «Thesaurus.com»


Рисунок 1.2 - Словарь гендерных терминов


После собрания нужной информации, началось создание тезауруса. Для создания тезауруса был выбран язык программирования - HTML. Hyper Text Markup Language - «HTML» (язык разметки гипертекста) многие уже давно перестали его считать просто языком программирования. Так как само понятие HTML включает в себя различные методы оформления гипертекстовых документов, дизайн, гипертекстовые редакторы, браузеры и много всего другого. Пользователь, освоивший этот язык, приобретает возможность делать серьезные вещи простыми методами и, главное, быстро, что в современном мире считается очень хорошо!

На языке HTML можно создавать собственные мультимедийные продукты и распространять их на любых носителях информации, и все эти продукты, выполненные в виде наборов HTML-страниц, не требуют разработки специализированных программных средств, так как все необходимое для работы с данными (Web-браузеры) стали частью стандартного программного обеспечения большинства персональных компьютеров.

Код будущей Web-страницы обычно набирается в стандартном текстовом редакторе, но есть и другие программы, и языки программирования, например: Adobe Dreamweaver CS3, JavaScript, Паскаль, С, С++, Бейсик, Пролог.

Начнем с того, что тезаурус будет состоять из трех фреймов: фрейм с заголовком, фрейм со ссылками и фрейм для содержимого, как показано на рисунке 1.3.


Рисунок 1.3 - Схема тезауруса


Для создания эскиза тезауруса использовали следующие теги и атрибуты языка HTML:


<title> текст </title> - заголовок сайта;

<frameset rows="120,*"> - два фрейма по горизонтали размером в 120px и оставшееся пространство;

<frame src="new.html>- ссылка на документ;

<noresize="noresize"> - отмена возможности растягивать границы фрейма;

<frameset cols="200,*"> - фреймы по вертикали;

<frame NAME="main"> - указывает имя фрейма для возможности направления информации в этот фрейм.


Для заполнения фреймов информацией, пишем код в документах: «new.txt» - фрейм «Заголовок», «nav.txt» - фрейм «Ссылки», «main.txt» - фрейм «Содержание».

В документе «new.txt» находится код, отвечающий за название самого тезауруса. Основные теги:


<style type="text/css"> - применение стилей css;

<background-image: url('images/i2.jpg')> - установка фонового рисунка;

<text=white> - настройка белого цвета текста;

<p align="center"> - расположение текста по центру;

<h1> - размер текста.


Документ «nav.txt» содержит ссылки в виде букв алфавита русского языка на конкретные документы, с определениями, начинающимися на эти буквы, которые будут открываться во фрейме «Содержание». Основные теги:


<background-size: 200%> - масштаб картинки по отношению к фрейму;

<B><A href="A.html" target="main">А</A></B> - ссылка документа А.html на открытие его во фрейме main;

<style="color:red> - цвет текста красный;

<br> - отступ с красной строчки;

<text-decoration: none"> - отмена стилей (в нашем случае отсутствие подчеркнутости ссылки).


Каждая ссылка имеет свой документ, содержащий определения, всего их 24. Для примера, рассмотрим основной тег выделения главного слова:

<font color="red">Верификация</font> - применение цвета к одному слову.


Документ «main.txt» представляет собой код, из-за которого во фрейм «Содержание» будут открыться ссылки. Основной тег:


<FRAME NAMЕ="main"/> - присвоение фрейму имени main.


Чтобы все ссылки работали, надо поменять разрешение всех документов с «txt» на «html». Теперь тезаурус имеет вид как на рисунках 1.4 и 1.5.


Рисунок 1.4 - Рабочий тезаурус


Рисунок 1.5 - Главная страница



2.4 Инструкция администратору


Данный тезаурус разрабатывался с помощью языка программирования HTML, поэтому администратору необходимо знать основные теги этого языка (смотрите приложение №1).

Сам код вводится в блокнот и для каждой ссылки свой документ с кодом, чтобы администратор мог быстро что-то поменять в тезаурусе, ему надо знать все документы и их содержимое. Документом много, поэтому легче графически показать их связи (смотрите рисунок 1.6).


ТЕЗАУРУС

nav new main


документа (А, Б, В, Г и т.д.) ссылка для открытия документов во

фрейме «main»

Рисунок 1.6 - Связь между документами


Если администратор захочет поменять картинки на сайте во фрейме «Ссылки» или «Заголовок», то ему надо открыть документы отвечающие за эти фреймы соответственно: «nav» и «new». Для примера откроем документ «nеw» и рассмотрим код:


<html>

<head>

<title>frame_A</title>

<style type="text/css">{image: url('images/i2.jpg');

}

</style>

<body text=white>

<h1><p align="center">ТЕЗАУРУС ПО ДИСЦИПЛИНЕ КОМПЬЮТЕРНЫЕ СЕТИ</p></h1>

</head>

</body>

</html>


За открытие картинки во фрейме отвечает лишь часть кода:


<style type="text/css"> - применение стилей css;

body { - определяет видимую часть документа;

background-image: url('images/i2.jpg'); - ссылка на картинку, которая будет фоном на нашем сайте;

}

</style> - закрытие тега определяющего стили.


Чтобы поменять картинку, надо лишь изменить название изображения, в нашем случае картинка имеет имя «i2.jpg» и находится в папке «images», но если изображение в другой папке, то замене подлежит и имя папки. Картинки или рисунки должны находится в папке, которая будет вместе с документами тезауруса, иначе ссылка не найдет изображение.

Чтобы добавить новое слово в тезаурус, например «Автоматизация», надо открыть документ, отвечающий за слова на букву «А» «А.html»:


<html> - указывает программе просмотра, что это HTML документ;

<head> - определяет место, где помещается информация не отображаемая в теле документа;

<title>html</title> - Помещает название документа в оглавление программы просмотра страниц;

<body> - определяет видимую часть документа;

<font color="red">Авторизация</font> - текст. - настройка цвета выделенного слова;

<br> - вставляет перевод строки;

</head> - закрытие тега;

</body> - закрытие тега;

</html> - закрытие тега.


И после тега «br» вставляем тег настройки цвета выделенного слова. Выделенным словом будет «Автоматизация» и после тире пишем само определение. Это будет выглядеть так:


<html>

<head>

<title>html</title>

<body>

<font color="red">Авторизация</font> - текст.

<br>

<font color="red">Автоматизация</font> - текст.

</head>

</body>

</html>



ЗАКЛЮЧЕНИЕ


В настоящее время в связи с возрастанием объема информации, необходимой для принятия решений, и возможностями, предоставляемые компьютерными технологиями, автоматизированные тезаурусы стали широко использоваться в различных сферах деятельности человека.

Было прочитано и изучено много теоретического материала, просмотрено большое количество тезаурусов, их сравнение, выяснение плюсов и минусов. Выбор языка программирования или программы для создания сайтов, тип строения и интерфейс тезауруса. Так же мы выяснили, что тезаурусов по учебным дисциплинам не так уж и много, поэтому это был еще один плюс к разработке собственного тезауруса терминов по дисциплине «Компьютерные сети».

Язык программирования HTML был выбран, потому что по сравнению с другими языками он более прост в изучении и использовании, так же у меня имеется опыт работы с ним. По сравнению с конструкторами сайтов в нем присутствует большая свобода действий и выбора.

Пользователь, освоивший этот язык, приобретает возможность делать серьезные вещи простыми методами и, главное, быстро, что в современном мире считается очень хорошо! На языке HTML можно создавать собственные мультимедийные продукты и распространять их на любых носителях информации, и все эти продукты, выполненные в виде наборов HTML-страниц, не требуют разработки специализированных программных средств, так как все необходимое для работы с данными (Web-браузеры) стали частью стандартного программного обеспечения большинства персональных компьютеров. При написании сайта на чистом HTML языке на странице не будет ничего лишнего, она быстро загружается, хорошо доступна для поисковых роботов, легче оптимизируется. В HTML можно продумать свою иерархию страниц, выделить главные и провести добротную внутреннюю оптимизацию сайта.

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ


1.Лукашевич Н.В. Тезаурусы в задачах информационного поиска / Н.В. Лукашевич. - И.: МГУ имени М.В. Ломоносова, 2011, - 512 с.;

2.Джесси Рассел. Тезаурус / Джесси Рассел. - И.: VSD, 2012, - 66с.;

.Иванов В.В. Онтологии и тезаурусы: модели, инструменты, приложения: учебное пособие / В.В. Иванов, Б.В. Добров. - И.: Бином. Лаборатория знаний, 2013, - 173 с.;

.Хольцшлаг М. Языки HTML и CSS: для создания Web-сайтов: учебное пособие / М. Хольцшлаг, Е. Молли; пер, с англ. А. Климович. - М.: ТРИУМФ, 2007, - 304 с.;

.Петюшкин А.В. HTML в Web-дизайне / А.В. Петюшкин. - И.: БХВ-Петербург, 2005, - 400 с.;

.Богомолова О.Б. Web-конструирование на HTML: Практикум / О.Б. Богомолова. - И.: Бином. Лаборатория знаний, 2013, - 192 с.;

.Кеннеди Б. HTML и XHTML: подробное руководство / Кеннеди Б., Муссиано Ч. - И.: Символ-Плюс, 2013, - 752 с.;

.Матросов А.В. HTML 4.0 / А.В. Матросов, М.П. Чаунин, А.О. Сергеева. И.: БХВ-Петербург, 2008, - 672 с.;

.Йен Ллойд. Создай свой Web-сайт с помощью HTML и CSS / Йен Ллойд. - И.: Питер, 2013, - 416 с.;

.Дакетт. Д. HTML и CSS. Разработка и создание Web-сайтов / Дакетт Д. И.: Иксмо, 2013, - 480 с.;



ПРИЛОЖЕНИЕ


Таблица 1 - Основные теги языка программирования HTML

<body vlink=?>Устанавливает цвет гиперссылок на которых вы уже побывали, используя значение цвета в виде RRGGBB - пример: 333333 - серый цвет<body alink=?>Устанавливает цвет гиперссылок при нажатииТеги для форматирования текстаСоздает САМЫЙ БОЛЬШОЙ заголовок<h6></h6>Создает самый маленький заголовок<b></b>Создает жирный текст<i></i>Создает наклонный текст<tt></tt>Создает текст - имитирующий стиль печатной машинки<cite></cite>Используется для цитат, обычно наклонный текст<em></em>Используется для выделения из текста слова (наклонный или жирный текст)<strong></strong>Используется для выделения наиболее важных частей текста (наклонный или жирный текст)<font size=?></font>Устанавливает размер текста в пределах от 1 до 7<font color=?></font>Устанавливает цвет текста, используя значение цвета в виде RRGGBBГиперссылки<a href="URL"></a>Создает гиперссылку на другие документы или часть текущего документа<a href="mailto:EMAIL"> </a>Создает гиперссылку вызова почтовой программы для написания письма автору документа<a name="NAME"></a>Отмечает часть текста как цель для гипперссылок в документе<a href="#NAME"></a>Создает гиперссылку на часть текущего документаФорматирование<p>Создает новый параграф<p align=?>Выравнивает параграф относительно одной из сторон документа, значения: left, right, или center<br>Вставляет перевод строки<blockquote> </blockquote>Создает отступы с обеих сторон текста<ol></ol>Создает нумерованный список<li>Определяет каждый элемент списка и присваивает номер<ul></ul>Создает ненумерованный список<div align=?>Важный тег используемый для форматирования больших блоков текста HTML документа, также используется в таблицах стилейГрафические элементы<img src="http://hardline.ru/download/name">Добавляет изображение в HTML документ<img src="http://hardline.ru/download/name" align=?>Выравнивает изображение к одной из сторон документа, принимает значения: left, right, center; bottom, top, middle<img src="http://hardline.ru/download/name" border=?>Устанавливает толщину рамки вокруг изображения<hr>Добавляет в HTML документ горизонтальную линию<hr size=?>Устанавливает высоту (толщину) линии<hr width=?>Устанавливает ширину линии, можно указать ширину в пикселях или процентах<hr noshade>Создает линию без тени<hr color=?>Задает линии определенный цвет. Значение RRGGBBКадры<frameset></frameset>Предваряет тег <body> в документе, содержащем кадры<frameset rows="value,value">Определяет строки в таблице кадров, высота которых определена кол-вом пикселей или в процентном соотношении к высоте таблицы кадров<frameset cols="value,value">Определяет столбцы в таблице кадров, ширина которых определена кол-вом пикселей или в процентном соотношении к ширине таблицы кадров<frame>Определяет единичный кадр или область в таблице кадров<noframes></noframes>Определяет, что будет показано в окне браузера, если он не поддерживает кадрыАтрибуты кадров<frame src="http://hardline.ru/download/URL">Определяет, какой из HTML документов будет показан в кадре<frame name="name">Указывает Имя кадра или области, что позволяет перенаправлять информацию в этот кадр или область из других кадров<frame marginwidth=#>Определяет величину отступов по левому и правому краям кадра; должно быть равно или больше 1<frame marginheight=#>Определяет величину отступов по верхнему и нижнему краям кадра; должно быть равно или больше 1<frame scrolling=VALUE>Указывает будет ли выводится линейка прокрутки в кадре; значение value может быть "yes," "no," или "auto". Значение по умолчанию для обычных документов - auto<frame noresize>Препятствует изменению размеров кадраФормы<form></form>Создает формы<select multiple name="NAME" size=?></select>Создает скролируемое меню. Size устанавливает кол-во пунктов меню, которое будет показано на экране, остальные будут доступны при использовании прокрутки<option>Указывает каждый отдельный элемент меню<select name="NAME"></select>Создает ниспадающее меню<option>Указывает каждый отдельный элемент меню<textarea name="NAME" cols=40 rows=8></textarea>Создает окно для ввода текста. Columns указывает ширину окна; rows указывает его высоту<input type="checkbox" name="NAME">Создает checkbox. За тегом следует текст<input type="radio" name="NAME" value="x">Создает radio кнопку. За тегом следует текст<input type=text name="foo" size=20>Создает строку для ввода текста. Параметром Size указывается длина в символах


Министерство сельского хозяйства Российской Федерации Бузулукский гидромелиоративный техникум Филиал ФГБОУ ВПО Оренбургский ГАУ

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ