МЕТОДИКА СОЗДАНИЯ ДЕСКРИПТОРНОГО СЛОВАРЯ

Скипор Инна Леоновна,
доцент кафедры ТАОИ, КемГАКИ

1. Общие положения
1.1. Назначение

Назначение методики заключается в системном представлении технологии разработки дескрипторного словаря; снижении субъективности действий человека при отборе и нормализации ключевых слов и оформлении их в виде словаря; снижении временных и интеллектуальных затрат на создание дескрипторного словаря.

1.2. Область применения

Данная методика может быть использована в библиотеках различных типов, информационных службах и учреждениях при создании ими дескрипторных словарей, формируемых и используемых в условиях функционирования автоматизированных информационно-библиотечных систем и сетей.

1.3. Объект

В качестве объекта упорядочения при создании дескрипторного словаря выступает лексика заданной тематической области.

1.4. Описание цели, задач

Целью методики создания дескрипторного словаря является алгоритмизация действий человека при отборе, нормализации и систематизации лексики, а также оформлении дескрипторного словаря.

Достижение поставленной цели требует решения следующих задач:
______- определение источников и критериев отбора лексики;
______- установление правил дескрипторизации ключевых слов;
______- формирование дескрипторного словаря и его оформление.

1.5. Требования к конечному продукту

Качество подготовленного на основе данной методики дескрипторного словаря должно удовлетворять требованиям ГОСТ 7.25-80 "Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления" в той части, которая устанавливает требования к формированию словника информационно-поискового тезауруса и построению словарных статей.

1.6. Организация-разработчик

Методика разработана на кафедре технологии автоматизированной обработки информации Кемеровской государственной академии культуры и искусств.

1.7. Источники, использованные при разработке

1.ГОСТ 7.74-96 Информационно-поисковые языки. Термины и определения. - Минск, 1997. - 21 с.
2. ГОСТ 7.24-90 Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. - М., 1990. - 8 с.
3.ГОСТ 7.25-80 Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления.- М., 1981.- 16 с.
4. Воройский Ф.С. Индексирование документов в АБИС// Библиотека. - 1996. - № 9. - С. 42-44.
5. Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем. - Алма-Ата: Гылым, 1991. - 222 с.
6. Методика разработки и ведения тезауруса информационно-поискового (ИПТ) // Создание электронных каталогов: Из опыта работы Российской государственной библиотеки/ Рос. гос. б-ка; Сост. О.А. Лавренова. - М, 1996. - С. 65 - 77.
7. Соколов А.В. Информационно-поисковые системы. Автоматизация библиографического поиска: Учеб. пособие/ ЛГИК им. Н.К. Крупской. - Л., 1983. - 88 с.
8. Соколов А.В. Методические материалы по разработке информационно-поисковых тезаурусов. - Л., 1975. - 68 с.
9. Типовая технологическая инструкция по индексированию документов в узлах КСПБМ - № 5 ОКиО// Создание корпоративной сети публичных библиотек Москвы (КСПБМ): Рабочий проект. Т.1. Порядок формирования, хранения и использования машиночитаемых ресурсов общего пользования КСПБМ/ Отв. исполнитель проекта Ф.С. Воройский. - М., 2001. - С.53-56.
10. Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. - М., 1974.

2. Технология работы
2.1. Исходный продукт

В качестве исходного продукта при создании дескрипторного словаря выступают:
______1) Ранее разработанные ИПЯ:
______ ______- Универсальная десятичная классификация (УДК);
______ ______- Библиотечно-библиографическая классификация (ББК);
______ ______- Государственный рубрикатор НТИ (ГР НТИ);
______ ______- Отраслевые и локальные рубрикаторы;
______ ______- Классификаторы технико-экономической и социальной информации;
______ ______- Информационно-поисковые тезаурусы.
______2) Справочные издания по тематике разрабатываемого дескрипторного словаря:
______ ______- Энциклопедические словари;
______ ______- Толковые словари;
______ ______- Терминологические словари и справочники.
______3) Нормативные издания.
______4) Терминологические ГОСТ по тематике разрабатываемого дескрипторного словаря.
______5) Массив документов по тематике.
______6) Массив информационных запросов.

2.2. Методы преобразования информации при создании дескрипторного словаря

В основе построения дескрипторного словаря лежит технологический подход. Сущность используемого метода заключается в том, что при составлении дескрипторного словаря задана определенная технология, которая регламентирует деятельность человека. Наряду с технологическим подходом используются методы логического анализа, метод классификации лексических единиц, унификации и стандартизации представления ключевых слов.

2.3 Перечень выполняемых технологических операций

Технология разработки дескрипторного словаря включает выполнение следующих операций:
______1. Определение тематического охвата дескрипторного словаря;
______2. Формирование словника ключевых слов;
______3. Дескрипторизация ключевых слов;
______4. Организационное оформление дескрипторного словаря;
______5. Экспертиза и регистрация дескрипторного словаря.

2.4. Ожидаемый результат технологического процесса

Результатом использования методики является создание дескрипторного словаря.

Обязательными составными частями являются вводная часть и алфавитный перечень дескрипторных и аскрипторных статей.

Оформление элементов структуры дескрипторного словаря должно осуществляться в соответствии с требованиями ГОСТ 7.25-80 Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления.

2.5. Последовательность выполнения отдельных
технологических операций

2.5.1. Определение тематического охвата дескрипторного словаря. Определение тематического охвата дескрипторного словаря осуществляется на основе Государственного рубрикатора НТИ (ГР НТИ) путем анализа информационных потребностей абонентов либо анализа задач, решаемых информационной системой. Например, анализ информационных потребностей пользователей информационной системы показал необходимость разработки дескрипторного словаря по проблеме аналитико-синтетической переработки информации. В Государственном рубрикаторе НТИ выделена рубрика, которая имеет следующее наполнение:
______20.19 Аналитико-синтетическая переработка документальных источников информации.
______20.19.01 Общие вопросы
______20.19.15 Библиографическое описание источников информации
______20.19.17 Предметизация и индексирование
______20.19.19 Аннотирование и реферирование
______20.19.21 Составление обзоров
______20.19.23 Перевод научных текстов
______20.19.27 Автоматизация знаковой обработки текста
______20.19.29 Обработка изобразительных и аудиовизуальных материалов

Таким образом, использование ГР НТИ позволяет определить границы предметной области (темы). При этом может быть принято решение о расширении либо сужении тематических границ разрабатываемого дескрипторного словаря в зависимости от информационных потребностей абонентов либо задач, решаемых информационной системой.

2.5.2.Формирование словника ключевых слов. Формирование словника ключевых слов осуществляется с целью создания исходного терминологического массива, который в последующем подвергается специальной семантической переработке. Важнейшим требованием, предъявляемым к словнику ключевых слов, является полнота охвата терминологии. Требование полноты является относительным, т.к. в словник ключевых слов включается не вся терминология, а только та, которая используется в поисковых образах документов и поисковых образах запросов. Кроме того, со временем появятся новые термины, которые предусмотреть невозможно. Состав основных источников отбора лексики см. п. 2.1.
При формировании словника в состав лексики следует отбирать ключевые слова. Под ключевым словом понимается слово, несущее в тексте наибольшую смысловую нагрузку.
______2.5.2.1. Критерии различения ключевых слов от "неключевых":
______ ______1) Все служебные слова (предлоги, союзы, частицы и т.п.) следует считать "неключевыми";
______ ______2) Термины, частота встречаемости которых в данном документальном массиве мала, не следует включать в словник ключевых слов, а учитывать их в отдельном списке в качестве ключевых слов-кандидатов;
______ ______3) Часто встречающиеся, но весьма общие термины (например, "описание", "устройство", "конструкция", "метод", "система") следует либо исключать, либо употреблять в сочетании с другими словами, сужающими их значение;
______ ______4) Термины, не относящиеся к данной терминологической области, включать в словник ключевых слов не имеет смысла;
______ ______5) Полисемичные термины включаются только в тех значениях, в которых они употребляются в данной тематической области, с соответствующими пояснениями.
______2.5.2.2. При составлении словника ключевых слов целесообразно ориентироваться на использование единичных ключевых слов. Использование устойчивых словосочетаний допускается в тех случаях, когда они удовлетворяют приведенным ниже лингвистическим или прагматическим критериям распознавания устойчивых словосочетаний.
______ ______2.5.2.2.1. Лингвистические критерии распознавания устойчивых словосочетаний приведены в табл. 1.

Таблица 1. Правила распознавания устойчивых словосочетаний

Словосочетание является устойчивым, если оно удовлетворяет хотя бы одному из перечисленных в таблице двух критериев.
______ ______2.5.2.2.2. Прагматические критерии распознавания устойчивых словосочетаний:
______ ______ ______1) Следует сохранять словосочетание, если в данном словаре ключевых слов очень мала вероятность использования его компонентов по отдельности;
______ ______ ______2) Следует сохранять часто встречающиеся словосочетания, разделение которых в принципе возможно, но неэкономично с точки зрения ввода в автоматизированную информационную систему.

2.5.3. Дескрипторизация ключевых слов. Процесс дескрипторизации делится на 2 этапа: нормализация ключевых слов и установление классов условной эквивалентности.
______2.5.3.1. Нормализация ключевых слов. Нормализация ключевых слов осуществляется с целью лексикографической обработки словника ключевых слов и приведения их к стандартной для словаря ключевых слов форме записи.
______ ______2.5.3.1.1. Существительные, прилагательные и причастия записываются в именительном падеже (например, законы, поиск, правовые, информационные и т.п.)
______ ______2.5.3.1.2. При выборе между формами единственного и множественного числа рекомендуется придерживаться правил, представленных в таблице 2.

Таблица 2. Использование единственного и множественного числа при нормализации ключевых слов

Общее правило использования единственного и множественного числа заключается в том, что форма множественного числа употребляется для исчисляемых понятий, а форма единственного числа - для неисчисляемых понятий.
______ ______2.5.3.1.3. Прилагательные и причастия записываются в форме именительного падежа множественного числа мужского рода (например, ручные, автоматизированные, информационные).
______ ______2.5.3.1.4. При определении порядка слов в словосочетании для обеспечения экономичности и единообразия формулировок ключевых слов рекомендуется использовать инвертированную форму записи (например, технологии информационные; системы библиотечные автоматизированные).
______ ______2.5.3.1.5. Кроме перечисленных в п. 2.5.3.1.1.- 2.5.3.1.4. общих правил при образовании ключевых слов следует ориентироваться на следующие дополнительные правила:
______ ______ ______2.5.3.1.5.1. Географические названия используются в том же виде, как и в географических справочниках или картах (например, Северная Америка);
______ ______ ______2.5.3.1.5.2. Имена собственные, присвоенные неодушевленным предметам, событиям и т.п., а также объединениям и партиям, пишутся в кавычках. Например, "Багратион", "Адмирал Нахимов", "Комсомолец", "Яблоко" и т.п.;
______ ______ ______2.5.3.1.5.3. Официально принятые и устоявшиеся понятия (светские и религиозные праздники, термины народного календаря и лечебника) записываются полными словосочетаниями и без кавычек. Например, День Победы, Татьянин день, День Благодарения. При наличии нескольких вариантов названий предпочтение отдается более краткому. Например, Рождество Христово - записывается Рождество;
______ ______ ______2.5.3.1.5.4. Названия технических средств записываются с конкретизацией названия или номера модели; при этом отдельным ключевым словом записывается тип изделия. Например, автомобили, ВАЗ 2106; холодильники, ЗИЛ 204; самолеты, Boeing 408;
______ ______ ______2.5.3.1.5.5. Названия иностранных фирм и торговые марки записываются на языке оригинала либо по-русски, если в издании фигурирует только русская транскрипция. Например, IBM, Panasonic, Коника;
______ ______ ______2.5.3.1.5.6. Названия войн записываются как устойчивое словосочетание названия войны и отдельно - слово "войны". Например, Великая Отечественная война, войны; Первая мировая война, войны. В случае неустоявшегося названия войны записывается слово "войны", название государства и годы. Например, Афганская война - войны, Афганистан, 1980-1992;
______ ______ ______2.5.3.1.5.7. Ключевыми словами могут быть ГОСТированные и общепринятые сокращения и аббревиатуры, при этом они записываются без точек между буквами. Например, СССР, ЛДПР, ООО, АОЗТ, ГОСТ, ТУ и т.д.;
______ ______ ______2.5.3.1.5.8. Глаголы записываются в виде отглагольного существительного. Например, преобразуют - преобразование;
______ ______ ______2.5.3.1.5.9. Наречия заменяются на соответствующие прилагательные. Например, автоматически - автоматические;
______ ______ ______2.5.3.1.5.10. Деепричастия преобразуются в соответствующие существительные. Например, поставляя - поставка;
______ ______ ______2.5.3.1.5.11. При описании века используют арабские цифры и "В" без точки и пробелов. Например, 19В, 20В. Устоявшиеся названия веков записываются как одна лексическая единица. Например, Серебряный век, Бронзовый век;
______ ______ ______2.5.3.1.5.12. Годы записываются арабскими цифрами и буквой "Г" для одного года или "ГГ" для интервала лет. Например, 1954Г, 1941-1945ГГ;
______ ______ ______2.5.3.1.5.13. Десятилетия записываются арабскими цифрами, дефис, "е", интервал и "ГГ". Например, 20-е ГГ; 20-50-е ГГ.
______2.5.3.2. Установление классов условной эквивалентности. Установление классов условной эквивалентности осуществляется с целью устранения синонимии, омонимии и полисемии в отобранном массиве ключевых слов.
______ ______2.5.3.2.1. Класс условной эквивалентности (КУЭ) - это совокупность лексических единиц, которые являются условно синонимичными в данной области знания и используются в данном ИПЯ как равнозначные с точки зрения информационного поиска. Выделяют два вида эквивалентности ключевых слов: имманентная и факультативная.
______ ______2.5.3.2.1.1. Имманентная (безусловная) эквивалентность ключевых слов:
______ ______ ______1) лексические синонимы (например, дефект = неисправность; габарит = размер);
______ ______ ______2) полное наименование и общепринятое сокращение (например, автоматизированные информационные системы = АИС; избирательное распространение информации = ИРИ; запись видеомагнитная = видеозапись).
______ ______2.5.3.2.1.2. Факультативная (условная) эквивалентность ключевых слов:
______ ______ ______1) эллипсы (пропуски слов в речи), имеющие хождение в той или иной отрасли знания (например, машина = электронно-вычислительная машина; инфракрасный = диапазон инфракрасный);
______ ______ ______2) семантически родственные слова, смысловым различием которых можно пренебречь в рамках данной ИПС, т. е. квазисинонимы (например, воздух = атмосфера; местоположение = координата; диаметр = радиус);
______ ______ ______3) термины, выражающие понятия и представления, связанные логическими отношениями и психологическими ассоциациями (например, авиация = самолет; алюминий = дюраль; точность = ошибка).
______ ______2.5.3.2.2. В дескрипторном словаре достижение однозначности осуществляется следующим образом:
______ ______ ______2.5.3.2.2.1. Синонимия устраняется с помощью помет см. и с.
______ ______ ______ ______Например, Языковедение
______ ______ ______ ______ ______см. ЯЗЫКОЗНАНИЕ

______ ______ ______ ______ ______ЯЗЫКОЗНАНИЕ
______ ______ ______ ______ ______с. лингвистика
______ ______ ______ ______ ______языковедение
______ ______ ______2.5.3.2.2.2. Омонимия и полисемия устраняется с помощью развертывания слова до словосочетания либо помет в круглых скобках.
______ ______ ______ ______Например, ТЕХНОЛОГИИ БИБЛИОТЕЧНЫЕ
______ ______ ______ ______ ______ТЕХНОЛОГИИ ИНФОРМАЦИОННЫЕ

______ ______ ______ ______ ______БИБЛИОГРАФИЯ (деятельность)
______ ______ ______ _____ _______БИБЛИОГРАФИЯ (наука)
______ ______ ______ ____ ________БИБЛИОГРАФИЯ (указатель литературы)

______2.5.3.3. После проведения нормализации ключевых слов производится выбор одного из ключевых слов в качестве дескриптора. Дескриптор - это нормализованное слово, которому искусственным путем придана смысловая однозначность. Остальные лексические единицы, входящие в класс условной эквивалентности, получают статус аскриптора. Аскриптор - это лексическая единица, подлежащая замене на дескриптор в поисковых образах документов (поисковых образах запросов) при поиске и обработке информации.
______ ______2.5.3.3.1. При выборе ключевого слова в качестве дескриптора рекомендуется учитывать:
______ ______ ______1) полноту выражения ключевым словом смыслового значения данного КУЭ;
______ ______ ______2) однозначность термина;
______ ______ ______3) краткость;
______ ______ ______4) частоту встречаемости в текстах документов и запросов.
______ ______2.5.3.3.2. Дескрипторы снабжаются ссылками на аскрипторы, образуя дескрипторную статью. Например,
______ ______ ______ЯЗЫКОЗНАНИЕ
______ ______ ______с лингвистика
______ ______ ______языковедение
______ ______2.5.3.3.3. Лексические единицы, получившие статус аскриптора, снабжаются пометой см., образуя аскрипторную статью. Например,
______ ______ ______Лингвистика
______ ______ ______см. ЯЗЫКОЗНАНИЕ

______ ______ ______Языковедение
______ ______ ______см. ЯЗЫКОЗНАНИЕ

______2.5.3.4. Результатом дескрипторизации ключевых слов является дескрипторный словарь - алфавитный перечень дескрипторных и аскрипторных статей.

2.5.4. Организационное оформление дескрипторного словаря.
При оформлении дескрипторного словаря следует ориентироваться на общие требования к оформлению информационно-поискового тезауруса, закрепленные в ГОСТ 7.25-80 Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. Структура дескрипторного словаря включает: вводную часть (титульный лист и введение); алфавитный перечень дескрипторных и аскрипторных статей.
______2.5.4.1. Введение должно содержать следующие сведения:
______ ______- цель создания и область применения дескрипторного словаря;
______ ______- ссылки на источники, использованные для сбора лексики дескрипторного словаря;
______ ______- описание порядка составления дескрипторного словаря;
______ ______- описание состава и структуры дескрипторного словаря;
______ ______- количественные характеристики дескрипторного словаря (общее число дескрипторных и аскрипторных статей);
______ ______- перечень всех символов, допущенных для представления лексических единиц.
______2.5.4.2. Алфавитный перечень дескрипторных и аскрипторных статей. Устанавливается следующий приоритет символов при алфавитном расположении лексических единиц:
______ ______- пробел и знаки препинания, кроме дефиса;
______ ______- русские буквы;
______ ______- цифры;
______ ______- латинские буквы;
______ ______- буквы других алфавитов и специальные символы.
Лексические единицы, написанные через дефис, занимают то же алфавитное место, что и при слитном описании.

2.5.5.Экспертиза и регистрация дескрипторного словаря
Разработанный и оформленный дескрипторный словарь направляется на экспертизу и регистрацию в творческую лабораторию при Едином центре каталогизации Кемеровской областной научной библиотеки им. В. Федорова.

 

<Назад>____________<Вперед>____________<Содержание>____________<На главную>