Использование ключевых слов и рубрикатора ГАСНТИ в индексировании документов
(Из опыта работы отдела научной обработки документов)

Туринге Людмила Александровна,
зав. отделом обработки
научной библиотеки
Кемеровского государственного университета

В отделах научной обработки литературы до применения автоматизации содержание изданий раскрывали посредством индексов таблиц классификации, а также предметных рубрик. Сегодня в библиотеках имеются электронные каталоги и ведется автоматизированный поиск. К перечисленным видам аналитической обработки документов добавился еще один вид предмашинной обработки - раскрытие содержания документа посредством координатного индексирования, т.е. выявления и перечисления ключевых слов.

Согласно ГОСТ 7.74- 96 ключевой слово - это информативное слово, приведенное в стандартной лексикографической форме и используемое для координатного индексирования. Координатное индексирование - это индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов. Совокупность ключевых слов составляет поисковый образ документа (ПОД). Преимущество метода координатного индексирования проявляется при необходимости многоаспектного поиска информации на определенную тему. При этом важнейшие критерии оптимальной работы - полнота выдачи документов и их релевантность запросу.

Термин "координатное индексирование" включает в себя составление к документу перечня ключевых слов. Ключевые слова - это предметный вход в библиографические базы данных: они имеют исключительно важное значение для поиска по теме.

Слова и словосочетания для предметного входа составляются по определенным правилам. Ключевые слова - это наиболее значимые слова из текста. Они представляют собой:
- преимущественно существительные;
- существительные с прилагательными;
- персоналии;
- имена собственные;
- географические названия;
- аббревиатура;
- числительные;
- вводятся синонимы;
- применяется форма множественного числа;
- именительный падеж;
- вид издания;
- термины, обозначающие процессы и вид деятельности;
- понятия, называющие отрасль знания;
- не вводятся словосочетания с союзом "и".

Для машинного поиска не имеет значение, в каком порядке отражены понятия. Важно при всей полноте и глубине отразить содержание документа, при этом нельзя не учитывать распространенную формулировку читательского запроса. При недостаточном отражении ПОД возникает ситуация, когда документы по нужной теме не попали в список по поиску в ЭК. Или может появиться новое описание или синоним ранее известного термина. Это надо учитывать в дальнейшей работе по вводу новых документов и корректировке существующих записей. Таким образом, систематизаторы для себя усложняют работу и увеличивают ее объем, а для читателя - упрощают, делают поиск более доступным и комфортным.

Когда речь идет о координатном индексировании, предполагается наличие словаря. Библиотеки составляют их по своей методике, созданы отраслевые словари крупными библиотеками страны. В нашей библиотеке справочник ключевых слов создается с 1993 года по методике Гендиной Н. И. (Лингвистическое обеспечение автоматизированных библиотечных систем). В настоящее время в справочнике около 36000 слов. По нашей программе на каждое издание можно записать 10 ключевых слов (столько полей в обработке). Слова пишутся систематизаторами на карточке и вкладываются в книгу, библиотекарь-оператор при машинной обработке проверяет каждое слово по справочнику. Слова из справочника приписываются к новым книгам, каждое новое слово автоматически записывается в справочник ключевых слов. Предусмотрена корректировка ключевых слов в справочнике, а также удаление ошибочных.

Рубрикатор ГАСНТИ - один из общесистемных ИПЯ. Рубрикатор находится в общем ряду с УДК, ББК и другими ИПЯ и не отменяет их, а используется одновременно с ними. Рубрикатор ГАСНТИ создан для автоматизированных систем НТИ. Его отличает малая глубина иерархии (три уровня), достаточно высокая мобильность, обозримость схемы классификации и возможность оперативного внесения изменений. Его семантическая сила гораздо меньше, чем у других ИПЯ. Объем сборника включает 6118 рубрик.

Практическое использование Рубрикатора выявило ряд ограничений, вытекающих из особенностей структуры и назначения этого ИПЯ: он предназначен для отражения самых важных аспектов документов и запросов и обеспечивает деление всего потока на крупные блоки, но не располагает достаточными средствами для детального отражения документов. Как язык тематического описания Рубрикатор является классификационным инструментом, взаимно дополняющим другие классификации. Он не заменяет ИПЯ дескрипторного типа, а совместное их применение дает значительный эффект при автоматизированном поиске информации.

Усилия специалистов по глубокому, полному, точному индексированию окупятся в итоге благодарностью читателей.
Как можно организовать поиск в ЭК, если читатель затрудняется в формулировке слова? Должен быть диалог читателя с ЭК, желательно в режиме "вопрос-ответ". Если будут более совершенные программы, то можно будет развивать диалоговый поиск.

 

<Назад>____________<Вперед>____________<Содержание>____________<На главную>