Каждый документ представляется в виде именованных текстовых
фрагментов. Совокупность имен фрагментов образует структуру базы.
Для фрагментов назначаются так называемые поля.
Последние определяют правила выборки и интерпретации лексических единиц,
содержащихся в текстах различных фрагментов документа.
В PCBIRS все докуметы проходят автоматическую индексацию по содержанию.
Документы могут быть введены в базу непосредственно с помощью клавиатуры
и/или из внешних источников .
Гибкое варьирование фрагментов, полей и форм отображения информации
реализует интегрированность при работе с разнородной информацией.
Каждый фрагмент документа может содержать
произвольный текст (вместе с таблицами, графическими изображениями,
кнопками) или отдельные данные.
Разбиение документа на фрагменты не является обязательным.
В частности документ может состоять из одного фрагмента
(неструктурированный документ), или
состоять из множества фрагментов, содержащих отдельные данные
(аналог записи в традиционных СУБД).
Структуру документов можно переопределять динамически :
менять местами, переименовывать, добавлять, уничтожать отдельные
фрагменты без физической реорганизации базы.
Разбиение документов на фрагменты позволяет гибко варьировать
формы просмотра и вывода на печать.
В PCBIRS различаются поля с позиционной и словарной выборкой.
Поля никак не связаны со способом хранения информации, типами данных,
и, как правило, назначаются динамически в зависимости от решаемой задачи
поиска и анализа.
Для одного и того же фрагмента может быть назначено несколько
типов полей, которым можно присваивать имена.
В частном случае, когда поле PCBIRS определяет позиционную выборку всего
текста фрагмента, оно совпадает с принятым в обычных СУБД понятием поля.
В PCBIRS в качестве поля могут, например, выступать все слова фрагмента
или только числа, содержащиеся в тексте (числа, даты, время распознаются
автоматически по способу написания), или наборы символов, начиная с
некоторой позиции, и т.д..
В результате индексации строится словарь поисковых терминов, обеспечивающий высокую скорость контекстного поиска документов.
Управление индексацией осуществляется на уровне полей.
По умолчанию, при создании новой базы, предполагается хранение в ней
бесструктурных документов (один фрагмент) с полем,
определяющем выборку всех слов из текста, которые направляются в словарь
поисковых терминов. При необходимости структура документа может быть
дополнена новыми фрагментами, а для каждого фрагмента указаны специфические
поля (правила) индексации текста.
В качестве внешних источников могут выступать произвольные текстовые файлы и базы данных.
При этом имеется возможность хранить или не хранить в базе PCBIRS тексты источников (в последнем случае в базе запоминаются лишь соответствующие ссылки).
Таким образом PCBIRS обеспечивает максимальную независимость баз данных
от способа хранения информации. На одном и том же информационном массиве
может быть построено множество баз в зависимости от решаемых
задач поиска и анализа.
Методы быстрого контекстного поиска применимы к любым базам независимо от степени структурированности данных.
При этом обеспечивается единый стериотип работы как со структурированными, так и полнотекстовыми базами данных.