Особенности баз данных PCBIRS

PCBIRS допускает хранение неструктурированной и структурированной информации в виде множества документов, образующих базу данных.

Каждый документ представляется в виде именованных текстовых фрагментов. Совокупность имен фрагментов образует структуру базы.
Каждый фрагмент документа может содержать произвольный текст (вместе с таблицами, графическими изображениями, кнопками) или отдельные данные. Разбиение документа на фрагменты не является обязательным. В частности документ может состоять из одного фрагмента (неструктурированный документ), или состоять из множества фрагментов, содержащих отдельные данные (аналог записи в традиционных СУБД). Структуру документов можно переопределять динамически : менять местами, переименовывать, добавлять, уничтожать отдельные фрагменты без физической реорганизации базы. Разбиение документов на фрагменты позволяет гибко варьировать формы просмотра и вывода на печать.

Для фрагментов назначаются так называемые поля. Последние определяют правила выборки и интерпретации лексических единиц, содержащихся в текстах различных фрагментов документа.
В PCBIRS различаются поля с позиционной и словарной выборкой.
Поля никак не связаны со способом хранения информации, типами данных, и, как правило, назначаются динамически в зависимости от решаемой задачи поиска и анализа.
Для одного и того же фрагмента может быть назначено несколько типов полей, которым можно присваивать имена.
В частном случае, когда поле PCBIRS определяет позиционную выборку всего текста фрагмента, оно совпадает с принятым в обычных СУБД понятием поля.
В PCBIRS в качестве поля могут, например, выступать все слова фрагмента или только числа, содержащиеся в тексте (числа, даты, время распознаются автоматически по способу написания), или наборы символов, начиная с некоторой позиции, и т.д..

В PCBIRS все докуметы проходят автоматическую индексацию по содержанию.
В результате индексации строится словарь поисковых терминов, обеспечивающий высокую скорость контекстного поиска документов.
Управление индексацией осуществляется на уровне полей.
По умолчанию, при создании новой базы, предполагается хранение в ней бесструктурных документов (один фрагмент) с полем, определяющем выборку всех слов из текста, которые направляются в словарь поисковых терминов. При необходимости структура документа может быть дополнена новыми фрагментами, а для каждого фрагмента указаны специфические поля (правила) индексации текста.

Документы могут быть введены в базу непосредственно с помощью клавиатуры и/или из внешних источников .
В качестве внешних источников могут выступать произвольные текстовые файлы и базы данных. При этом имеется возможность хранить или не хранить в базе PCBIRS тексты источников (в последнем случае в базе запоминаются лишь соответствующие ссылки).
Таким образом PCBIRS обеспечивает максимальную независимость баз данных от способа хранения информации. На одном и том же информационном массиве может быть построено множество баз в зависимости от решаемых задач поиска и анализа.

Гибкое варьирование фрагментов, полей и форм отображения информации реализует интегрированность при работе с разнородной информацией.
Методы быстрого контекстного поиска применимы к любым базам независимо от степени структурированности данных.
При этом обеспечивается единый стериотип работы как со структурированными, так и полнотекстовыми базами данных.