Выбор темы и баз данных
Поиск документов
Каталоги запросов
Анализ результатов поиска
Операции с документами
Вывод информации
Подготовка приложений
Создание баз данных
Ввод информации в базу
Перед началом диалогового сеанса пользователю в зависимости от его статуса предлагается список доступных баз данных и так называемых тем (набор баз данных, связанных тематической направленностью).
Выбор нужной темы или базы данных осуществляется двойным щелчком левой кнопки мышки. К выбранной базе можно подключить в качестве подбаз несколько отмеченных баз, если требуется провести сквозной поиск в нескольких базах данных одновременно. В этом же режиме можно создать новую базу, описав ее структуру, изменить описание структуры существующей базы, сформировать новую тему и т.д..
Поиск документов в PCBIRS осуществляется по тем лексическим единицам (словам, числам, датам и их интервалам), которые содержатся в текстах документов. В простейшем случае эти термины (или их части) Вы можете непосредственно отметить левой кнопкой мышки в тексте просматриваемого документа и выполнить поиск документов, содержащих эти термины в той же или другой базе данных, включенной в тему.
Другой метод поиска заключается в предварительной формулировке и выполнении так называемых предложений запроса. В этом режиме предоставляется возможность формирования как простых, так и довольно сложных условий поиска, включающих логику вхождения терминов в тексты документов, их контекстную близость, ограничения области поиска и т.п. Поисковые термины можно выбирать непосредственно из словаря базы данных, который формируется автоматически при добавлении каждого документа в базу, и из вспомогательных тематических словарей, которые формируются самостоятельно в зависимости от области Ваших интересов.
В режиме формирования текста запроса имеется возможность уточнять ранее выполненные запросы и запоминать их для последующего многократного использования.
За счет поддержки автоматически формируемых словарей и инвертированных списков в PCBIRS достигается высокая скорость поиска документов по содержанию.
Высокая скорость контекстного поиска позволяет реализовать технологию распознавания содержания крупных информационных массивов, которая в PCBIRS связана с возможностью довольно быстро выполнять пакеты запросов, хранящихся в специальных каталогах.
Тексты запросов на поиск документов можно оформлять в виде понятий и иерархических классов и сохранять их в так называемых каталогах запросов для последующего многократного использования.
Простейшие понятия, как правило, содержат список синонимов (например понятие "мебель" может включать слова: стол, стул, диван и т.д.).
PCBIRS при необходимости позволяет формировать сложные понятия, содержащие ссылки на ранее определенные понятия (например понятие "несчастный случай" может включать понятия "стихийные бедствия", "аварии", "смертельный исход" и др.).
В PCBIRS предусмотрен механизм формирования понятий и тематических классов, которые не только экономят время при составлении сложных запросов, но позволяют проводить быструю классификацию документов по содержанию в крупных массивах текстовой информации. При этом классификация массивов в сотни мегабайт может занимать всего несколько секунд.
Каталоги запросов это то место, в котором пользователь фиксирует свои знания о предметной области.
PCBIRS поддерживает множество таких каталогов, которые могут вызываться для любой базы в зависимости от потребности. В конечном итоге это позволяет понять содержимое больших массивов не читая сами документы.
Нельзя, однако, забывать, что контекстный поиск практически всегда сопровождается такими явлениями, как информационный шум и неполнота выборки. Поэтому в PCBIRS очень важное место занимают методы анализа найденной информации. Множество найденных документом можно фиксировать для последующих операций и инвертировать для просмотра и анализа документов не вошедших в область поиска.
Если найденных документов много, то обычное листание и просмотр текста каждого документа может оказаться утомительным занятием, несмотря на то, что в документах осуществляется подсветка актуальных терминов. Существенным облегчением может послужить просмотр частотного словаря документа, настроенный на фильтры определенной тематики. Это особенно важно при просмотре крупных документов. Отмечая то или иное слово в частотном словаре можно осуществлять быстрый скроллинг на нужное место в тексте. В этом режиме можно
формировать тематические словари, которые могут использоваться в дальнейшем при подготовке текстов запросов и анализа информации.
Вспомогательный список позволит Вам просмотреть тексты только определенных фрагментов (например, названий документов).
Мониторинг результата поиска позволяет вывести на экран только список актуальных фраз из текстов найденных документов.
Другой метод анализа найденных документов заключается в формировании виртуальных списков данных, выбранных из текстов найденных документов, и представления их в виде различных диаграмм, графиков, двух- и трехмерных таблиц, в виде иерархических деревьев.
Для формирования виртуальных списков достаточно указать какие фрагменты и в каком порядке будут участвовать в выборке данных из текстов. А затем выбрать форму представления информации из предлагаемого списка.
Все способы отображения данных в PCBIRS обладают интерактивным свойством. Отмечая левой кнопкой мышки сектор на диаграмме, точку на графике, ячейку в таблице и т.п., Вы имеете возможность просмотреть тексты документов, породивших соответствующие данные, что существенно облегчает понимание полученных результатов.
Эти методы не только позволяют проводить сортировку и отбор документов в зависимости от содержащихся в них данных, но могут иметь самостоятельное значение для принятия решений и формирования различных отчетов.
Встроенный в PCBIRS табличный калькулятор позволяет проводить расчеты над данными виртуальных списков.
Типичные методы анализа информации могут быть оформлены как вспомогательные команды PCBIRS и вызываться пользователем с помощью дополнительных кнопок и меню, которые он самостоятельно может подключать к общему интерфейсу PCBIRS.
Для осуществления более сложных методов анализа информации в PCBIRS предусмотрен макроязык программирования BML, который позволяет реализовать необходимые алгоритмы преобразования и отображения найденной информации в различных формах (таблицы, бланки и т.п.)
Найденные документы можно удалять из текста запроса, из базы данных, редактировать с немедленной или отложенной индексацией, отправлять на печать или экспортировать полностью или частично в другие приложения WINDOWS. Предоставляется гибкая возможность менять форму представления информации отключая/включая различные фрагменты документов, меняя их местами, выбирая различные стили шрифтов и цветовой гаммы.
Найденные документы могут быть выведены на печать в различных формах (3 общих формы, таблицы отчетов, мониторинг актуальных фраз, частные формы и бланки).
На печать могут выводится гистограммы, графики, двух- и трехмерные таблицы данных из текстов найденных документов.
При необходимости результаты можно экспортировать в другое WINDOWS приложение (WORD, EXCEL ..)
Любая тема может быть оформлена как самостоятельное приложение,
в которое могут назначаться дополнительные режимы обработки,
дополнительные диалоги с пользователем, собственные формы представления
информации и т.д.. Для этого в PCBIRS встроен макроязык программирования (BML) и средства отладки программ, написанных пользователем. Дополнительные команды можно подключать на кнопки интерфейса PCBIRS или создавать дополнительные кнопки в окнах базы данных.
Создание базы данных PCBIRS предполагает предварительное описание
структуры документов и ввода в нее информации.
В простейшем случае для создания новой базы данных достаточно
указать ее имя, место расположения на диске и текст комментария,
определяющий тематическую направленность. Если Вы работаете в
локальной многопользовательской сети, то возможно указание типа базы:
личная/общая (для общих баз указывается уровень доступа со стороны других пользователей).
По умолчанию создается бесструктурная (однофрагментная) база с автоматической индексацией всех слов в тексте документов.
Такая база становится готовой для ввода и поиска произвольных текстов.
Однако, чаще всего возникает необходимость фрагментации текстов
документов. Документы могут содержать название, авторов, дату создания и т.п..
В этом случае необходимо описать структуру документов,
которая определяется в PCBIRS списком возможных имен фрагментов.
Как указывалось выше, фрагментация может отсутствовать,
быть частичной или детальной. Чем детальней фрагментация, тем точнее
в последующем поиск и больше возможностей для анализа.
Но не всегда этого удается достичь.
Так например, если база посвящена товарам, то ее структура может быть детальной,состоящей из фрагментов: дата,товар,цена,место, каждый из
которых будет содержать только значение соответствующего данного.
Если база содержит библиографическое описание журнальных статей,
то скорее всего документы будут состоять из фрагментов: источник,
название, авторы, содержание и т.д..Каждый фрагмент документа в такой базе будет содержать
некоторые тексты, более детальная структуризация данных в этом случае
практически не имеет смысла.
Если Вы работали с реляционными базами данных, то наверное обратили
внимание, что понятие "фрагмент" в PCBIRS напоминает понятие "поле",
а "документ" - "запись". На самом деле это не одно и то же.
Действительно, PCBIRS воспринимает каждую запись реляционной базы, как отдельный документ,
а каждое поле, как отдельный фрагмент, но не наоборот. Дело в том,
что в описании фрагмента в PCBIRS отсутствуют такие атрибуты,
как размер и тип данных. Разбиение документа на фрагменты предполагает,
что его текст может состоять из частей, имеющих определенный смысл.
При описании фрагмента указывается лишь его имя и набор символов
разделителей для слов текста. Размер текста каждого фрагмента может
быть произвольным.
В PCBIRS присутствует понятие поля, но оно носит иное назначение.
В отличие от традиционных баз данных, в PCBIRS поля определяют правила
выборки и интерпритации лексических единиц в текстах того или иного фрагмента.
В PCBIRS различаются поля с позиционной и словарной выборкой.
Поля никак не связаны со способом хранения информации, типами данных,
и, как правило, назначаются динамически в зависимости от решаемой задачи
поиска и анализа.
Для одного и того же фрагмента может быть назначено несколько
типов полей, которым можно присваивать имена.
В PCBIRS в качестве поля могут, например, выступать все слова фрагмента
(поле, назначаемое по умолчанию), или только числа, содержащиеся в тексте
(числа, даты, время распознаются автоматически по способу написания),
или наборы символов, начиная с некоторой позиции. Можно определить поля,
представляющие инверсные слова фрагмента (слова, записанные наоборот,
такие поля используются для обеспечения быстрого поиска
по окончаниям сложных слов) и т.д.
В частном случае, когда поле PCBIRS определяет позиционную выборку
определенного размера из текста фрагмента, оно совпадает с принятым
в обычных СУБД понятием поля (такие поля используются в PCBIRS при
создании виртуальных списков для анализа содержимого найденных документов).
В этом смысле поля PCBIRS следует рассматривать, как некое обобщение.
В PCBIRS поля в основном определяют тип индексации (правила
формирования поискового словаря) и используются для уточнения области
поиска в предложениях запроса.
Структура базы данных в PCBIRS слабо связана со способом хранения
информации. В любой момент она может быть дополнена новыми фрагментами
и полями, их имена могут меняться. Структура базы скорее определяет взгляд
пользователя на тот или иной информационный массив и может меняться
в зависимости от возникающих задач без физической реорганизации
источников информации. Это предоставляет большую гибкость при работе
с очень крупными информационными массивами.
Кроме описания структуры базы (фрагменты, поля) при ее создании
или в процессе эксплуатации к ней могут быть дополнительно подключены:
стоп-словарь(набор терминов, исключаемый из поискового словаря),
коллекции графических изображений, классификатор текстов, правила
контроля вводимой информации, формы представления документов,
графические планы для отображения данных из текстов документов,
дополнительные функции обработки и т.д..
Информация в базу данных может быть введена в двух режимах:
-диалоговом (непосредственный ввод с клавиатуры);
-пакетном (ввод из внешних файлов и баз данных);
При пакетном вводе имеется возможность хранить в PCBIRS базе либо тексты,
либо только ссылки на тексты источников.
Если источники представляют структурированные документы или записи
баз данных, предоставляется гибкая возможность отображения структуры
источников на структуру базы данных PCBIRS.
При необходимости пакетный ввод может сопровождаться контролем и
фильтрацией информации.
PCBIRS допускает смешанное хранение информации:
часть документов может вводиться вручную, часть из самых разных источников
(файлов, баз данных...) в виде текстов или ссылок.