Двадцатый век решил проблему коммуникации людей на планетарном уровне,
но усугубил проблему информационного хаоса.
Мир уже сегодня готов буквально завалить Вас информацией, представленной
в электронном виде. Достаточно упомянуть Internet и огромное количество
изданий на компакт дисках. Если учесть, что персональный компьтер в
состоянии хранить гигабайты, то накопить большой объем информации - не
проблема даже у себя дома. Вопрос только в том, что со всем этим "добром"
делать дальше.
Осенью 2001 года предполагается выпустить версию PCBIRS 3.3, основное
внимание в которой будет уделено методам ассоциативного поиска информации.
Известно, что процессы мышления по сути дела реализуют различные алгоритмы
фильтрации и семантического сжатия информации. Неплохо и компьютер научить
тому же самому. Но для этого как минимум нужно, чтобы компьютер понимал,
что же от него хотят и для кого он работает. Предполагается, что
пользователь сможет описать область своих интересов с помощью ассоциативных
словарей, которые будут представлять специальные базы данных PCBIRS,
и участвовать в формулировке текстов запросов, интерпретации результатов
поиска и анализа. Частично эти вопросы решались в предыдущих версиях
системы на уровне каталогов понятий, классификаторов, тематических словарей.
В PCBIRS 3.3 предполагается существенно расширить возможности этих
механизмов. В конечном итоге это должно привести к возможности проводить
семантический анализ и качественно повлиять на развитие аппарата
извлечения данных из текстов документов.
С технической точки зрения развитие PCBIRS связано прежде
всего с переходом из 16 разрядного в 32 разрядное приложение. Хотя
принципиальных преимуществ для пользователя в этом практически нет
(PCBIRS нормально себя чуствует и в среде WINDOWS'98 и WINDOWS NT),
но, как показывают результаты тестирования модуля пакетной индексации,
скорость индексирования возрастает примерно на 20 процентов. Гораздо
более существенным является вопрос, связанный с параметрами индексов.
В частности с объемом словарей и инвертированных списков.
Индексирование - сердце PCBIRS. Все технологии, которые реализуются
в этом пакете, базируются на лексическом индексе. Вот почему, несмотря на
десятилетний срок работы над системой, я постоянно пытаюсь кретически
переосмыслить то, что сделано мной и другими фирмами в этом направлении.
Накладные расходы системы начинают играть существенную роль, когда
работаешь с гигабайтами. В этом случае проблема сжатия инвертированного
списка выступает на первый план. По-видимому уже в PCBIRS 3.3 удасться
добиться сжатия инвертированного списка на 40% а словаря (что
менее существенно) на 30% без потери временных характеристик индексирования
и поиска.
Самым ярким представителем информационной свалки на сегодняшний день является INTERNET.
Обычные контекстные поисковики уже не в состоянии удовлетворить пользователя. Единственным
(по крайней мере реальным с моей точки зрения) выходом из сложившейся ситуации является
так называемая интернет агрегация, когда специализированные службы осуществляют
тематические подборки разрозненных сайтов и предлагают развитую поисковую навигацию внутри
этих подборок. Это с необходимостью приведет к созданию крупных специализированных баз данных
(как структурированных, так и полнотекстовых). Таким образом доступ к информации будет
осуществляться через поисковый интерфейc подобных агрегаций.
Как накапливать информацию, чтобы она не превращалась в хлам,
а приносила пользу?
Судя по всему компьютер - самый подходящий протез,
который человечество придумало для решения этих проблем. Причем это
изобретение кажется нам настолько удачным, что предполагается войти в
следующее столетие под флагом всеобщего протезирования мозгов.
Но мозги ли мы протезируем?
Судя по основным направлениям развития
компьютерных технологий, которые сложились к настоящему времени,
складывается впечатление, что в голове самое важное - уши.
Действительно, львиная доля проектов связана с развитием средств
коммуникации и обеспечения доступа к огромным информационным рессурсам,
которые беспорядочно растут с ужасающей скоростью. По сравнению с ними
загородная свалка мусора выглядит как место отдыха в стиле английского
парка. Многочисленные владельцы серверов и издателей компакт дисков с
назойливостью насекомых предлагают вывалить весь свой хлам, только
подставляй компьютер. И мы подставляем в надежде, что с его помощью
во всем этом хаосе можно будет разобраться.
Безусловно, культура потребления информации - одна из актуальнейших
проблем нашего времени. Поэтому все острее встает задача создания
инструментов, позволяющих человеку "переваривать" огромные информационные
массивы. Это основное направление, в котором постоянно совершенствуется PCBIRS.
Оно включает развитие:
методов поиска информации;
методов извлечения данных из текстов;
методов анализа информации;
технологических характеристик системы;
С другой стороны у целого ряда организаций уже сейчас существуют довольно крупные информационные
текстовые массивы, которые невозможно публиковать в Интернете, как совокупность отдельных
связанных гиперссылками HTML страниц.
Для решения этих проблем в середине 2000 года был создан PCBIRS HTML сервер, который
позволяет публиковать в сети крупные полнотекстовые базы данных, созданные средствами локальной
системы PCBIRS. Разработка этого сервера показалась мне настолько актуальной (не без влияния некоторых моих пользователей),
что пришлось приостановить работы по лексическому ассоциатору (что называется,"наступить на горло собственной песне").
Это послужило задержкой выхода в свет PCBIRS 3.3 в 2000 г..
Несмотря на то, что первая версия PCBIRS HTML сервера уже создана и находится в промышленной эксплуатации (в интернет
опубликован целый ряд баз данных на сервере ВНИИФТРИ), на мой взгляд, работа еще не завершена. К сожалению процедура публикации баз
данных довольно сложна и требует большого количества ручных настроек к типам web серверов провайдеров. На сегодняшний
день сервер функционирует только как приложение WINDOWS'NT. Разумеется, что полный поисковый сервис локальной PCBIRS реализовать
не удасться из-за специфики сети (особенно из-за российской телефонии), однако в этом направлении двигаться необходимо.
Я надеюсь в 2001 году подготовить выпуск PCBIRS HTML сервера в качестве бесплатного (по крайней мере для своих старых пользователей)
приложения к PCBIRS 3.3. Особенно нетерпеливым могу предложить опубликовать их базы данных уже сейчас, и таким образом поучаствовать в эксперементе.