<< Стартовая страница

4.2. КОММЕРЧЕСКИЕ ПОЛНОТЕКСТОВЫЕ БАЗЫ ДАННЫХ


Виртуальная среда, обеспечивающая быстрый и надежный доступ к ресурсам из любой точки планеты, явилась катализатором развития различных форм электронного бизнеса. Одними из первых оценили преимущества Интернет компании, специализирующиеся на производстве и продаже различного рода баз данных. Созданием подобных баз с начала 80-х годов занималось множество зарубежных корпораций, главным продуктом которых была информация. Существовали фактографические базы данных, содержащие фактические сведения (прежде всего статистику), библиографическую информацию (сведения о документах) и полнотекстовые (полные тексты книг и статей из газет, журналов и сборников). Среди наиболее известных производителей и поставщиков баз данных в "доинтернетовский" период выделялись LEXIS/NEXIS, Dialog, Silver Platter, EBSCO Information Services, STN Internetional, H.W.Wilson, UMI (ныне ProQuest). Информационные продукты доставлялись пользователям на магнитных лентах, посредством модемной связи, а со второй половины 80-х годов - на CD-ROM.

С распространением Интернет информационный бизнес приобрел невиданные до того времени масштабы. К уже существовавшим гигантам информационной индустрии добавились молодые компании, среди которых наиболее заметны netLibrary и ScienceDirect. Для поставщиков информационных продуктов Сеть явилась идеальной средой ведения бизнеса: информационные корпорации обрели возможность вести круглосуточное обслуживание клиентов вне зависимости от их местонахождения. Потенциальный рынок одномоментно расширился до пределов всего земного шара. При этом появилась возможность оказывать информационные услуги клиентам напрямую, обходясь в большинстве случаев без привлечения посредников, в лице которых ранее выступали библиотеки.


Первая страница романа Жюля Верна "Двадцать тысяч лье под водой" из фондов netLibrary.

Из всего перечня представленных в Сети коммерческих информационных продуктов для профессиональной информационной деятельности наибольший интерес представляют полнотекстовые базы данных. В них содержатся тексты книг, статей из журналов, газет и сборников, сообщения информационных агентств, аналитические отчеты различных учреждений и другие документы. Для традиционных библиотек получение доступа к этим базам в значительной степени меняет подходы к информационной работе в целом, так как позволяет читателям обходиться без обращения к печатным оригиналам изданий и, следовательно, избавляет потенциальных клиентов от необходимости физического посещения библиотек.

Число и отраслевой спектр коммерческих полнотекстовых электронных собраний постоянно расширяются. Если на заре этого вида бизнеса в 1960 годы их создание начиналось с правовой и экономической областей, в 1980-1990 годы были освоены естественные, точные и наиболее динамично развивающиеся гуманитарные дисциплины, то в настоящее время очередь дошла до коллекций редких и старопечатных книг, полных собраний сочинений античных и средневековых авторов, поэтических антологий и подобных этому материалов.

Компании, непосредственно предоставляющие доступ к полнотекстовым собраниям, имеют в арсенале сразу несколько десятков или даже сотен баз данных от разных производителей. Их число нестабильно, хотя наблюдается зримая тенденция к увеличению общего количества. В зависимости от пользовательского спроса и, следовательно, экономической оправданности, различные базы данных появляются или удаляются из доступа. Зачастую одну и ту же известную базу данных можно встретить у различных поставщиков. В данном случае компании конкурируют друг с другом по уровню комфортности доступа и, конечно же, в области цен, что, безусловно, выгодно конечным пользователям.

Наполнение полнотекстовых баз данных производится двумя способами. Первый заключается в сканировании печатных оригиналов и получении электронных копий документов, выполненных в большинстве случаев в формате PDF. Эти документы воспроизводятся (читаются) с использованием бесплатно распространяемой программы Adobe Acrobat, которую можно без труда получить из Интернет или найти на большинстве выпускаемых в настоящее время компакт-дисков (в этом случае диск маркируется логотипом Adobe Acrobat). Сканирование печатных оригиналов применяется при оцифровывании существующих тематически и логически законченных собраний, хранящихся, как правило, в фондах крупнейших библиотек или архивов. При этом масштабы и темпы оцифровки документальных массивов в рамках коммерческих проектов в разных странах дают все основания полагать, что уже в ближайшие годы будет оцифровано большинство значимых для человечества материалов. Для пользователей станет принципиально возможным получить доступ к любым источникам - от германских старопечатных книг XVI века до заметки в завтрашнем номере японской газеты.


Вид статьи в формате PDF из базы данных ProQuest.

Второй метод - покупка электронных копий книг, газет или журналов непосредственно в издательствах. По предварительному договору издательства передают электронную версию документа (чаще всего готовый оригинал-макет) поставщику и получают определенный процент от средств, полученных за обращение к поставленным файлам. Загрузка документов в систему осуществляется, как правило, в момент опубликования печатного оригинала или даже ранее. После физической загрузки в базу информационный массив индексируется, после чего электронные документы становятся доступными для поиска и выгрузки. Подобный способ "комплектования" применяется при работе с современными периодическими изданиями и сообщениями агентств новостей.

Профессиональные цифровые библиотеки, в отличие от бесплатных коллекций, отличает намного более четкая политика в отборе источников, высокая степень полноты и оперативность актуализации материалов. Грамматические ошибки крайне редки, за исключением случаев, когда документы сохраняются не в PDF, а в HTML-формате.

Как и большинство бизнес-проектов, полнотекстовые базы данных обеспечивают для клиентов высокий уровень сервиса. Поисковый механизм позволяет осуществлять многоаспектный поиск с возможностью сочетания данных из разных полей. Разыскание может осуществляться по отдельным словам, словосочетаниям и точным фразам. Результаты поиска выдаются в виде списка библиографических записей с указанием всех необходимых элементов. Существует возможность формирования из общего перечня списка релевантных документов.


Вид списка результатов поиска в ProQuest.

В профессиональных базах данных полные тексты предстают перед пользователем в виде HTML-документов или PDF-файлов. Особенностью последних является способность представлять документ именно в том виде, как он существует в печатной копии, с сохранением колонок, таблиц, иллюстраций и т.д. В то же время все содержание такого документа может быть доступно для поиска (проиндексировано). Источники в PDF можно не только просматривать (читать) в онлайновом режиме, но и сохранять на собственном компьютере для дальнейшей работы.

Пользование коммерческими базами осуществляется по предварительной подписке, которая оформляется, как правило, на один год. Технически доступ осуществляется по предварительно выданным имени пользователя и паролю или по IP-адресу. Последний способ наиболее выгоден для организаций, в частности, библиотек, поскольку позволяет предоставлять пользование такими базами данных с любых компьютеров, расположенных в учреждении (находящихся за одним IP-адресом).

В настоящее время стоимость доступа к полнотекстовым базам данных весьма высока. Серьезные затраты на сканирование и распознавание текста, описание и индексирование документов, приобретение лицензий от владельцев авторских прав делают себестоимость конечного продукта весьма высокой. Сравнительно малое число подписчиков заставляет владельцев электронных собраний держать высокие цены, дабы окупить собственные затраты и получить прибыль.. При существенном повышении числа подписчиков стоимость доступа для каждого отдельного пользователя может быть значительно снижена (прямая аналогия с сотовой телефонией). Однако уже сегодня возможность получения огромного массива данных в любой точке земного шара, где есть доступ к Интернет, привлекает все более значительное число пользователей, среди которых безусловное лидерство держат крупные корпорации, деятельность которых основывается на анализе информации. Высокая стоимость доступа для остальных категорий пользователей несколько смягчается позицией традиционных библиотек (прежде всего университетских), которые в ряде случаев предпочитают подписку на полнотекстовые базы данных непосредственному приобретению книг и журналов в собственный фонд.

Кроме того, практически все коммерческие базы данных позволяют в той или иной мере воспользоваться своими ресурсами без оформления платной подписки. Некоторые базы можно весьма эффективно применять в качестве библиографических источников, без возможности получать полные тексты документов. Типичным примером является сервис Library Reference Center (http://search.epnet.com/reflogin.asp) компании EBSCO, позволяющий осуществлять библиографический поиск в базе данных статей из более чем 30 ведущих англоязычных библиотечных журналов. Другие полнотекстовые библиотеки открывают доступ для всех желающих в "непиковое" время или на определенный период - в виде "ресурса месяца" и подобных формах. Внимательное изучение характеристик представленных источников поможет выявить те из них, которые обладают дополнительными ценными свойствами. Классическим примером служит предоставление компанией ProQuest доступа к первым 24 страницам текста диссертаций, защищенных в США, Канаде и Тихоокеанском регионе за последние два года (http://wwwlib.umi.com/dissertations). Эта база позволяет выполнять многоаспектный поиск, просматривать указанное число страниц в виде сканированных копий и выводить их на печать. Наконец, последним и практически уникальным "ключом" к ресурсам коммерческих цифровых собраний при ограниченности бюджета является оформление бесплатного "пробного доступа" (free trail). Естественно, что такие методы мало годятся для систематического использования ресурсов, однако крайне полезны для детального ознакомления с возможностями различных баз данных.

В настоящее время к наиболее значимым коммерческим полнотекстовым проектам относятся следующие:


Зарубежные коммерческие полнотекстовые базы данных


Dialog (www.dialog.com)

Dialog - первая онлайновая информационно-поисковая система в мире. Открытие датируется 1972 годом, когда в составе имелось всего две базы. В настоящее время Dialog включает более 570 полнотекстовых, библиографических и фактографических баз данных, представляющих интерес, прежде всего, для бизнес-структур. Представлены источники, относящиеся к самым различным отраслям знания. В их число включены правительственные документы, архивы периодических изданий, материалы по бизнесу и финансам, энергетике, химии, фармацевтике, медицине, интеллектуальной собственности, технике, естественным и общественным наукам. Dialog создавался в доинтернетовскую и, тем более, в довэбовскую пору, поэтому его механизм поиска построен на основе протокола telnet. Естественно, текстовой интерфейс и необходимость знания целого набора сложных команд затрудняет пользование системой, однако эта трудность в значительной мере компенсируется глубиной информационного наполнения. Ныне Dialog является собственностью Thomson Corporation.

LexisNexis (www.lexis-nexis.com)

Одна из крупнейших информационных корпораций мира. Комплекс баз данных LexisNexis включает в общей сложности более 31 тысячи файлов, многие из которых представляют собой полнотекстовое содержание ведущих периодических изданий. Проект начинался как полнотекстовая база данных юридической тематики, которая была затем дополнена материалами новостных агентств, правительственными документами, финансовыми отчетами, сведениями о корпорациях и академическими собраниями. В настоящее время с различной степенью полноты охвачены практически все отрасли знания. Наряду с другими, в LexisNexis включены некоторые русскоязычные издания. В настоящее время LexisNexis - собственность Reed Elsevier Inc.

ProQuest (www.proquest.com)

Линия продуктов ProQuest включает порядка сотни основных баз данных, среди которых отраслевые и тематические полнотекстовые собрания, реферативные и библиографические базы данных, электронные архивы известнейших газет и журналов. Имеет договоры с более чем 8.500 издательств по всему миру, в соответствии с которыми получает компьютерные версии изданий в момент или даже до появления печатных оригиналов. Подобным образом пополняются базы периодических изданий, среди которых Washington Post, Wall Street Journal, USA Today, отраслевые базы данных Accounting and Tax Database, Criminal Justice Periodical Index, ProQuest Religion, ProQuest Telecommunications и многие другие.

ProQuest также целенаправленно занимается оцифровкой имеющих большую историческую ценность законченных собраний, которые включаются в линию продуктов под названием "Digital Vault" ("Цифровой свод"). Примерами могут служить полнотекстовые базы "Women's History Online", "Genealogy and Local History Online", "Early English Books Online", полные архивы газет Christen Science Monitor, New York Times и другие.

К настоящему моменту суммарный объем ProQuest превышает 5.5 миллиардов страниц и число их продолжает стремительно увеличиваться. Полные тексты представлены в нескольких вариантах: HTML, HTML с встроенной сканированной иллюстрацией и PDF. В перспективе предполагается полный переход на PDF.

Questel o Orbit (www.questel.orbit.com)

Компания, существующая более 30 лет, изначально специализируется на предоставлении доступа к данным, связанным с интеллектуальной собственностью и бизнесом. Основу ее информационного потенциала составляют сведения о патентах, товарных знаках, состоянии рынков, компаниях, различного рода финансовая информация, а также полнотекстовые и реферативные базы в области нефтехимии, физики, медицины, механики, электроники, геологии, геофизики, архитектуры и некоторым другим областям знания. Доступ обеспечивается, как посредством telnet, так и через web-интерфейс.

ScienceDirect (www.sciencedirect.com)

Была изначально образована в 1999 году в качестве базы данных, предоставлявшей доступ к продукции издательской корпорации Elsevier. В дальнейшем ее содержание расширилось и в настоящее время ScienceDirect является одним из крупнейших источников научной и технической информации, а также информации по медицине. Включает порядка 5,5 миллионов полных текстов научных журналов и книг, базы данных рефератов, фундаментальные энциклопедические и справочные издания. Все документы представлены в виде PDF-документов. Некоторые материалы также, наряду PDF версиями, имеют HTML или TIFF версии. Незарегистрированные пользователи (полномочия определяются системой автоматически) имеют возможность просматривать оглавления всех представленных в базе журналов, книг и энциклопедий, а также оплатить и получить любой из представленных источников (функция Pay per view). Система имеет дружественный интерфейс и работает очень быстро.

EBSCO Information Services (www-ru.ebsco.com)

Имеет в составе более 50 полнотекстовых баз данных, в числе которых материалы практически по всем отраслям знания. Полные тексты представлены в форматах HTML и PDF. В качестве отдельной услуги предлагается подписка на электронные журналы, содержащие в совокупности порядка 3.5 миллионов статей. Среди прочих ресурсов, предоставляется доступ к российской полнотекстовой базе данных "Интегрум". Каждый месяц выделяется "База данных месяца", к которой, после предварительной регистрации, предоставляется бесплатный доступ.

Ovid (www.ovid.com)

Под этой маркой представлен целый комплекс, из более чем 200 информационных продуктов. В их числе библиографические базы данных, полные тексты книг и журналов, а также сервисы, обеспечивающие комплексную информационную поддержку по отдельным отраслям и темам. При всем разнообразии содержательного наполнения (имеются ресурсы, относящиеся к бизнесу и финансам, сельскому хозяйству, естественным и гуманитарным наукам), приоритет в Ovid отдается медицине и фармакологии. Одной из важных составляющих, является информационный массив, ранее принадлежавший компании SilverPlatter, которая вошла в Ovid в 2001 году. Среди прочих баз данных - MEDLINE с возможностью получения доступа к полным текстам документов. Предоставляется 30-дневный бесплатный пробный доступ.

STN International (stnweb.fiz-karlsruhe.de)

Представлено более 200 баз данных главным образов академической направленности. В числе отраслей, которым отдается приоритет, значатся: химия, физика, геология, материаловедение, биотехнология, энергетика, фармакология, токсикология, математика и сельской хозяйство. В настоящее время поисковая система сочетает в себе одновременно черты web-интерфейса и поисковый механизм, близкий к telnet. Пользователь составляет запрос в специальной строке, используя специфические команды базы данных. При этом, большинство материалов баз данных представлено в виде ASCII-файлов. К некоторым ресурсам предоставляется бесплатный пробный доступ сроком на 4 дня (определяется по IP-адресу) - STN Sneak Preview.

NetLibrary (www.netLibrary.com)

Проект образован в 1998 году как служба, ориентированная на работу прежде всего с реальными библиотеками. Предлагается более 37 тысяч электронных книг (eBooks). Допускаются поиск по полным текстам, обращение к словарю, использование закладок и даже записи на полях. В бесплатном доступе находится десяток книг, демонстрирующих возможности работы с электронными изданиями. В настоящее время netLibrary является структурой OCLC.


Российские коммерческие полнотекстовые базы данных


Научная Электронная Библиотека (elibrary.ru)

Проект Российского Фонда фундаментальных исследований, целью которого является обеспечение доступа российских научных организаций, включая научные библиотеки, к зарубежной академической периодике преимущественно естественнонаучного профиля. Включены полные тексты книг и журналов, публикуемых известнейшими зарубежными издательствами, среди которых Blackwell, Kluwer, Elsevier, Springer, Royal Society of Chemistry, ISI (Институт научной информации), а также полтора десятка российских академических журналов. В общей сложности в библиотеку включено более 3700 названий журналов, содержащих, в общей сложности, более 5 миллионов статей. Доступ ко всему массиву предоставляется бесплатно после заключения договора между Научной Электронной Библиотекой и академической организацией. Есть также частичный бесплатный тестовый доступ.

Интегрум-Техно (www.integrum.ru или www.integrum.com)

В настоящее время - крупнейшая информационная онлайновая служба России. Среди представленных баз данных архивы центральной, региональной и зарубежной прессы, сообщения агентств новостей, текстовые транскрипты передач радио и телевидения, тексты законов, данные Госкомстата России, электронные каталоги библиотек, сведения о патентах, адресные справочники, фотоархив и многие другие источники. Всего в настоящее время представлено более 4.5 тысяч баз данных, в совокупности включающих порядка 230 миллионов документов. Следует, однако, помнить, что значительный массив этих записей составляют библиографические описания книг и статей из библиотечных каталогов. Все источники интегрированы в единый информационный массив, функционирующий под управлением собственной программной разработки компании - поисковой системы "Артефакт". Для получения пробного доступа необходимо заполнить специальную регистрационную форму. На указанный электронный адрес высылается пароль, дающий возможность полного доступа ко всем ресурсам Интегрум сроком на 7 дней.



Интерфейс ввода запроса в базе данных Интегрум-Техно.

Публичная библиотека (www.public.ru)

Проект предназначен прежде всего для библиотек, которым предлагается оформить подписку на электронные версии российских центральных и региональных периодических изданий. Публичная библиотека дает возможность бесплатного библиографического поиска - "Открытый доступ" и возможность пользования полными текстами статей - "Профессиональный поиск". В настоящее время интерфейс поисковой системы и большинство модулей нуждаются в серьезной доработке. Интерес в данном проекте представляют архивы периодики за старые годы: некоторые издания представлены в виде полных текстов с 1990 года.

EastView (www.eastview.com или www.ebiblioteka.ru)

Находясь в зарубежной собственности, EastView, тем не менее, концентрирует основное внимание на российских источниках. В составе базы данных центральные и региональные российские газеты, государственные стандарты, журналы Российской Академии наук, художественно-публицистические (толстые) журналы России, карты, статистические источники, материалы агентств новостей, а также периодика Украины и некоторых стран СНГ. В отдельную базу выделены периодические издания и научные публикации Китайской Народной Республики. Всего на настоящее время в базу данных включены полные тексты более чем 500 российских газет и журналов, а также более 70 украинских периодических изданий. Система по умолчанию имеет англоязычный интерфейс, а описания источников приводятся в транслитерации. В ряде случаев можно получить вариант записей на русском языке. В конце 2003 года анонсировано появление в EastView содержания всех Летописей Российской книжной палаты. В дальнейшем предполагается сделать ссылки от библиографических записей РКП к полным текстам соответствующих статей. Для библиотекарей и лиц из числа профессорско-преподавательского состава предоставляется бесплатный пробный доступ сроком на 30-дней.

В последнее пятилетие среди информационных компаний прокатилась череда слияний и поглощений, свидетельствующая о высокой интенсивности развития данного сектора экономики. Информационные компании постоянно расширяют свой бизнес. Помимо предоставления доступа к коллекциям, владельцы полнотекстовых баз данных создают дополнительные сервисы для сфер, где использование электронных библиотек наиболее эффективно. Таковы, например, проект XanEdu компании ProQuest, предназначенный для университетского сообщества, ReferenceLink компании Thomson Corporation, рассчитанный на библиотеки или NewsEdge Service компании Dialog, ориентированный на пользователей, желающих оперативно получать новости по индивидуально сформированным запросам.

В перспективности цифровых библиотек можно не сомневаться. Быстрый доступ к достоверной и максимально полной информации - неотъемлемая составляющая фундаментальной науки, качественного образования и эффективного бизнеса. Ряд библиотек западных стран, прежде всего, библиотеки американских университетов, уже сегодня обеспечивают своим читателям возможность пользования подобными ресурсами. Постепенно это становится стандартной библиотечной услугой. Несомненно, что в будущем, с дальнейшим расширением в библиотеках доступа к Интернет, подписка на полнотекстовые коммерческие базы данных будет являться составной частью бюджета, затрачиваемого на комплектование фонда.



Библиотека >>
Тест >>

© 2002 - 2004 Вадим Степанов