Скачать комплект слайдов в высоком разрешении (PDF, 1.8 Mb) |
Углеводы – один из наиболее химически-разнообразных классов биомакромолекул. С открытием гликозилирования белков и выяснения роли углеводных антигенов в межклеточных взаимодействиях интерес к ним непрерывно возрастает. К настоящему времени объем накопленной информации об углеводах многократно превысил уровень, позволяющий ориентироваться в этом океане данных без специальных средств. Поэтому прогресс гликобиологии во многом зависит от наличия единого информационного пространства данных по структуре, свойствам и функциям углеводов, связанных с таксономией и свойствами их природных источников. Основным средством создания такого пространства являются базы данных (БД) гликомики и прогностические сервисы, использующие данные из этих баз. В отличие от геномики и протеомики, стандарты идентификации структур и протоколы обмена информацией в гликомике были стандартизированы лишь в последние годы; этот процесс еще полностью не завершен. Появившиеся проекты новой области биоинформатики - гликоинформатики - не полностью совместимы друг с другом как по покрытию, так и по форматам данных и возможностям, предоставляемым химикам, биологам, генетикам, фармацевтам. Каждый из таких проектов направлен на решение своего класса задач, тем не менее видится явная тенденция к взаимной интеграции.
Наиболее востребованными являются углеводные БД с широким покрытием: GLYCOSCIENCES (импорт Carbbank + углеводы млекопитающих + данные ЯМР), UniCarbKB (O- и N-гликаны млекопитающих), KEGG Glycan (в основном, импорт Carbbank), Carbohydrate Structure Database (CSDB; углеводы прокариот, растений и грибов + данные ЯМР)/ Также следует отметить специализированные GlycoBase-Dublin (N-гликаны + данные масс-спектрометрии), GlycoBase-Lille (углеводы амфибий + данные ЯМР), ECODAB (О-антигены E. сoli) и мета-репозитория структур GlyTouCan. Исторически первой универсальной углеводной БД была Carbbank, претендовавшая на полноту покрытия по всем структурам, опубликованным до 1996-го года, в котором прекратилась ее поддержка. Поскольку сбор и оцифровка первичных данных из публикаций – наиболее трудоемкая часть работы по созданию БД, почти все современные проекты в том или ином виде используют данные Carbbank, а также идеологию этой базы.
Отличительными особенностями, как и критериями оценки углеводных баз данных являются: представленные типы информации, полнота покрытия, качество данных, функциональность (а также стабильность и производительность), интерфейс пользователя, возможность интеграции с другими проектами и, косвенно, внутренняя архитектура БД.
Типы информации, хранение и обработка которых необходимы для углеводной базы - это как минимум первичная структура молекул, их таксономические и библиографические аннотации. Часто БД также включают экспериментальные данные, например ЯМР-спектры. Возможность записи биохимической, генетической, медицинской и другой информации как правило присутствует, но покрытие по этим полям оставляет желать лучшего. Таксономические и библиографические аннотации также присутствуют не во всех базах или не для всех записей. В тех базах, где есть спектры ЯМР, ЯМР-покрытие составляет от 5% до 35% структур.
Полнота покрытия существенно увеличивает полезность БД, так как даже негативный ответ на поисковый запрос является в таком случае значимой научной информацией. Полнота покрытия лимитируется невозможностью автоматизации процесса поиска статей с первичными данными. В настоящее время на полное (>80%) покрытие в рамках выбранного класса соединений претендует только бактериальная и грибная части CSDB. Покрытие остается актуальным при своевременном обновлении базы; приемлемым можно считать временной лаг между публикацией и попаданием в базу около 1-2 лет. Универсальное решение для повышения актуальности данных – это требование редакций журналов обязательно размещать описываемые структуры в базах данных перед публикацией, с предоставлением ссылки на запись. Такой подход давно реализован в геномике, но отсутствует в гликомике из-за недостаточной стандартизации языков описания структур, корни которой лежат в высокой химической вариативности углеводов.
Процесс заполнения БД данными не поддается полной автоматизации не только на уровне отбора источников данных, но и на уровне интерпретации текстов публикаций. Как следствие, все химические и биологические БД содержат ошибки (в порядке распространения): привнесенные операторами, перекочевавшие из других БД, присутствующие в публикациях изначально, возникшие из-за несовершенства архитектуры БД и программных ошибок в импортерах и автоаннотаторах. По результатам нашего направленного исследования, большинство записей в Carbbank содержит ошибки, причем более трети – две и более ошибок, наиболее частая из которых – неверная таксономическая привязка структуры. Также обнаружены значительные пробелы в полноте покрытия. Поскольку большинство современных проектов использует данные Carbbank, эти ошибки проявляются и в них. Некоторые типы ошибок можно выявить (а иногда - исправить) автоматически, и такой контроль ведется в нескольких проектах, однако для достижения действительно высокого качества данных необходим ретроспективный экспертный анализ публикаций.
Функциональность БД – это ее способность обрабатывать поисковые запросы разных типов, комбинировать их в разных логических сочетаниях, уточнять их с использованием данных других типов. Например, “найти все опубликованные за период 2001-2005 гг. структуры, содержащие такой-то фрагмент, а также связанный с моносахаридом лизин либо аланин, кроме синтетических и тех, которые найдены в гамма-протеобактериях, после чего вывести их ЯМР-спектры”. Также к функциональности относятся сопутствующие сервисы углеводной тематики (генерирование конформационных карт, предсказание спектров, поиск структурных закономерностей и т.д.). В отличие от простых в реализации схем поиска по библиографии, ключевым словам, фрагментам текстов, таксономии и пр., поиск структур, содержащих указанный фрагмент, а также поиск структур или спектров, «похожих» на указанные, – задача, требующая предварительных исследований, изощренного программирования и значительных вычислительных ресурсов. В этой связи становится значимой внутренняя архитектура БД, правильность проектирования которой критична для достижения разумной скорости обработки структурных запросов. На этапе становления гликоинформатики в 2010-х годах исследовательский коллектив GLYCOSCIENCES сформулировал “Десять заповедей построения углеводной базы данных”, объединивших опыт немецкой и российской групп. Ключевые положения этого документа включают использование таблицы связности для внутреннего представления структур, максимально возможную индексацию, минимальное количество свободнотекстовых данных (которыми, к сожалению, грешат почти все проекты) и однозначный контролируемый словарь для множества типов данных, в первую очередь - для названий остатков. Попытка вывести словарь мономеров из зоны ответственности конкретных проектов была сделана в рамках базы MonosaccharideDB. Дальнейшее совершенствование этих правил Консорциумом по гликоинформатике и консультативной группой по гликоинформатике при NCBI включало стандартизацию представления углеводов в статьях (SNFG), компьютерных ресурсах (дополнения к номенклатуре IUPAC) и курс на использование семантической паутины (модель Resource Description Framework) для получения неявно заданных знаний, не зависящих от конкретных баз. Адаптация этой модели к химии и биологии углеводов выразилась в появлении онтологий GlycoRDF (общая) и GlycoCoO (гликоконъюгаты).
Возможность правильной обработки структурной информации напрямую связана со способом записи углеводных структур. Несовершенство и несовместимость форматов этих записей долгое время являлись камнем преткновения для развития гликоинформатики. Языки записи структур, используемые для внутреннего представления данных и/или для пользовательского интерфейса, оцениваются по следующим критериям:
В настоящее время указанными характеристиками в наибольшей степени обладают языки CSDB Linear, GlycoCT и WURCS. Однако первый не поддерживает некоторые топологии, а два других нечеловекочитаемы. В отличие от ситуации в геномике и протеомике, общепризнанного углеводного языка до сих пор не существует, кроме крайне несовершенного IUPAC. Один из упомянутых языков может стать таким стандартом в будущем.
Сложившиеся представления о качественном продукте гликоинформатики подразумевают, что интерфейс пользователя (как и интерфейс администраторов) должен быть интуитивно понятен, хорошо документирован и бесплатно доступен научной общественности через Интернет. Понятность касается в том числе форматов ввода и вывода структур, которым пользователю не придется специально учиться. В этом аспекте чрезвычайно плодотворна реализация ввода фрагментов структур с помощью самостоятельных сервисов, в том числе специальных редакторов, имеющих программный интерфейс, позволяющий любой БД пользоваться интерфейсом других БД. Интеграция между проектами гликоинформатики подразумевает не только общий интерфейс поисковых запросов, но и возможность автоматического обмена данными. Это касается и взаимодействия с неуглеводными базами данных: библиографическими (напр., NCBI Pubmed), таксономическими (NCBI Taxonomy), генетическими (NCBI Genbank), протеомными (Uniprot) и др. Первыми проектами, разработавшими протоколы автоматического обмена данными об углеводах, были GLYCOSCIENCES и Bacterial CSDB, после чего стандартизация форматов и разработка программных web-сервисов гликомики значительно ускорились.
Особняком стоит EurocarbDB, которая была профинансирована как БД, полностью лишенная недостатков и обеспечивающая любую мыслимую функциональность, а на деле ограничилась разработкой подходов (без их реального воплощения, которое и является «узким местом» БД из-за человеческого фактора) и импортом Carbbank. На противоположном конце идеологической иерархии находится мета-репозиторий Glytoucan, который заведомо не предоставляет собственных данных, но интегрируется со множеством других проектов, импортируя их данные и являясь по сути «базой баз», обеспечивающей межпроектную работу в едином интерфейсе.
В рамках проекта Carbohydrate Structure Dadatbase (CSDB) мы попытались спроектировать архитектуру БД и реализовать ее в программном продукте, который был бы лишен основных недостатков других БД гликомики, а также обеспечить поддержку и регулярное обновление данных. Ключевыми особенностями являются полнота покрытия и полностью верифицируемый контент. За 15 лет своего существования CSDB стала основным источником данных по углеводам микроорганизмов и платформой для множества сервисов углеводной тематики. Проект нацелен создание современной и всеобъемлющей базы природных углеводов, которая идеологически заменит собой Carbbank.
Коллектив CSDB проводит систематическую работу по информатизации гликомики [1,2]. Во взаимодействии с мировым сообществом гликоинформатиков сформированы критерии качества программ и сервисов в этой области, созданы стандарты и онтологии компьютерного представления и визуализации углеводных данных, разработана платформа CSDB, включающая тематические базы данных и расчетные модули. Все возможности проекта бесплатно доступны гликохимикам и гликобиологам через Интернет (http://csdb.glycoscience.ru).
Из важнейших компонентов CSDB можно выделить:
Каждый год обновляется и дополняется контент, ищутся и устраняются ошибки (в том числе в публикациях гликологов), появляются новые сервисы.
Последнее обновление: 2021 сентябрь 22 Домой