Углеводные базы данных – выводы из последнего десятилетия
Иллюстративные материалы к лекции

Скачать комплект слайдов в высоком разрешении (PDF, 1.8 Mb)

Список слайдов
(нажмите на название для быстрого перехода)

Обзор углеводных баз

Углеводы – один из наиболее химически-разнообразных классов биомакромолекул. С открытием гликозилирования белков и выяснения роли углеводных антигенов в межклеточных взаимодействиях интерес к ним непрерывно возрастает. К настоящему времени объем накопленной информации об углеводах многократно превысил уровень, позволяющий ориентироваться в этом океане данных без специальных средств. Поэтому прогресс гликобиологии во многом зависит от наличия единого информационного пространства данных по структуре, свойствам и функциям углеводов, связанных с таксономией и свойствами их природных источников. Основным средством создания такого пространства являются базы данных (БД) гликомики и прогностические сервисы, использующие данные из этих баз. В отличие от геномики и протеомики, стандарты идентификации структур и протоколы обмена информацией в гликомике были стандартизированы лишь в последние годы; этот процесс еще полностью не завершен. Появившиеся проекты новой области биоинформатики - гликоинформатики - не полностью совместимы друг с другом как по покрытию, так и по форматам данных и возможностям, предоставляемым химикам, биологам, генетикам, фармацевтам. Каждый из таких проектов направлен на решение своего класса задач, тем не менее видится явная тенденция к взаимной интеграции.

Наиболее востребованными являются углеводные БД с широким покрытием: GLYCOSCIENCES (импорт Carbbank + углеводы млекопитающих + данные ЯМР), UniCarbKB (O- и N-гликаны млекопитающих), KEGG Glycan (в основном, импорт Carbbank), Carbohydrate Structure Database (CSDB; углеводы прокариот, растений и грибов + данные ЯМР)/ Также следует отметить специализированные GlycoBase-Dublin (N-гликаны + данные масс-спектрометрии), GlycoBase-Lille (углеводы амфибий + данные ЯМР), ECODAB (О-антигены E. сoli) и мета-репозитория структур GlyTouCan. Исторически первой универсальной углеводной БД была Carbbank, претендовавшая на полноту покрытия по всем структурам, опубликованным до 1996-го года, в котором прекратилась ее поддержка. Поскольку сбор и оцифровка первичных данных из публикаций – наиболее трудоемкая часть работы по созданию БД, почти все современные проекты в том или ином виде используют данные Carbbank, а также идеологию этой базы.

Отличительными особенностями, как и критериями оценки углеводных баз данных являются: представленные типы информации, полнота покрытия, качество данных, функциональность (а также стабильность и производительность), интерфейс пользователя, возможность интеграции с другими проектами и, косвенно, внутренняя архитектура БД.

Типы информации, хранение и обработка которых необходимы для углеводной базы - это как минимум первичная структура молекул, их таксономические и библиографические аннотации. Часто БД также включают экспериментальные данные, например ЯМР-спектры. Возможность записи биохимической, генетической, медицинской и другой информации как правило присутствует, но покрытие по этим полям оставляет желать лучшего. Таксономические и библиографические аннотации также присутствуют не во всех базах или не для всех записей. В тех базах, где есть спектры ЯМР, ЯМР-покрытие составляет от 5% до 35% структур.

Полнота покрытия существенно увеличивает полезность БД, так как даже негативный ответ на поисковый запрос является в таком случае значимой научной информацией. Полнота покрытия лимитируется невозможностью автоматизации процесса поиска статей с первичными данными. В настоящее время на полное (>80%) покрытие в рамках выбранного класса соединений претендует только бактериальная и грибная части CSDB. Покрытие остается актуальным при своевременном обновлении базы; приемлемым можно считать временной лаг между публикацией и попаданием в базу около 1-2 лет. Универсальное решение для повышения актуальности данных – это требование редакций журналов обязательно размещать описываемые структуры в базах данных перед публикацией, с предоставлением ссылки на запись. Такой подход давно реализован в геномике, но отсутствует в гликомике из-за недостаточной стандартизации языков описания структур, корни которой лежат в высокой химической вариативности углеводов.

Процесс заполнения БД данными не поддается полной автоматизации не только на уровне отбора источников данных, но и на уровне интерпретации текстов публикаций. Как следствие, все химические и биологические БД содержат ошибки (в порядке распространения): привнесенные операторами, перекочевавшие из других БД, присутствующие в публикациях изначально, возникшие из-за несовершенства архитектуры БД и программных ошибок в импортерах и автоаннотаторах. По результатам нашего направленного исследования, большинство записей в Carbbank содержит ошибки, причем более трети – две и более ошибок, наиболее частая из которых – неверная таксономическая привязка структуры. Также обнаружены значительные пробелы в полноте покрытия. Поскольку большинство современных проектов использует данные Carbbank, эти ошибки проявляются и в них. Некоторые типы ошибок можно выявить (а иногда - исправить) автоматически, и такой контроль ведется в нескольких проектах, однако для достижения действительно высокого качества данных необходим ретроспективный экспертный анализ публикаций.

Функциональность БД – это ее способность обрабатывать поисковые запросы разных типов, комбинировать их в разных логических сочетаниях, уточнять их с использованием данных других типов. Например, “найти все опубликованные за период 2001-2005 гг. структуры, содержащие такой-то фрагмент, а также связанный с моносахаридом лизин либо аланин, кроме синтетических и тех, которые найдены в гамма-протеобактериях, после чего вывести их ЯМР-спектры”. Также к функциональности относятся сопутствующие сервисы углеводной тематики (генерирование конформационных карт, предсказание спектров, поиск структурных закономерностей и т.д.). В отличие от простых в реализации схем поиска по библиографии, ключевым словам, фрагментам текстов, таксономии и пр., поиск структур, содержащих указанный фрагмент, а также поиск структур или спектров, «похожих» на указанные, – задача, требующая предварительных исследований, изощренного программирования и значительных вычислительных ресурсов. В этой связи становится значимой внутренняя архитектура БД, правильность проектирования которой критична для достижения разумной скорости обработки структурных запросов. На этапе становления гликоинформатики в 2010-х годах исследовательский коллектив GLYCOSCIENCES сформулировал “Десять заповедей построения углеводной базы данных”, объединивших опыт немецкой и российской групп. Ключевые положения этого документа включают использование таблицы связности для внутреннего представления структур, максимально возможную индексацию, минимальное количество свободнотекстовых данных (которыми, к сожалению, грешат почти все проекты) и однозначный контролируемый словарь для множества типов данных, в первую очередь - для названий остатков. Попытка вывести словарь мономеров из зоны ответственности конкретных проектов была сделана в рамках базы MonosaccharideDB. Дальнейшее совершенствование этих правил Консорциумом по гликоинформатике и консультативной группой по гликоинформатике при NCBI включало стандартизацию представления углеводов в статьях (SNFG), компьютерных ресурсах (дополнения к номенклатуре IUPAC) и курс на использование семантической паутины (модель Resource Description Framework) для получения неявно заданных знаний, не зависящих от конкретных баз. Адаптация этой модели к химии и биологии углеводов выразилась в появлении онтологий GlycoRDF (общая) и GlycoCoO (гликоконъюгаты).

Возможность правильной обработки структурной информации напрямую связана со способом записи углеводных структур. Несовершенство и несовместимость форматов этих записей долгое время являлись камнем преткновения для развития гликоинформатики. Языки записи структур, используемые для внутреннего представления данных и/или для пользовательского интерфейса, оцениваются по следующим критериям:

В настоящее время указанными характеристиками в наибольшей степени обладают языки CSDB Linear, GlycoCT и WURCS. Однако первый не поддерживает некоторые топологии, а два других нечеловекочитаемы. В отличие от ситуации в геномике и протеомике, общепризнанного углеводного языка до сих пор не существует, кроме крайне несовершенного IUPAC. Один из упомянутых языков может стать таким стандартом в будущем.

Сложившиеся представления о качественном продукте гликоинформатики подразумевают, что интерфейс пользователя (как и интерфейс администраторов) должен быть интуитивно понятен, хорошо документирован и бесплатно доступен научной общественности через Интернет. Понятность касается в том числе форматов ввода и вывода структур, которым пользователю не придется специально учиться. В этом аспекте чрезвычайно плодотворна реализация ввода фрагментов структур с помощью самостоятельных сервисов, в том числе специальных редакторов, имеющих программный интерфейс, позволяющий любой БД пользоваться интерфейсом других БД. Интеграция между проектами гликоинформатики подразумевает не только общий интерфейс поисковых запросов, но и возможность автоматического обмена данными. Это касается и взаимодействия с неуглеводными базами данных: библиографическими (напр., NCBI Pubmed), таксономическими (NCBI Taxonomy), генетическими (NCBI Genbank), протеомными (Uniprot) и др. Первыми проектами, разработавшими протоколы автоматического обмена данными об углеводах, были GLYCOSCIENCES и Bacterial CSDB, после чего стандартизация форматов и разработка программных web-сервисов гликомики значительно ускорились.

Особняком стоит EurocarbDB, которая была профинансирована как БД, полностью лишенная недостатков и обеспечивающая любую мыслимую функциональность, а на деле ограничилась разработкой подходов (без их реального воплощения, которое и является «узким местом» БД из-за человеческого фактора) и импортом Carbbank. На противоположном конце идеологической иерархии находится мета-репозиторий Glytoucan, который заведомо не предоставляет собственных данных, но интегрируется со множеством других проектов, импортируя их данные и являясь по сути «базой баз», обеспечивающей межпроектную работу в едином интерфейсе.

    Более глубокий анализ состояния гликоинформатики и современных инициатив в ней, углеводных баз и сопуствующих проектов можно найти в обзорах и сборниках:
  1. Li X., Xu Z., Hong X., Yan Zhang Y., Zou X. Databases and Bioinformatic Tools for Glycobiology and Glycoproteomics // Int. J. Mol. Sci. 2020. T. 21. № 18. ID 6727. DOI: 10.3390/ijms21186727
  2. Abrahams J.L., Taherzadeh G., Jarvas G., Guttman A., Zhou Y., Campbell M.P. Recent advances in glycoinformatic platforms for glycomics and glycoproteomics // Curr. Opin. Struct. Biol. 2020. T. 62. С. 59-69. DOI: 10.1016/j.sbi.2019.11.009
  3. Scherbinina S. I., Toukach P. V. Three-Dimensional Structures of Carbohydrates and Where to Find Them // Int. J. Mol. Sci. 2020. Т. 21. №20. ID 7702. DOI: 10.3390/ijms21207702
  4. Copoiu L., Malhotra S. The current structural glycome landscape and emerging technologies // Curr. Opin. Struct. Biol. 2020. T. 62. С. 132-139. DOI: 10.1016/j.sbi.2019.12.020
  5. Aoki-Kinoshita K. F. (Ed.) A Practical Guide to Using Glycomics Databases // Japan: Springer, 2017. DOI: 10.1007/978-4-431-56454-6
  6. Lutteke T., Frank M. (eds.) Glycoinformatics // series: Methods in Molecular Biology, v. 1273. New York: Humana Press, 2015. DOI: 10.1007/978-1-4939-2343-4
  7. Aoki-Kinoshita K. F. Using Databases and Web Resources for Glycomics Research // Mol. Cell. Proteomics. 2013. T. 12. № 4. С. 1036–1045. DOI: 10.1074/mcp.R112.026252

Место CSDB в гликоинформатике

В рамках проекта Carbohydrate Structure Dadatbase (CSDB) мы попытались спроектировать архитектуру БД и реализовать ее в программном продукте, который был бы лишен основных недостатков других БД гликомики, а также обеспечить поддержку и регулярное обновление данных. Ключевыми особенностями являются полнота покрытия и полностью верифицируемый контент. За 15 лет своего существования CSDB стала основным источником данных по углеводам микроорганизмов и платформой для множества сервисов углеводной тематики. Проект нацелен создание современной и всеобъемлющей базы природных углеводов, которая идеологически заменит собой Carbbank.

Коллектив CSDB проводит систематическую работу по информатизации гликомики [1,2]. Во взаимодействии с мировым сообществом гликоинформатиков сформированы критерии качества программ и сервисов в этой области, созданы стандарты и онтологии компьютерного представления и визуализации углеводных данных, разработана платформа CSDB, включающая тематические базы данных и расчетные модули. Все возможности проекта бесплатно доступны гликохимикам и гликобиологам через Интернет (http://csdb.glycoscience.ru).

Из важнейших компонентов CSDB можно выделить:

Каждый год обновляется и дополняется контент, ищутся и устраняются ошибки (в том числе в публикациях гликологов), появляются новые сервисы.

    Литература к разделу "Место CSDB в гликоинформатике"
  1. Egorova K. S., Toukach P. V. Glycoinformatics: bridging isolated islands in the sea of data // Angewandte Chemie Intl. Ed. 2018. T. 57. № 46. C. 14986-14990. DOI: 10.1002/anie.201803576
  2. Тоукач Ф.В. Дисс. «Информационные технологии в структурной гликохимии и гликобиологии», докт. хим. наук. Москва: ФГБУН Институт органической химии им. Н.Д. Зелинского РАН, 2019. PDF
  3. Toukach P. V., Egorova K. S. Carbohydrate structure database merged from bacterial, archaeal, plant and fungal parts // Nucleic Acids Research. 2016. T. 44. № D1. C. D1229-D1236. DOI: 10.1093/nar/gkv840
  4. Stroylov V.S., Panova M.P., Toukach Ph.V. Comparison of methods for bulk automated simulation of glycosidic bond conformations // Int. J. Mol. Sci. 2020, Т. 21. №20. ID 7626. DOI: 10.3390/ijms21207626
  5. Egorova K. S., Toukach P. V. CSDB_GT: a new curated database on glycosyltransferases // Glycobiology. 2017. T. 27. № 4. C. 285-290. DOI: 10.1093/glycob/cww137
  6. Egorova K. S., Knirel Y. A., Toukach P. V. Expanding CSDB_GT glycosyltransferase database with Escherichia coli // Glycobiology. 2019. T. 29. № 4. C. 285-287. DOI: 10.1093/glycob/cwz006
  7. Egorova K. S., Smirnova N.S., Toukach P. V. CSDB_GT, a curated glycosyltransferase database with close-to-full coverage on three most studied non-animal species, Glycobiology. 2020. ePub ahead of print. DOI: 10.1093/glycob/cwaa107
  8. Egorova K. S., Toukach P. V. Carbohydrate Structure Database (CSDB): examples of usage // A Practical Guide to Using Glycomics Databases. Japan: Springer, 2017. Гл. 5, C. 75-113. DOI: 10.1007/978-4-431-56454-6_5
  9. Toukach P. V., Egorova K. S. Bacterial, Plant, and Fungal Carbohydrate Structure Databases: daily usage // Glycoinformatics. New York: Humana Press, 2015. Гл. 5, C. 55-85. DOI: 10.1007/978-1-4939-2343-4_5
  10. Egorova K. S., Kondakova A. N., Toukach P. V. Carbohydrate Structure Database: tools for statistical analysis of bacterial, plant and fungal glycomes // Database (Oxford). 2015. T. 2015. ID. bav073. DOI: 10.1093/database/bav073
  11. Chernyshov I. Y., Toukach P. V. REStLESS: automated translation of glycan sequences from residue-based notation to SMILES and atomic coordinates // Bioinformatics. 2018. T. 34. № 15. C. 2679-2681. DOI: 10.1093/bioinformatics/bty168
  12. Kapaev R. R., Toukach P. V. Simulation of 2D NMR spectra of carbohydrates using GODDESS software // Journal of Chemical Information and Modeling. 2016. T. 56. № 6. C. 1100-1104. DOI: 10.1021/acs.jcim.6b00083
  13. Kapaev R. R., Toukach P. V. GRASS: semi-automated NMR-based structure elucidation of saccharides // Bioinformatics. 2018. T. 34. № 6. C. 957-963. DOI: 10.1093/bioinformatics/btx696
  14. Kapaev R. R., Egorova K. S., Toukach P. V. Carbohydrate structure generalization scheme for database-driven simulation of experimental observables, such as NMR chemical shifts // J. Chem. Inf. Model. 2014. T. 54. № 9. C. 2594-2611. DOI: 10.1021/ci500267u
  15. Kapaev R. R., Toukach P. V. Improved carbohydrate structure generalization scheme for (1)H and (13)C NMR Simulations // Analyt. Chem. 2015. T. 87. № 14. C. 7006-7010. DOI: 10.1021/acs.analchem.5b01413
  16. Aoki-Kinoshita K. F., Bolleman J., Campbell M. P., Kawano S., Kim J. D., Lutteke T., Matsubara M., Okuda S., Ranzinger R., Sawaki H., Shikanai T., Shinmachi D., Suzuki Y., Toukach P., Yamada I., Packer N. H., Narimatsu H. Introducing glycomics data into the Semantic Web // J. Biomed. Semantics. 2013. T. 4. № 1. ID 39. DOI: 10.1186/2041-1480-4-39
  17. Ranzinger R., Aoki-Kinoshita K. F., Campbell M. P., Kawano S., Lutteke T., Okuda S., Shinmachi D., Shikanai T., Sawaki H., Toukach P., Matsubara M., Yamada I., Narimatsu H. GlycoRDF: an ontology to standardize glycomics data in RDF // Bioinformatics. 2015. T. 31. № 6. C. 919-925. DOI: 10.1093/bioinformatics/btu732
  18. Toukach Ph.V., Egorova K.S. New features of CSDB Linear, as compared to other carbohydrate notations // J. Chem. Inf. Model. 2020. Т. 60. № 3. С. 1276-1289. DOI: 10.1021/acs.jcim.9b00744

Слайды


ScienceДом : Наука NMRНаука : CSDB CoursesДом : Преподавание

Последнее обновление: 2021 сентябрь 22      Домой