|
Гликомика - активно развивающаяся область знания, что связано с ее возрастающим значением в биохимии, иммунологии, молекулярной биологии и других науках о жизни. Однако, использование информационных технологий в гликомике все еще ограничено недостаточностью стандартов представления данных и компьютерных инструментов анализа, моделирования и верификации, а существующие углеводные базы данных неполны и содержат ошибки.
Представленный проект - база данных бактериальных, растительных и грибных углеводов (Carbohydrate Structure Database, CSDB) – это непрерывно обновляемый инструмент доступа к опубликованной информации по природным углеводам с установленной первичной структурой. Эта инициатива направлена на привнесение в гликомику уровня информационной обеспеченности, сравнимого с существующим в геномике и протеомике. В настоящее время CSDB - единственный в мире курируемый ресурс, объединяющий первичные данные по углеводам из указанных таксономических доменов вплоть до 2023 года.
Ключевые отличительные особенности CSDB – это стремление к полноте покрытия и продуктивная верификация данных. Базы данных CSDB содержат структурную, таксономическую, библиографическую, ЯМР-спектроскопическую и прочую информацию для ~33 тыс. уникальных структур углеводов и гликоконьюгатов (включая гликолипиды и гликопротеины), опубликованных в ~15 тыс. статей и ассоциированных с ~17 тыс. организмов. Это соответствует 90%-му покрытию по микроорганизмам и грибам (до 2023 года) и покрытию по растениям до 2000-го года. В доменах прокариот, грибов и простейших база данных CSDB практически является полной, что делает даже отрицательный ответ на поисковый запрос значимой научной информацией. Ежегодный прирост данных составляет ~1000 записей.
Данные, содержащиеся в CSDB, попадают в нее из реферируемой литературы (а также Carbbank), всесторонне проверяются и корректируются, что делает CSDB одной из немногих первичных баз гликоинформатики с полностью курируемым контентом. Сравнительный анализ качества данных свободно доступных углеводных баз данных выявил выдающиеся показатели CSDB (менее 10% ошибочных структур). Кроме структурной информации и библиографии, база данных содержит рефераты публикаций, таксономические аннотации, методы установления структуры, отнесения спектров ЯМР 1H и 13C, а в ряде записей - медицинские, биохимические, генетические, конформационные и другие данные.
Интерфейс CSDB реализован в виде web-сайта, позволяющего пользователю, не обладающему специальными знаниями, получать знания из базы с помощью визуальных операций. Поиск возможен по составу, по фрагментам структуры, по спектрам ЯМР, и по индексированным полям: библиографическим данным, природному происхождению, ключевым словам, тривиальным названиям. Интерфейс также включает защищенную административную часть и программные средства для автоматического обмена данными с другими проектами гликомики (GlyTouCan, NCBI Taxonomy, NCBI PubMed, Glycosciences.DE, ICD-11), универсальные инструменты импорта, экспорта, конвертирования и визуализации данных.
На платформе CSDB реализованы дополнительные сервисы:
База данных CSDB доступна для свободного использования и модерируемого пополнения по адресу http://csdb.glycoscience.ru/.
Разработка CSBD началась в 2004-м году в рамках партнерского проекта Международного Научно-Технологического Центра. Далее исследования и разработка продуктов финансировались Российским Фондом Фундаментальных Исследований, Советом по грантам при президенте РФ, Немецким Центром Исследования Рака и Российским Научным Фондом. Моя роль в проекте состояла в разработке архитектуры и идеологии базы данных, общем проектировании базы, программного движка и форматов данных, разработке языка кодирования структур, программировании поисковых и дополнительных сервисов, верификации данных, web-дизайне, координации процессов наполнения БД и разработке стандартов взаимодействий с другими БД, создании надстроек и общем менеджменте. В рамках работ над проектом были сформулированы и протестированы многие современные правила гликоинформатики, в том числе разработаны углеводная нотация и онтология.
Школьникам и студентам: приглашение к сотрудничеству - текст, презентация.
Постер "Merged CSDB", 2015 (18th European Carbohydrate Symposium) (JPG, 566Kb)
Постер "Bacterial, plant and fungal CSDB", 2014 (6th Baltic Meeting on Bacterial Carbohydrates) (JPG, 637Kb)
Постер "Bacterial CSDB", 2009 (4th Baltic Meeting on Bacterial Carbohydrates) (JPG, 876Kb)
Углеводные базы данных: проблемы и решения (лекция)
Ph.V. Toukach
"Supplementing the Carbohydrate Structure Database with glycoepitopes"
(Glycobiology, 2023, т. 33(7), стр. 528-531)
Ph.V. Toukach, K.S. Egorova
"Source files of the Carbohydrate Structure Database: the way to sophisticated analysis of natural glycans"
(Scientific Data, 2022, т. 9, id. 131)
S.I. Scherbinina, M. Frank, Ph.V. Toukach
"Carbohydrate Structure Database (CSDB) oligosaccharide conformation tool"
(Glycobiology, 2022, т. 32(6), стр. 460-468)
Ph.V. Toukach, K.S. Egorova
"Examining the diversity of structural motifs in fungal glycome"
(Computational and Structural Biotechnology Journal, 2022, т. 20, стр. 5466-5476)
K.S. Egorova, N.S. Smirnova, Ph.V. Toukach
"CSDB_GT, a curated glycosyltransferase database with close-to-full coverage on three most studied non-animal species"
(Glycobiology, 2021, т. 31(5), стр. 524-529)
A.Y. Bochkov, Ph.V. Toukach
"CSDB/SNFG Structure Editor: an online glycan builder with 2D and 3D structure visualization"
(Journal of Chemical Information and Modeling, 2021, т. 61(10), стр. 4940-4948)
Ph.V. Toukach, K.S. Egorova
"New features of CSDB Linear, as compared to other carbohydrate notations"
(Journal of Chemical Information and Modeling, 2020, т. 60(3), стр. 1276-1289)
V.S. Stroylov, M.P. Panova, Ph.V. Toukach
"Comparison of methods for bulk automated simulation of glycosidic bond conformations"
(International Journal of Molecular Science, 2020, т. 21(20), ID 7626)
S.I. Scherbinina, Ph.V. Toukach
"Three-dimensional structures of carbohydrates and where to find them"
(International Journal of Molecular Science, 2020, т. 21(20), ID 7702)
K.S. Egorova, Yu.A. Knirel, Ph.V. Toukach
"Expanding CSDB_GT glycosyltransferase database with Escherichia coli"
(Glycobiology, 2019, т. 29(4), стр. 285-287)
I.Yu. Chernyshov, Ph.V. Toukach
"REStLESS: automated translation of glycan sequences from residue-based notation to SMILES and atomic coordinates"
(Bioinformatics, 2018, т. 34(15), стр. 2679-2681)
K.S. Egorova, Ph.V. Toukach
"Glycoinformatics: bridging isolated islands in the sea of data"
(Angewandte Chemie International Edition, 2018, т. 57, стр. 14986-14990)
R.R. Kapaev, Ph.V. Toukach
"GRASS: semi-automated NMR-based structure elucidation of saccharides"
(Bioinformatics, 2018, т. 34(6), стр. 957-963)
Ph. Toukach, K. Egorova
"Carbohydrate Structure Database (CSDB): examples of usage"
(глава в "A Practical Guide to Using Glycomics Databases", ред.: K.F. Aoki-Kinoshita, Springer Japan, 2017, гл.5, стр. 75-113, ISBN 978-4-431-56452-2)
K.S Egorova, Ph.V. Toukach
"CSDB_GT : a new curated database on glycosyltransferases"
(Glycobiology, 2017, т.27(4), стр.285-290)
Ph.V. Toukach, K.S Egorova
"Carbohydrate Structure Database merged from bacterial, archaeal, plant and fungal parts"
(Nucleic Acid Research Database Issue, 2016, т. 44(D1), стр. D1229-D1236)
K.S Egorova, A.N. Kondakova, Ph.V. Toukach
"Carbohydrate Structure Database: tools for statistical analysis of bacterial, plant and fungal glycomes"
(Database, 2015, ID bav073)
Ph. Toukach, K. Egorova
"Bacterial, Plant, and Fungal Carbohydrate Structure Databases: daily usage"
(глава в "Glycoinformatics", ред.: T. Lütteke, M. Frank, серия: Methods in Molecular Biology, т. 1273. Springer New York, 2015, гл. 5, стр. 55-85, ISBN 978-1-4939-2342-7)
R.R. Kapaev, Ph.V. Toukach
"Improved carbohydrate structure generalization scheme for 1H and 13C NMR simulations"
(Analytical Chemistry, 2015, т. 87(14), стр. 7006-7010)
R. Ranzinger, K.F. Aoki-Kinoshita, M.P. Campbell, S. Kawano, T. Lütteke, S. Okuda, D. Shinmachi, T. Shikanai, H.Sawaki, Ph.V. Toukach, M. Matsubara, I. Yamada, H. Narimatsu
"GlycoRDF: An ontology to standardize Glycomics data in RDF"
(Bioinformatics, 2015, т. 31(6), стр. 919-925)
R.R. Kapaev, K.S. Egorova, Ph.V. Toukach
"Carbohydrate structure generalization scheme for database-driven simulation of experimental observables, such as NMR chemical shifts"
(Journal of Chemical Information and modeling, 2014, т. 54, стр. 2594-2611)
Ph. Toukach, K. Egorova
"Bacterial, Plant, and Fungal Carbohydrate Structure Database (CSDB)"
(глава в "Glycoscience: Biology and Medicine", ред.: T. Endo, P.H. Seeberger, G.W. Hart, C-H. Wong, N. Taniguchi, Springer Japan, 2014, гл. 29, стр. 241-250, ISBN 978-4-431-54840-9)
K.S. Egorova, Ph.V. Toukach
"Expansion of coverage of Carbohydrate Structure Database (CSDB)"
(Carbohydrate Research, 2014, т.389, стр.112–114)
K.F. Aoki-Kinoshita, J. Bolleman, M.P. Campbell, S. Kawano, J. Kim, T. Lütteke, M. Matsubara, S. Okuda, R. Ranzinger, H. Sawaki, T. Shikanai, D. Shinmachi, Y. Suzuki, Ph.V. Toukach, I. Yamada, N.H. Packer, H. Narimatsu
"Introducing glycomics data into the Semantic Web"
(Journal of Biomedical Semantics, 2013, т.4, id.39)
K.S. Egorova, Ph.V. Toukach
"Critical analysis of CCSD data quality"
(Journal of Chemical Information and modeling, 2012, т.52(11), стр.2812-2814)
Ph.V. Toukach
"Bacterial Carbohydrate Structure Database 3: Principles and Realization"
(Journal of Chemical Information and modeling, 2011, т.51(1), стр.159-170)
S. Herget, Ph.V. Toukach, R. Ranzinger, W.E. Hull, Y. Knirel, C.-W. von der Lieth
"Statistical analysis of the Bacterial Carbohydrate Structure Data Base (BCSDB): Characteristics and diversity of bacterial carbohydrates in comparison with mammalian glycans"
(BMC Structural Biology, 2008, т.8, id.35)
Ph. Toukach, H. Joshi, R. Ranzinger, Yu. Knirel, C.-W. von der Lieth
"Sharing of worldwide distributed carbohydrate-related digital resources: online connection of the Bacterial Carbohydrate Structure DataBase and GLYCOSCIENCES.de"
(Nucleic Acid Research - Database Issue, 2007, т.35, стр. D280-D286)