Merged CSDB Bacterial CSDB Plant and Fungal CSDB

 
База данных по структурам природных углеводов
(CSDB)

Гликомика - активно развивающаяся область знания, что связано с ее возрастающим значением в биохимии, иммунологии, молекулярной биологии и других науках о жизни. Однако, использование информационных технологий в гликомике все еще ограничено недостаточностью стандартов представления данных и компьютерных инструментов анализа, моделирования и верификации, а существующие углеводные базы данных неполны и содержат ошибки.

Представленный проект - база данных бактериальных, растительных и грибных углеводов (Carbohydrate Structure Database, CSDB) – это непрерывно обновляемый инструмент доступа к опубликованной информации по природным углеводам с установленной первичной структурой. Эта инициатива направлена на привнесение в гликомику уровня информационной обеспеченности, сравнимого с существующим в геномике и протеомике. В настоящее время CSDB - единственный в мире курируемый ресурс, объединяющий первичные данные по углеводам из указанных таксономических доменов вплоть до 2023 года.

Ключевые отличительные особенности CSDB – это стремление к полноте покрытия и продуктивная верификация данных. Базы данных CSDB содержат структурную, таксономическую, библиографическую, ЯМР-спектроскопическую и прочую информацию для ~33 тыс. уникальных структур углеводов и гликоконьюгатов (включая гликолипиды и гликопротеины), опубликованных в ~15 тыс. статей и ассоциированных с ~17 тыс. организмов. Это соответствует 90%-му покрытию по микроорганизмам и грибам (до 2023 года) и покрытию по растениям до 2000-го года. В доменах прокариот, грибов и простейших база данных CSDB практически является полной, что делает даже отрицательный ответ на поисковый запрос значимой научной информацией. Ежегодный прирост данных составляет ~1000 записей.

Данные, содержащиеся в CSDB, попадают в нее из реферируемой литературы (а также Carbbank), всесторонне проверяются и корректируются, что делает CSDB одной из немногих первичных баз гликоинформатики с полностью курируемым контентом. Сравнительный анализ качества данных свободно доступных углеводных баз данных выявил выдающиеся показатели CSDB (менее 10% ошибочных структур). Кроме структурной информации и библиографии, база данных содержит рефераты публикаций, таксономические аннотации, методы установления структуры, отнесения спектров ЯМР 1H и 13C, а в ряде записей - медицинские, биохимические, генетические, конформационные и другие данные.

Интерфейс CSDB реализован в виде web-сайта, позволяющего пользователю, не обладающему специальными знаниями, получать знания из базы с помощью визуальных операций. Поиск возможен по составу, по фрагментам структуры, по спектрам ЯМР, и по индексированным полям: библиографическим данным, природному происхождению, ключевым словам, тривиальным названиям. Интерфейс также включает защищенную административную часть и программные средства для автоматического обмена данными с другими проектами гликомики (GlyTouCan, NCBI Taxonomy, NCBI PubMed, Glycosciences.DE, ICD-11), универсальные инструменты импорта, экспорта, конвертирования и визуализации данных.

На платформе CSDB реализованы дополнительные сервисы:

База данных CSDB доступна для свободного использования и модерируемого пополнения по адресу http://csdb.glycoscience.ru/.

Разработка CSBD началась в 2004-м году в рамках партнерского проекта Международного Научно-Технологического Центра. Далее исследования и разработка продуктов финансировались Российским Фондом Фундаментальных Исследований, Советом по грантам при президенте РФ, Немецким Центром Исследования Рака и Российским Научным Фондом. Моя роль в проекте состояла в разработке архитектуры и идеологии базы данных, общем проектировании базы, программного движка и форматов данных, разработке языка кодирования структур, программировании поисковых и дополнительных сервисов, верификации данных, web-дизайне, координации процессов наполнения БД и разработке стандартов взаимодействий с другими БД, создании надстроек и общем менеджменте. В рамках работ над проектом были сформулированы и протестированы многие современные правила гликоинформатики, в том числе разработаны углеводная нотация и онтология.

Школьникам и студентам: приглашение к сотрудничеству - PDFтекст, PDFпрезентация.


Дополнительные материалы

Poster 2015 Poster 2014 Poster 2009

  Веб-сайт проекта CSDB

  Постер "Merged CSDB", 2015 (18th European Carbohydrate Symposium) (JPG, 566Kb)

  Постер "Bacterial, plant and fungal CSDB", 2014 (6th Baltic Meeting on Bacterial Carbohydrates) (JPG, 637Kb)

  Постер "Bacterial CSDB", 2009 (4th Baltic Meeting on Bacterial Carbohydrates) (JPG, 876Kb)

  Углеводные базы данных: проблемы и решения (лекция)


Избранные публикации:


Other papersПубликации : гликоинформатика ScienceДом : Наука
 
Последнее обновление: 2023 декабрь 22      Домой