В сокращенном/адаптированном виде аналогичный материал представлен в виде лекции/семинара Информатика в науке об углеводах
Цель:
Автоматизация структурно-функциональных исследований углеводов; информатизация гликохимии и гликобиологии.
Средства:
Разработка и апробация идеологии, моделей, алгоритмов, стандартов, баз данных, веб-сервисов.
Разработано и объединено в систему:
- правила обработки информации в гликохимии;
- база данных и платформа CSDB;
- семантический углеводный язык и его связь с атомарными моделями;
- ЯМР-моделирование углеводов;
- сравнение и предсказание структур по спектрам ЯМР;
- быстрое получение молекулярной геометрии углеводов;
- кластеризация таксонов и анализ химического разнообразия их гликомов;
- углеводная онтология;
- интеграция с конкурентами с использованием разработанных стандартов;
- web-портал.
Результат:
Компьютерные инструменты гликомики созданы и объединены в согласованную систему, верифицированы на модельных объектах и использованы для реальных исследований. Заложен фундамент для статистических и прямых расчетов корреляции структура-свойство в химии и биологии углеводов. Преобразилась молодая область знания – гликоинформатика, задан и обеспечен мировой вектор ее развития.
Финансирование:
В период 2004-2020 гг. проект имел целевое финансирование в виде 13-ти грантов научных фондов (8 российских и 5 международных).
Публикации:
Строго по теме 34 публикаций, преимущественно в журналах Q1. Список можно посмотреть здесь.
Диссертация:
Работа была использована в качестве диссертации на соискание степени д.х.н. по специальности "Биоорганическая химия", защита состоялась 22.05.2019.
Скачать диссертацию (PDF, 19 Мб)
Скачать автореферат (PDF, 6 Мб)
Доклад посвящен работе по информатизации гликохимии и гликобиологии, проведенной в период 2004-2020 гг. Ф.В. Тоукачем и коллегами.
В первой части («Введение») рассматриваются проблемы в исследовании углеводов, которые можно решить с помощью компьютеризации, и перечисляются частные задачи гликоинформатики, решенные в рамках проекта. Отдельное внимание уделяется раскрытию важности стандартизации знаний и налаживанию взаимосвязей между существующими проектами, на примере того, как это сделано в геномике и протеомике. Введение завершается описанием причин, по которым молекулярные особенности углеводов привели к отставанию гликоинформатики от других разделов биоинформатики в XXI веке.
Вторая часть («Базы данных») рассказывает о том, что такое биохимические базы данных, и какие задачи по получению прямых и опосредованных знаний могут решить гликохимики и гликобиологи с их помощью. Это раздел знакомит слушателей с платформой гликоинформатики Carbohydrate Structure Database (CSDB) и на ее примере показывает, как можно получать знания, пользуясь множеством критериев отбора.
Развитие гликоинформатики в мире во многом связано именно с проектом CSDB. Третья часть доклада («Гликоинформатика») посвящена правилам построения информационных ресурсов в гликомике, выработанным автором проекта совместно с наиболее известными группами, занимающимися углеводными базами данных. Все правила даются в контексте их реализации в CSDB. В частности, обсуждаются критерии востребованности баз данных и расчетных модулей и возможности их длительной поддержки, архитектура и интерфейс, возможности ввода и вывода данных как пользователям, так и другим проектам для автоматической обработки. Отдельная часть раздела посвящена типам и источникам данных, их качеству и контролю ошибок. Показано, как неявные знания, распределенные по разным базам, могут быть получены с помощью углеводной онтологии и модели Resource Description Framework.
Особенности структуры природных углеводов являются краеугольным камнем, выделяющим гликоинформатику в отдельную область знания и затрудняющим использование компьютерных технологий для доступа к данным и для прогнозирования свойств. Четвертая часть доклада («Структуры») содержит информацию о том, что это за особенности, почему они с трудом поддаются компьютерной обработке и как эти проблемы были решены в CSDB. Кратко описывается семантический язык CSDB Linear и другие углеводные языки. Раздел завершается обсуждением алгоритма перехода от семантики углеводных публикаций к строгому химическому описанию структуры, атомным координатам и конформациям.
Пятая часть («Надстройки») раскрывает системообразующую роль CSDB не только как базы данных, но и как платформы для сервисов-надстроек углеводной тематики. В частности, детализируются надстройки для работы с гликозилтрансферазами и для кластеризации таксонов на основании схожести углеводных структур, синтезируемых входящими в них организмами. Надстройка для кластеризации является главной в разработанной группе инструментов для статистической обработки углеводных данных и позволяет пользователям получать альтернативные углеводные «деревья жизни», модифицируя их с учетом множества параметров.
В силу уникальной востребованности спектроскопии ЯМР в структурных исследованиях углеводов, надстройки, позволяющие работать со спектральными характеристиками биогликанов, вынесены в отдельную часть «Структура и спектр». Здесь обосновывается необходимость моделирования спектров ЯМР и рассказывается о различных способах решения этой задачи, объединенных на платформе CSDB. Даются детали сервиса GODDESS, позволяющего с беспрецедентной точностью предсказывать параметры ЯМР сложных гликополимеров и конъюгатов и визуализировать их в виде одно- и двумерных спектров и их отнесения. В частности, рассказывается о новаторском методе обобщения структуры для статистического предсказания атомарных свойств, таких как химические сдвиги. Раздел также содержит описание итератора структур GRASS, позволяющего генерировать структурные гипотезы исходя из легко устанавливаемых ограничений и ранжировать их по степени соответствия наблюдаемым результатам ЯМР и других экспериментов, что значительно упрощает процесс установления структуры.
Доклад завершается частью «Итоги», содержащей резюме в формате «цель-средства-результаты-выводы», презентацию веб-сайта проекта CSDB, основные публикации, наукометрические показатели и список участников и партнеров. Дополнительная информация для пользователей сервиса и для информатиков вынесена в «запасные» слайды.
Последнее обновление: 2021 апрель 1 Домой