1. Инкрементная схема (только 13C) предсказыввает подспектры мономерных остатков, используя специальные спектральные базы данных по моно-, ди- и тримерным фрагментам, теоретическим эффектам замещения и стерическим поправкам. Изначально она была разработана в рамках проекта Biopolymer Structure Elucidation (BIOPSEL) в 2001-м году. С тех пор она была усовершенствована, адаптирована к большему разнообразию структур (в том числе включающих неуглеводные компоненты) и приобрела веб-интерфейс. В 2013-м году мы показали, что этот алгоритм значительно превосходит используемые в ЯМР-исследованиях квантовомеханические подходы (напр., geometry+giao: B3LYP/6-311G++(2d,2p) и PBE/PBE) как по точности предсказания химических сдвигов 13С углеводов в водных растворах, так и по быстродействию [ref]. Нажмите здесь для более подробной справки на сайте проекта.
2. Статистическая схема (13C и 1H), адаптирующая подход HOSE к атомным группировкам и использующая эвристический алгоритм генерализации структуры, оптимизированный для углеводов. Этот подход не требует специальных баз данных, а использует "большую" регулярно пополняемую базу CSDB (>4000 спектров). Алгоритм обощает структурное окружение предсказываемого атома до тех пор, пока в базе не будет найдено достаточно структурно-близких фрагментов, и усредняет химические сдвиги с учетом выбросов. В зависимости от характера обобщения, его стереохимии и удаленности от предсказываемого атома, ему придается определенный вес. Критерием нахождения оптимального набора обощений является их минимальный общий вес. В 2015 средняя точность предсказания на природных углеводах и гликоконъюгатах составила 0.86 м.д. для 13C и 0.07 м.д. для 1H [ref]. Нажмите здесь для более подробной справки на сайте проекта.
3. Как инкрементная, так и статистическая схема оценивают достоверность и точность каждого конкретного предсказания. На основании этих значений, полноты выборки и разброса данных в базе, гибридная схема (только 13C) комбинирует результаты двух подходов, используя гибкие коэффициенты. Нажмите здесь для более подробной справки на сайте проекта.
Статистическая и гибридная схемы позволяют проследить использованные данные и обобщения вплоть до исходных публикаций. Оба подхода реализованы в виде модулей Базы данных углеводных структур (CSDB). Чтобы ввести структуру и запустить симуляцию, нажмите Extras/Predict NMR в меню CSDB или используйте прямую ссылку: NMR simulation. Сервис генерирует одно- и двумерные спектры ЯМР и таблицы отнесения сигналов, примерно так:
В настоящее время поддерживается схематическая визуализация спектров 1D 13C, COSY, COSY RCT, COSY DQF, TOCSY, edHSQC, HSQC-TOCSY и HMBC для произвольной рабочей частоты. Точность предсказания на двух типичных структурах отражена на рисунках:
Здесь можно посмотреть презентацию сервиса GODDESS на Балтийской Встрече по Углеводам Микробов в Ростоке, 2016 (PDF, слайды и доклад).
Generation, Ranking and Assignment of Saccharide Structures (GRASS, "генерирование, ранжирование и отнесение структур сахаридов") - это итератор структур, перебирающий все возможные варианты строения олигосахарида, полисахарида или гликоконъюгата в пределах заданных структурных ограничений. Обязательными параметрами являются неотнескенный экспериментальный спектр ЯМР 13C и число остатков в олигомере или повторяющемся звене полимера. Точность предсказания может быть улучшена указанием дополнительных данных, таких как число CH2-групп, общее число β-сахаров, данные метилирования, мономерный состав (GC), абсолютные, аномерные конфигурации и размеры циклов и т.д. Быстрый эмпирический симулятор спектров ЯМР 13C вызывается для каждой генерируемой структуры, после чего спектры ≤500 наилучших структурных гипогтез уточняются медленным, но более точным статистическим методом. Алгоритм толерантен к неточной оцифровке спектра ЯМР (лишние или пропущенные сигналы). Структурные гипотезы ранжируются по степени сходства предсказанного и экспериментального спектров:
ВВОД: |
ПРЕДСКАЗАНИЕ:
| ВЫВОД: |
|
Это программное обеспечение является дальнейшим развитием программы BIOPSEL (BIOpolymers Primary Structure ELucidation), разработанной в 2001 году в рамках моей диссертационной работы. Исходная программа работала с регулярными гликополимерами, построенными из остатков, соединенных гликозидными, амидными и фосфодиэфирными связями. Детальное описание возможностей и принципов работы оригинальной версии находится здесь. Поддержка 32-битного консольного приложения для Windows прекращена, так как в настоящее время функциональность программы реализована в виде более медленного, но намного более удобного в использовании и функционально насыщенного модуля для Carbohydrate Structure Database, имеющего веб-интерфейс. Нажмите здесь для более подробной справки на сайте проекта.
Презентация GODDESS & GRASS, 2018 (International Life Science Workshop, Токио) (PDF, слайды и текст, 4.1Mb)
Постер GODDESS + GRASS, 2017 (18th Bratislava Symposium on Saccharides, Братислава) (JPG, 0.7Mb)
Презентация GODDESS, 2016 (7th Baltic Meeting on Microbial Carbohydrates, Росток) (PDF, слайды и текст, 2.1Mb)
R.R. Kapaev, Ph.V. Toukach
"GRASS: semi-automated NMR-based structure elucidation of saccharides"
(Bioinformatics, 2018, т. 34(6), стр. 957-963)
R.R. Kapaev, Ph.V. Toukach
"Simulation of 2D NMR Spectra of Carbohydrates Using GODESS Software"
(Journal of Chemical Information and modeling, 2016, т. 56(6), стр. 1100–1104)
R.R. Kapaev, Ph.V. Toukach
"Improved carbohydrate structure generalization scheme for 1H and 13C NMR simulations"
(Analytical Chemistry, 2015, т. 87(14), стр. 7006-7010)
R.R. Kapaev, K.S. Egorova, Ph.V. Toukach
"Carbohydrate structure generalization scheme for database-driven simulation of experimental observables, such as NMR chemical shifts"
(Journal of Chemical Information and modeling, 2014, т. 54(9), стр. 2594-2611)
F.V. Toukach, V.P. Ananikov
"Recent advances in computational predictions of NMR parameters for structure elucidation of carbohydrates: methods and limitations"
(Chemical Society Reviews, 2013, т. 42, стр. 8376-8415)
F.V. Toukach, A.S. Shashkov
"Computer-assisted structural analysis of regular glycopolymers on the basis of 13C NMR data"
(Carbohydrate Research, 2001, т.335(2), стр. 101-114)