способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система

Классы МПК:	G01N30/72 масс-спектрометры C12Q1/68 использующие нуклеиновые кислоты G06F17/30 информационный поиск; структуры баз данных для этой цели
Автор(ы):	Арчаков Александр Иванович (RU), Згода Виктор Гаврилович (RU), Лисица Андрей Валерьевич (RU), Мошковский Сергей Александрович (RU), Чернобровкин Алексей Леонидович (RU)
Патентообладатель(и):	Общество с ограниченной ответственностью "Интерлаб" (RU)
Приоритеты:	подача заявки: 2009-01-30 публикация патента: 27.12.2010

Изобретение относится к биоинформационным методам идентификации белков и пептидов по геномным базам данных. Способ заключается в том, что алгоритмы сопоставления масс-спектров с геномной базой данных применяются повторно после дополнения базы данных новыми записями, либо после удаления из базы данных записей, либо после замены базы данных базой данных, составленной из новых записей. Дополнительные записи генерируются путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков. Настоящее изобретение также относится к вычислительной системе, функционирование которой основано на раскрытом выше способе. Использование изобретения позволяет повысить точность идентификации последовательности аминокислотных остатков биополимера. 2 н. и 3 з.п. ф-лы, 1 ил.

способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011

Формула изобретения

1. Способ повышения точности определения последовательности аминокислотных остатков по данным масс-спектрометрического анализа, предусматривающий использование, по меньшей мере, одного алгоритма идентификации биополимеров, основанного на сопоставлении масс-спектрометрических данных с геномной базой данных, причем указанный алгоритм последовательно применяют, по меньшей мере, дважды, отличающийся тем, что перед каждым повторным применением алгоритма в геномную базу данных вносят изменения, учитывающие результаты предыдущего(их) применения(ий).

2. Способ по п.1, в котором перед повторным применением алгоритма в геномную базу данных вносят дополнительные записи.

3. Способ по п.2, в котором дополнительные записи генерируют путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков.

4. Способ по п.1, в котором перед повторным применением алгоритма геномную базу данных заменяют базой данных, состоящей из записей, соответствующих ранее идентифицированным биополимерам, а также записей, созданных путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков.

5. Вычислительная система, функционирование которой основано на способе по любому из пп.1-4.

Описание изобретения к патенту

Область техники, к которой относится изобретение

Настоящее изобретение относится к способам информационно-вычислительной обработки масс-спектрометрических данных, направленным на идентификацию первичной структуры биополимеров, в том числе белков и пептидов.

Предшествующий уровень техники изобретения

Компьютерные методы обработки масс-спектрометрических данных, направленные на идентификацию первичной структуры биополимеров, в настоящее время являются основным способом проведения исследований в области протеомики.

В контексте данного изобретения биополимер рассматривается как закодированная в геноме последовательность аминокислотных остатков, содержащая, по меньшей мере, одну пептидную связь, и могущая содержать химические модификации остатков, в том числе, компонентами небелковой природы, такими как липиды, углеводороды, другие органические и неорганические элементы, например металлы. Последовательность аминокислотных остатков характеризуется вариабельностью, обусловленной следующими молекулярно-биологическими процессами: альтернативный сплайсинг, инсерции, делеции и замены единичных аминокислотных остатков. Последние три категории микровариабельности структуры белковых биополимеров обозначаются аббревиатурой SAP (Single Aminoacid Polymorphism). Совокупность индивидуальных особенностей белков организма образует его протеотип. Для определения протеотипа (протеотипирования) необходим способ идентификации микрогетерогенных различий в первичных структурах белков.

Идентификация первичной структуры биополимеров производится на основе масс-спектрометрических данных. Термин «масс-спектрометрические данные» обозначает информацию о массе или масс-зарядных характеристиках полных белков, пептидных фрагментов их гидролиза или фрагментов индуцированного распада ионов биополимеров. В ходе подготовки биополимеров к масс-спектрометрической идентификации их первичная структура может подвергаться специфичным для определенных аминокислотных остатков или неспецифичным модификациям, то есть модификациям, не зависящим от типа остатка в первичной структуре биополимера.

Обработка масс-спектрометрических данных производится с использованием биоинформационных алгоритмов. Большинство из них, например алгоритм Mowse [1], основываются на сравнении экспериментально полученных масс-спектрометрических данных с расчетными оценками, проведенными на основе геномных баз данных (ГБД). «Геномные базы данных» представляют собой совокупность информационных ресурсов, содержащих информационные записи о последовательностях аминокислотных остатков в белках, полученных на основании расшифровки геномной информации и (или) расшифровки экспрессируемых участков генома. Запись в ГБД включает в себя уникальный идентификатор белка и соответствующую этому белку последовательность аминокислотных остатков в буквенной кодировке. При сопоставлении масс-спектрометрических данных с геномной базой данных алгоритмом идентификации рассчитывается оценка статистической достоверности, позволяющая судить о вероятности правильной идентификации белка с учетом заданных масс-спектрометрических данных и определенной геномной базы данных. Белок считается идентифицированным, если оценка статистической достоверности превышает произвольно установленное пороговое значение.

При масс-спектрометрической идентификации биополимера возникают ситуации, когда часть масс-спектрометрических данных не совпадает с ГБД, поскольку в последних отсутствует информация об альтернативном сплайсинге (АС) и SAP. В то же время, внесение в ГБД дополнительной информации о всех возможных вариантах АС и SAP приводит к существенному снижению уровня статистической достоверности идентификации по причине экспоненциального увеличения комбинаторного пространства совпадающих с полученными масс-спектрометрическими данными вариантов первичных структур биополимеров [2].

В публикации [3] описан способ повышения точности определения аминокислотной последовательности пептидов - продуктов протеолиза белков - по данным масс-спектрометрического анализа, основанный на использовании расширенной ГБД. На предварительном этапе ГБД расширяют за счет включения в нее аминокислотных последовательностей белков, содержащих аннотированные в различных источниках SAP и пост-трансляционные модификации (ПТМ). При этом поиск информации о SAP и ПТМ осуществляется для всех белков, содержащихся в исходной базе данных.

Раскрытие настоящего изобретения

Предлагаемое в соответствии с настоящим изобретением решение указанной проблемы заключается в повторном применении алгоритмов масс-спектрометрической идентификации после внесения в ГБД новых записей, либо создание ГБД из новых записей, отражающих информацию об АС и SAP с учетом результатов идентификации белков по масс-спектрометрическим данным. Таким образом, настоящее изобретение относится к способу повышения точности определения последовательности аминокислотных остатков по данным масс-спектрометрического анализа, предусматривающему использование, по меньшей мере, одного алгоритма идентификации биополимеров, основанного на сопоставлении масс-спектрометрических данных с геномной базой данных, причем указанный алгоритм последовательно применяется, по меньшей мере, дважды.

В соответствии с одним из вариантов выполнения настоящее изобретение предусматривает проведение первичной идентификации белков алгоритмом «АИ», добавление в ГБД вариантов первичной структуры, содержащих продукты АС и SAP только для идентифицированных белков, а затем повторное проведение идентификации на обогащенной базе данных либо тем же самым алгоритмом «АИ», либо другим алгоритмом «АИ способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 ».

В соответствии с другим вариантом выполнения настоящее изобретение предусматривает проведение первичной идентификации белков алгоритмом «АИ», создание ГБД, содержащую первичные структуры продуктов АС и SAP только идентифицированных ранее белков, а затем повторное проведение идентификации на обогащенной базе данных либо тем же самым алгоритмом «АИ», либо другим алгоритмом «АИ способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 ».

Отличительным преимуществом настоящего изобретения от аналогичных способов, предусматривающих использование комбинации биоинформационных алгоритмов для повышения уровня статистической достоверности идентификации, является то, что алгоритмы идентификации применяются последовательно, при этом сопряжение предыдущего алгоритма (АИ) с последующим (АИ способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 ) осуществляется путем внесения изменений в ГБД. Для реализации предлагаемого способа достаточно использовать только один алгоритм масс-спектрометрической идентификации, а не по меньшей мере два, как, например, заявлено в патентной публикации [4].

Также отличительным преимуществом настоящего изобретения от публикации [3] является то, что перед каждым повторным применением алгоритма в ГБД вносятся изменения, учитывающие результаты предыдущего(их) применения(ий) алгоритма (АИ). Это позволяет существенно увеличить эффективность поиска (за счет того, что каждая последующая идентификация является уточняющей по отношению к предыдущей(им)) и его достоверность (за счет резкого снижения вероятности получения ложноположительных результатов).

Настоящее изобретение также относится к вычислительной системе, функционирование которой основано на раскрытом выше способе. На вход системы поступают масс-спектрометрические данные МСД. Эти данные используются для идентификации биополимеров по геномной базе данных ГБД алгоритмом АИ. Результаты идентификации (РИ) представляют собой перечень идентификаторов белков, для которых оценка достоверности идентификации превышает установленное пользователем пороговое значение. Для белков в составе РИ на основании содержащихся во внешних источниках информации ВИИ сведений об известных или предполагаемых продуктах АС и вариантах SAP генерируются варианты первичной структуры. В качестве ВИИ могут быть использованы специализированные базы данных генетического полиморфизма (например, НарМар), базы данных, содержащие сведения об известных модификация белковой структуры (например, UniProt), и также персональные данные о результатах генотипирования (например, 23andme.com). После этого алгоритм идентификации АИ способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 применяется для проведения идентификации белков по базе данных ГБД способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 на основе исходных масс-спектрометрических данных МСД. Результаты работы алгоритма АИ способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 , обозначенные как РИ способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 , сравниваются с предыдущими РИ, и устанавливается какие варианты изменений в первичной структуре белков были идентифицированы.

Краткое описание чертежа

На чертеже приведена схема вычислительной системы согласно настоящему изобретению. В настоящей схеме использованы следующие обозначения:

МСД - исходные масс-спектрометрические данные, поступающие на вход системы;

ГБД - исходная геномная база данных;

АИ и АИ способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 - алгоритмы масс-спектрометрической идентификации, причем допускается, что АИ тождественен АИ';

РИ - результаты первичной идентификации, представляющие собой перечень идентификаторов белков;

РИ способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 - результаты повторной идентификации, содержащие дополнительные варианты белков;

МГБД - модификация геномной базы данных;

ГБД способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система, патент № 2408011 - модифицированная геномная база данных, в которую включены варианты белков, содержащихся во внешних источниках информации (ВИИ).

Пример 1. Идентификация полиморфного варианта белка Trypsin-1 [Precursor] (Uniprot P07477) способом согласно настоящему изобретению

Масс-спектрометрические данные исследования образца стволовых клеток человека были загружены из системы Pride (http://www.ebi.ac.uk/pride/). Была произведена первичная масс-спектрометрическая идентификация белков загруженных масс-спектров программой Mascot с использованием базы данных NCBI-nr. Для одного из идентифицированных белков из базы данных Uniprot было получено 13 полиморфных вариантов. Новая база данных была сформирована путем добавления в базу данных NCBI-nr списка полиморфных вариантов белка Trypsin-1. Была произведена повторная масс-спектрометрическая идентификация белков программой Mascot с использованием новой базы данных. В результате вторичной идентификации был идентифицирован полиморфный вариант белка Trypsin-1 [Precursor], отличающийся от дикого типа заменой цистеина в позиции 139 на фенилаланин. В спектре ионной фрагментации был идентифицирован пептид

K.(139)FLISGWGNTASSGADYPDELQCLDAPVLSQAK(170).C, содержащий указанную единичную аминокислотную замену.

Источники информации

[1]. Pappin D.J., Hojrup P., Bleasby A.J., Rapid identification of proteins by peptide-mass fingerprinting, Curr Biol 1993, 3(6), 327-332.

[2]. Kim S., Gupta N., Pevzner P.A., Spectral probabilities and generating functions of tandem mass spectra: a strike against decoy databases. J Proteome Res 2008, 7, 3354-3363.

[3]. Alves G., Ogurtsov A., Yu Y., RAId_DbS: mass-spectrometry based peptide identification web server with knowledge integration. BMC Genomics 2008, 9, 505.

[4]. Method and system for elucidating the primary structure of biopolymers; Bluggel M., Chamrad D., PROTAGEN AG, Dortmund (DE); United States Patent Application Publication US 2006/0188887 Al, Pub. Date: 24.08.2006.

Класс G01N30/72 масс-спектрометры

способ количественного определения органических соединений - патент 2469315 (10.12.2012)
способ идентификации органических соединений на основе метода высокоэффективной жидкостной хроматографии и масс-спектрометрии - патент 2469314 (10.12.2012)

способ определения эндогенных стероидов в плазме крови человека - патент 2451292 (20.05.2012)
газовый медицинский масс-спектрометр для диагностики живого организма в режиме реального времени - патент 2436506 (20.12.2011)
способ идентификации высокотоксичных соединений ряда o-алкилалкилфторфосфонатов и прогнозирования масс-спектров химикатов этого ряда - патент 2391657 (10.06.2010)
способ установления отличительных признаков в химическом составе моногенных линий подсолнечника - патент 2377556 (27.12.2009)
масс-анализатор с ионной ловушкой - патент 2372687 (10.11.2009)
фингерпринтинг сложных смесей, содержащих углеводороды - патент 2341792 (20.12.2008)
способ подготовки проб для определения содержания изотопов урана в маслах - патент 2338186 (10.11.2008)
способ масс-спектрометрического анализа различных химических соединений - патент 2321850 (10.04.2008)

Класс C12Q1/68 использующие нуклеиновые кислоты

способ идентификации вызывающих муковисцидоз мутаций в гене cftr человека, набор праймеров, биочип, набор мишеней и тест-система, используемые в способе - патент 2529717 (27.09.2014)
аптамер, специфичный к опухолевым тканям легкого человека - патент 2528870 (20.09.2014)
способ выявления микобактерий туберкулеза генотипа веijing в режиме реального времени - патент 2528866 (20.09.2014)
способ проведения пцр и пцр-пдрф для идентификации аллельных вариантов waxy-генов пшеницы - патент 2528748 (20.09.2014)
синтетические олигонуклеотидные праймеры для идентификации вируса блютанга нуклеотипа в (3, 13 и 16 серотипы) методом от-пцр - патент 2528745 (20.09.2014)
способ проведения пцр-пдрф для генотипирования крупного рогатого скота по аллелям а и к гена dgat1 - патент 2528743 (20.09.2014)
синтетические олигонуклеотидные праймеры и способ выявления генотипов для идентификации личности с помощью системы микросателлитных днк-маркеров y-хромосомы - патент 2528742 (20.09.2014)
способ оценки чувствительности клеток рака легкого к доксорубицину на основании уровней экспрессии маркерных генов и набор для его осуществления - патент 2528247 (10.09.2014)
биологический микрочип для выявления и многопараметрического анализа противохолерных антител - патент 2528099 (10.09.2014)
набор синтетических олигонуклеотидов для амплификации и секвенирования its1-5.8s-its2 сосудистых растений - патент 2528063 (10.09.2014)

Класс G06F17/30 информационный поиск; структуры баз данных для этой цели

способ и устройство отображения множества элементов - патент 2528147 (10.09.2014)
система генерирования статистической информации и способ генерирования статистической информации - патент 2527754 (10.09.2014)
способ конверсии данных, устройство конверсии данных и система конверсии данных - патент 2527201 (27.08.2014)
телекоммуникационная чип-карта, мобильное телефонное устройство и считываемый компьютером носитель данных - патент 2527197 (27.08.2014)
способ восстановления данных в системе управления базами данных - патент 2526753 (27.08.2014)
способ и устройство хранения, чтения и записи составного документа - патент 2525752 (20.08.2014)
устройство связи, способ связи и система связи - патент 2524861 (10.08.2014)
адаптивное неявное изучение для рекомендательных систем - патент 2524840 (10.08.2014)
основанная на контексте рекомендующая система - патент 2523930 (27.07.2014)
способ динамической визуализации коллекции изображений в виде коллажа - патент 2523925 (27.07.2014)