МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«НОВОСИБИРСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ГОСУДАРСТВЕННЫЙ
УНИВЕРСИТЕТ» (НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ, НГУ)
Факультет естественных наук___________________________________________________
Кафедра информационной биологии_____________________________________________
Направление подготовки 06.03.01 Биология (академический бакалавр)_________________
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА БАКАЛАВРА
________________________Коренской Александры Евгеньевны______________________
Тема работы: «Биоинформатический анализ характеристик элонгации трансляции у бактерий рода
Ralstonia»
«К защите допущена»
Научный руководитель
Заведующий кафедрой,
к. б. н., н. с.
д.б.н., проф.
ИЦиГ СО РАН
Колчанов Н. А./…………..
Клименко А. И./………...
«……»………………20…г.
«……»………………20…г.
Новосибирск, 2021
Оглавление
Оглавление .....................................................................................................................................2
Список сокращений ...................................................................................................................4
Введение .....................................................................................................................................5
Обзор литературы ......................................................................................................................7
1.1.
Характеристика рода Ralstonia..........................................................................................7
1.1.1.
Представители рода Ralstonia ....................................................................................8
1.1.2.
Филогения фитопатогенов .........................................................................................8
1.1.3.
Фитопатогенез .............................................................................................................9
1.2.
Трансляция ........................................................................................................................11
1.2.1.
Механизм трансляции...............................................................................................11
1.2.2.
Скорость элонгации трансляции: кодонный состав ..............................................12
1.2.3.
Скорость элонгации трансляции: вторичные структуры ......................................15
1.2.4.
Расчет эффективности элонгации трансляции...........................................................16
Материалы и методы ...............................................................................................................17
2.1. Програмный комплекс EloE ................................................................................................17
2.2. Данные об экспрессии гена на уровне белка .....................................................................19
2.3. Анализ характеристик элонгации трансляции рода Ralstonia..........................................21
2.4. Статистический анализ ........................................................................................................24
Результаты и обсуждение........................................................................................................26
3.1. Анализ корреляции индексов элонгации трансляции с экспериментальными данными
об экспрессии белка ....................................................................................................................26
3.1.1. Сопоставление корреляции с типами индекса ............................................................28
3.1.2. Проверка оптимальности выбора типа оптимизации.................................................28
3.1.3. Сопоставление корреляции с филогенией...................................................................29
3.1.4. Сравнительный анализ квантилей распределения значений индекса
эффективности элонгации трансляции и квантилей распределения экспрессии
соответствующих генов ..........................................................................................................31
2
3.1.5. Сопоставление генов, отнесенных в верхнюю квантиль по уровню экспрессии
белка и генов, отнесенных в верхнюю квантиль по значению ИЭЭ ..................................31
3.1.6. Сопоставление коэффициентов корреляции со скоростью деления организмов ....32
3.1.7. Коэффициент корреляции и эффективность элонгации трансляции генов
рибосомных белков..................................................................................................................34
3.2. Интеграция программного комплекса EloE в качестве модуля в систему обработки
геномных данных КГЦ (ЦГИМУ) ИЦиГ ..................................................................................36
3.3. Биоинформатический анализ характеристик элонгации трансляции у бактерий рода
Ralstonia ........................................................................................................................................37
3.3.1. Анализ типов оптимизации элонгации трансляции у бактерий рода Ralstonia .......37
3.3.2. Анализ типов элонгации трансляции у бактерий рода Ralstonia при учете только
хромосомы 1 .............................................................................................................................39
3.3.3. Сопоставление высокоэкспрессированных генов у разных видов ...........................42
Выводы......................................................................................................................................45
Заключение ...............................................................................................................................46
Список литературы ..................................................................................................................47
Приложение ..............................................................................................................................53
3
Список сокращений
ИЭЭ – индекс эффективности элонгации;
EEI (= ИЭЭ) – elongation efficiency index;
К(ИЭЭ|Б) – корреляция между индексами эффективности элонгации и данными об
экспрессии на уровне белка;
КГЦ – Курчатовский геномный центр;
ЦГИМУ – центр генетических исследований мирового уровня;
П – почвенные бактерии рода Ralstonia: R. mannitolilytica, R. pickettii и R. insidiosa;
Ф – фитопатогенные бактерии рода Ralstonia: R. solanacearum, R.pseudosolanacearum, R.
syzygii;
Н – внешняя группа для рода Ralstonia, C.necator;
Мб – мегабаза (миллион пар нуклеотидов);
ГРБ – гены рибосомных белков;
COG (Clusters of Orthologous Groups) – кластера ортологичных групп белков.
4
Введение
Род Ralstonia обладает большим генетическим разнообразием и широким спектром сред
обитания. С одной стороны, этот род включает в себя патогенные для человека виды,
возбуждающие внутрибольничные инфекции.
Так,
R. mannitolilytica вызывает
респираторные инфекции у пациентов, находящихся на искусственной вентиляции легких
[1], а R.pickettii может заражать медицинские растворы и вызывать серьезные заболевания
(менингит, инфекционный эндокардит и другие) у людей с ослабленным иммунитетом [2].
С другой стороны, к этому роду относится группа видов R. solanacearum, поражающая
множество сельскохозяйственных растений, включая имбирь, табак, томат и картофель и
вызывающая бактериальное увядание и другие болезни [3]. Систематика R. solanacearum
недавно была пересмотрена, эта группа была разбита на отдельные виды: R. solanacearum,
R.pseudosolanacearum, R. syzygii [4].
Прогнозирование эффективности элонгации трансляции является важной задачей
биоинформатики, позволяющей дать теоретическую оценку эффективности экспрессии
генов организма. Эффективность элонгации трансляции конкретных организмов зависит,
во-первых, от кодонного состава мРНК. Известно, что синонимичные кодоны встречаются
с разной частотой как среди разных видов, так и среди генов одного организма, и
использование редких кодонов замедляет синтез белка [5]. Во-вторых, наличие вторичных
структур замедляет движение рибосомы по мРНК. Здесь роль также может играть энергия
этих структур [6].
В ИЦиГ СО РАН разработан программный комплекс EloE, позволяющий проводить
биоинформатический анализ характеристик эффективности элонгации трансляции
различных микроорганизмов на основе кодонного состава, количества и энергии вторичных
структур в мРНК. В результате работы алгоритма рассчитываются т.н. индексы
эффективности элонгации трансляции (ИЭЭ) для каждого гена исследуемого организма,
позволяющие отранжировать список генов микроорганизма в соответствии с теоретической
оценкой эффективности элонгации их трансляции [7].
В информационной системе КГЦ (ЦГИМУ) ИЦиГ СО РАН представлены данные о геномах
биотехнологически значимых штаммов микроорганизмов, включая их аннотацию и
информацию о метаболических путях. Интеграция вышеописанного метода в систему
обработки геномных данных КГЦ (ЦГИМУ) ИЦиГ СО РАН и его применение для
массового анализа геномов прокариот позволит производить теоретическую оценку
эффективности экспрессии генов биотехнологически значимых штаммов, представленных
5
в информационной системе, на основе данных о нуклеотидной последовательности генов,
что позволяет достичь более полной характеризации каждого штамма и представляет
практическую значимость для нужд экспериментальной биотехнологии.
В связи с вышеперечисленным фундаментальный интерес и практическую значимость
имеет исследование характеристик элонгации трансляции у бактерий рода Ralstonia в свете
эволюционной истории данной таксономической группы.
Целью данной работы является биоинформатический анализ характеристик элонгации
трансляции у бактерий рода Ralstonia.
В задачи работы входит:
1.
Анализ корреляции между значениями индексов эффективности элонгации
трансляции и экспрессией генов на уровне белка у различных прокариот.
2.
Интеграция программного комплекса для автоматической оценки эффективности
элонгации трансляции генов различных организмов (EloE) в качестве модуля в систему
обработки геномных данных КГЦ (ЦГИМУ) ИЦиГ СО РАН.
3.
Проведение с помощью программного комплекса EloE биоинформатического
анализа характеристик элонгации трансляции у бактерий видов R. solanacearum,
R. pseudosolanaсearum,
R. syzygii,
R. mannitolilytica,
R. pickettii
и
R. insidiosa
и
сопоставление полученных результатов с филогенетическими взаимоотношениями в
рамках данной группы прокариот.
4.
Сравнительный анализ потенциально высоко экспрессирующихся групп генов у
различных видов бактерий рода Ralstonia на основе биоинформатического анализа
характеристик элонгации трансляции.
6
Обзор литературы
1.1. Характеристика рода Ralstonia
Род Ralstonia относится к классу бета-протеобактерий; его представители – аэробные
грамотрицательные палочки. Род Ralstonia включает в себя 16 видов, и обладает большим
генетическим разнообразием и широким спектром сред обитания. Представители этого
рода обычно обнаруживаются в воде и почве [1].
Геном у представителей данного рода состоит из двух хромосом. Хромосома 1 имеет размер
3.5 – 4 Мб, хромосома 2, также именуемая мегаплазмидой, имеет размер 1.4 – 2 Мб.
Сравнительный анализ количества, распределения и состава повторов между хромосомой
и мегаплазмидой у штамма R. solananearum GMI1000 обнаружил схожий паттерн повторов
в этих частях генома, что говорит об их длительной совместной эволюции. Соответственно,
мегаплазмида не могла быть получена путем недавнего горизонтального переноса [8].
Также на фитопатогенах рода Ralstonia показано, что большая часть генов домашнего
хозяйства расположена на хромосоме 1, в то время как на мегаплазмиде, помимо некоторых
необходимых генов, содержатся также геномные островки и штаммоспецифичные гены.
Большинство генов, связанных
с адаптациями и патогенностью, располагаются на
мегаплазмиде. Это гены 3 и 4 типов системы секреции белка, двигательные элементы, гены
хемотаксиса. Уровень синтении хромосомы (70% - 80% кодирующих последовательностей)
больше, чем у мегаплазмиды (55% - 65%); кроме того, показано, что 63% генов
мегаплазмиды неконсервативны, а ее размер сильно варьирует (26%, в то время как
вариация хромосомы – 6%) [9].
Для фитопатогенов рода Ralstonia известно, что рекомбинация и горизонтальный перенос
сыграли значительную роль в эволюции данной группы. На 9 генах, включающих гены 7
домашнего хозяйства и 2 гена патогенеза, было показано, что R. syzygii являлся донором
генов для других фитопатогенов этого рода, в особенности для R. pseudosolanacearum . Что
касается горизонтального переноса – геномные островки, окруженные мобильными
элементами, указывают на события горизонтального переноса. В R. solanacearum GMI1000
было обнаружено 13,3% генов иного происхождения. Возможность горизонтального
переноса между этими фитопатогенами также была продемонстрирована в лабораторных
условиях [3].
7
1.1.1.
Представители рода Ralstonia
В род Ralstonia входят почвенные бактерии и фитопатогены. В ncbi assembly представлены
геномы следующих видов почвенных бактерий: R. mannitolilytica, R.pickettii, R. insidiosa.
Показано, что R. pickettii способна выживать при воздействии таких дезинфектантов, как
хлоргексидин и акринол, а также на бедной среде; некоторые штаммы обитают в местах с
высоким уровнем загрязнения тяжелыми металлами; способны разлагать различные
токсичные вещества, например, ароматические углеводороды и хлорированные фенольные
соединения [10].
Также показано, что эти представители могут выступать в качестве возбудителей
внутрибольничных инфекций у людей с ослабленным иммунитетом. Так, R. mannitolilytica
может колонизировать аппараты для искусственной вентиляции легких и вызывать
респираторные инфекции у пациентов [1]. Также известно, что R.pickettii может заражать
медицинские растворы и впоследствии вызывать у пациентов различные серьезные
заболевания, например менингит, инфекционный эндокардит [2].
Другая группа представителей данного рода это фитопатогены. Сюда относятся виды R.
solanacearum, R.pseudosolanacearum, R. syzygii. Представители этой группы поражают
множество сельскохозяйственных растений, включая имбирь, табак, томат и картофель.
Вызывает такие заболевания как бурая гниль картофеля, бактериальный винт,
бактериальное увядание [3].
Также в рамках диплома представляет интерес вид Cupriavidus necator (ранее известный
как Ralstonia eutropha), так как является филогенетически ближайшим хорошо изученным
видом. Факультативный хемолитоавтотроф, в качестве субстрата использует органические
вещества, либо H2 и CO2. Этот вид известен синтезированием полиэфиров, относящихся к
семейству
полигидроксиалканоатов
(polyhydroxyalcanoates,
PHA)
и
полигидроксибутиратов (PHB). Эта особенность активно применяется для промышленного
производства биопластиков [10].
1.1.2. Филогения фитопатогенов
Ранее фитопатогены рода Ralstonia были включены в группу видов Ralstonia solanacearum,
которая была разделена на филотипы, основываясь на географическом происхождении
штаммов, последовательности внутреннего транскрибируемого спейсера 16S-23S рРНК
(internal transcribed spacer – ITS), генов реакции сверхчувствительности (hypersensitive
response – HR) и генов патогенеза B (hrpB ) и эндоглюканазы (egl). Филотип I включает
штаммы, происходящие в основном из Азии, филотип II из Америки, филотип III из
8
Африки, филотип IV в основном составляют штаммы из Индонезии, также туда входят
штаммы из Австралии и Японии, Кореи, Малазии.
Классификация была пересмотрена в 2014 году [4] на основе генетического сходства.
Штаммы филотипов 1 и 3 имеют сходство 53 - 58 % со штаммами филотипа 4, 52 – 58 %
со штаммами филотипа 2, и 31 - 32 % со штаммами другого вида, R. mannitolilytica . Внутри
каждой из представленных групп сходство 72 – 90 %, что позволило разбить их на
отдельные виды. Теперь к R. solanacearum относят только филотип 2, филотипы 1 и 3
сформировали вид R. pseudosolanacearum, а филотип 4 – вид R. syzygii, разделенный на 3
подтипа. На данный момент классификация по филотипам продолжает использоваться
совместно с новой классификацией.
R. solanacearum – включает подвижные и неподвижные штаммы. Штаммы имеют
характерную последовательность 5′-AGTTATGGACGGTGGAAGTC 16S-23S рРНК ITS
(intergenic spacer). Поражают широкий круг хозяев.
R. pseudosolanacearum – включает подвижные и неподвижные штаммы. Штаммы содержат
характерные нуклеотидные последовательности 5'-CGTTGATGAGGCGCGCAATTT или 5'ATTACSAGAGCAATCGAAAGATT в последовательности 16S-23S рРНК ITS. Поражают
широкий круг хозяев.
R. syzygii – все штаммы неподвижны. Штаммы имеют характерную нуклеотидную
последовательность 5'-ATTGCCAAGACGAGAG, 16S-23S рРНК ITS (intergenic spacer).
Подразделяется
на
3
подвида,
отличающиеся
по
патогенности
и
фенотипу
R. syzygii subsp. syzygii subsp. nov – специализируется на гвоздике.
R. syzygii subsp. indonesiensis subsp. nov – может поражать томат, картофель, чили, гвоздику.
R. syzygii subsp. Celebesensis subsp. nov – специализируется на бананах и плантанах
(овощных бананах), вызывая “Кровяную болезнь” (banana blood disease –BDB).
Такой пересмотр классификации стоит учитывать при работе с литературой и геномными
данными, так как можно встретить употребление наименования R. solanacearum как для
обозначения вида, так и для обозначения большинства фитопатогенов рода.
1.1.3. Фитопатогенез
Заражение растения происходит через почву и воду, куда бактерия попадает, выделяясь из
корней зараженных растений, и где может сохранять патогенный потенциал в течение
нескольких лет.
9
Внутрь растения бактерия проникает через поврежденные покровы. При этом важную роль
играют пили 4 типа и жгутики, участвующие в движении бактерий. Вращение жгутиков
позволяют бактерии плыть, а пили обеспечивают движение, называемое твитчингом
(twitching motility). Этот тип движения осуществляется за счет прикрепления пили к
растению и последующего ее укорочения при разборке пили в месте крепления к клетке.
Связывание с растением и движение играет важную роль в процессе инвазии. Показано, что
мутантные бактерии, не имеющие этих способностей, гипопатогенны, но при введении
бактерии в стебли растений патогенность восстанавливается.
Патогенное действие на организм определяется наличием секреторной системы типа 3
(T3SS): отросток мембраны на поверхности бактерии, похожий на шприц, вводит в
цитозоль растительной клетки эффекторные белки (type III effector proteins, or T3E). Если
бактерия мутантна, и консервативные структурные или регуляторные белки этого
молекулярного шприца дефектны, что препятствует развитию отростка, она является
непатогенной. Такая секреторная система имеется у многих фитопатогенных бактерий. T3E
белки способствуют развитию бактериальной инфекции. Показано, что Rsp0304 и PopP2 из
T3E способствуют пролиферации R. solanacearum в баклажанах, бобах и томатах, семейства
AWR и GALA T3E, необходимы для нормальной патогенности со всеми признаками
заболевания в томатах и баклажанах [3].
Такой эффект обеспечен тем, что часть T3E белков подавляют иммунные реакции растения,
в том числе за счет манипуляции гормональными сигналами растения, что оказывает
влияние и на другие особенности физиологии растений. Также белки этой группы могут
оказывать влияние на метаболизм растения. Так, у R. solanacearum RipTPS из группы T3E
проявляет активность трегалозо-6-фосфат (Tre6P) синтазы. Tre6P является важной
сигнальной молекулой, которая регулирует усвоение углерода и уровень сахара у растений,
что играет роль в абиотическом стрессе растений и биотических взаимодействиях [11].
Кроме того, в патогенности играют роль ферменты, разрушающие стенку растительной
клеточной ткани типа II, целлюлазы, пектиназы и преобразователи аэротаксиса.
Далее бактерия размножается и систематически перемещается в растении до появления
симптомов бактериального увядания. В дальнейшей колонизации растения значительную
роль играет экзополисахарид (EPS), рыхлая слизь гетерогенного состава, секретируемая
бактерией, которая повышает патогенность бактерии, а также способствует последующей
закупорке сосудов растения.
10
1.2.Трансляция
Трансляция – это последний этап экспрессии гена, во время которого кодирующая
последовательность мРНК транслируется в аминокислотную последовательность белка.
Трансляция включает в себя четыре основных фазы: инициацию, элонгацию, терминацию
и рециклинг рибосом [12]. На E. coli было показано, что вторым по важности после
количества мРНК (53%) фактором, определяющим общее количество белка в клетке,
является элонгация трансляции (12%) [13].
1.2.1. Механизм трансляции
Инициация трансляции
Для инициации трансляции необходима посадка рибосомы на участок лидерной
последовательности мРНК. Зачастую этим участком является последовательность ШайнаДальгарно (ШД), комплементарная участку 3’ 16s рРНК малой субъединицы рибосомы. В
результате взаимодействия малая субъединица садится на мРНК, стартовый кодон АУГ
оказывается в P-центре, следующий кодон – в A-центре. Правильность данного этапа
контролируется фактором IF3. В малую субъединицу проникает формилметионин-тРНК, ее
антикодон связывается с кодоном АУГ (специфичность обеспечивается также фактором
инициации трансляции IF2). Вход в A-центр при этом закрыт фактором инициации
трансляции IF1. Образуется прединициаторный комплекс, состоящий из 30s субъединицы
рибосомы,
мРНК,
формилметионинин-тРНК-формилметионин,
происходит
присоедининие большой субъединицы, связь с ШД разрывается, начинается стадия
элонгации [14].
Элонгация трансляции
После сборки рибосомы А-центр становится доступным для аминоацил-тРНК, по принципу
комплементарности
приносится
соответствующая
аминокислота,
формилметионин
отсоединяется от тРНК, затем формилметионин переносится в А-центр, где между ним и
второй аминокислотой образуется пептидная связь. Происходит сдвиг рибосомы на один
кодон. Принесшая формилметионин тРНК переносится из Р-центра в Е-центр, затем
покидает рибосому. Второй кодон, связанный с тРНК и дипептидом, переносится в Р-центр.
К третьему кодону в А-центре присоединяется новая аминоацил-тРНК. Дипептид
отделяется от тРНК, образуется пептидная связь между ним и третьей аминокислотой.
Таким образом процесс повторяется до стадии терминации [14].
Терминация трансляции
11
Так как тРНК, соответствующих стоп-кодонам не существует, при попадании стоп-кодона
в А-центр, этот центр остается пустым. Тогда в А-центр приходит рилизиг-фактор (RF). В
P-центре синтезированный полипептид отрывается от тРНК, переносится в А-центр, но
реакции пептизации не происходит, полипептид покидает рибосому. Рибосома
дисоциирует, и малая субъединица может снова связаться с лидерной последовательностью
мРНК [14].
1.2.2. Скорость элонгации трансляции: кодонный состав
На скорость трансляции влияет ряд факторов. Один из них – это кодонный состав гена. В
связи с вырожденностью генетического кода одна аминокислота может кодироваться
несколькими кодонами. Показано, что у разных организмов синонимичные кодоны
используются с разной частотой, коррелирующей с количеством копий соответствующих
тРНК [15].
Как было показано на дрожжах, частота встречаемости синонимичных кодонов
ассоциирована с уровнем экспрессии генов, и в генах с высокой экспрессией чаще
встречаются предпочтительные кодоны, а в генах с низкой – редкие кодоны [16]. Путем
замены часто встречаемых кодонов на более редкие в генах E. coli было подтверждено, что
использование редких кодонов может замедлять скорость элонгации трансляции [17].
Замедление скорости элонгации трансляции проявляется в большем времени нахождения
кодона в А-центре рибосомы и увеличивает плотность рибосом на данном участке мРНК.
Оценить распределение плотности рибосом на мРНК можно методом профилирования
рибосом (Ribo-Seq), при котором секвенируются участки мРНК, связанные с рибосомами
[18]. Применение этого метода на Saccharomyces cerevisiae показало наличие влияния
кодонного состава на скорость элонгации трансляции. Была обнаружена отрицательная
корреляция (-0.56) между высокой кодон-специфической избыточной плотностью рибосом
на мРНК и количеством соответствующих тРНК (определялось как общее число копий
генов соответствующих тРНК) [19]. Отрицательная корреляция
между плотностью
рибосом на мРНК и индексом адаптации соответствующего кодона была показана и на
E.coli [5].
Недавнее исследование
[20], проведенное на 6 видах бактерий показало, что число
нормализованных тРНК позволяет лучше, чем количество копий тРНК, объяснить
предпочтение кодонов. Авторы использовали данные о количестве белка, и данные о
количестве транскриптов тРНК, чтобы выделить гены с наиболее высокой и низкой
эффективностью трансляции для выявления наиболее оптимальных кодонов. Затем для
12
каждого организма рассчитывались корреляции между эффективным числом кодонов
(индекс, отражающий систематическую ошибку использования кодонов [21]) и индексом
адаптации тРНК tAI (tRNA adaptation index), рассчитанным разными способами: с
использованием числа копий генов тРНК,
с использованием данных о количестве
транскриптов тРНК. Во втором случае корреляция оказалась выше (Табл. 1). Стоит
отметить, что полученное значение корреляции сильно отличалось среди представленных
видов организмов. У организмов с высокой скоростью роста этот показатель в основном
оказался выше, чем у организмов с низкой скоростью роста (см таблицу) [20].
Виды
Корреляция
с Корреляция
с Скорость
генами тРНК
транскриптами тРНК
роста
E. coli
0,61
0,71
Быстро
S. enterica
0,59
0,69
Быстро
B. thetaiotaomicron
0,4
0,62
Медленно
Synechocystis sp.
0,27
0,5
Медленно
B. subtilis
0,18
0,33
Быстро
M. tuberculosis
0,1
0,13
Медленно
L. interrogans
0,23
0,2
Медленно
Табл. 1. Корреляции между эффективным числом кодонов и количеством копий генов
тРНК или между эффективным числом кодонов и числом транскриптов тРНК у
организмов с разным временем роста.
Это соотносится с теорией о том, что коэволюция между количеством тРНК и
использованием кодонов более выражена в быстрорастущих, чем в медленнорастущих
организмах, так как скорость трансляции у первых является лимитирующим фактором в
делении клеток [22].
Кроме того, роль играет и окружение кодона – встречаются более предпочтительные и
менее предпочтительные пары кодонов. Более того, паттерны кодонов могут быть очень
консервативными – определенные пары кодонов являются предпочтительными в открытых
рамках считывания у бактерий, архей и эукариот, а некоторые пары кодонов, наоборот,
крайне редки в данных группах [23]. Обнаружены пары кодонов, характерные для генов с
высокой экспрессией, и пары, характерные для генов с низкой. На дрожжах было
продемонстрированно, что некоторые пары кодонов могут ингибировать элонгацию
трансляции за счет формирования вторичных структур в мРНК[24]. Тем не менее,
13
предпочтение на уровне одиночных кодонов остается эволюционно более консервативным
признаком [23].
Также на E. coli было показано, что кодонный состав влияет на точность трансляции.
Вероятность ошибки при трансляции для разных кодонов отличается. Как предполагают
авторы, это связано с количеством соответствующей тРНК: при меньшем количестве
подходящей тРНК и, соответственно, меньшей конкурентоспособности этой тРНК за
кодон, присоединение несоответствующей аминокислоты происходит чаще [25].
Помимо всего прочего, интерес представляет исследование, в котором авторы пытались
минимизировать эффект от совмещения трансляции и транскрипции. Для этого они
помещали гены различных организмов в E. coli, и затем замеряли их уровень экспрессии на
уровне мРНК и на уровне белка, причем транскрипция происходила с использованием
полимеразы бактериофага, что обеспечивало повышенную скорость синтеза, и таким
образом разобщало транскрипцию с трансляцией. Было показано, что кодонный состав
мРНК действительно напрямую влияет на эффективность трансляции. Кроме того, он
влияет и на скорость деградации мРНК – неэффективно транслируемая мРНК имела более
низкую концентрацию. При транскрибировании гена полимеразой E. coli неэффективно
транслируемые
кодоны
также
могли
вызывать
преждевременную
терминацию
транскрипции и таким образом влиять на количество белка и мРНК. Это явление также
может повышать корреляцию между количествами мРНК и белка [26]
Но нельзя сказать, что наличие редких кодонов однозначно замедляет трансляцию. Было
показано наличие кластеров редких кодонов в определенных участках генов. Наличие
редких кодонов, богатых АТ нуклеотидами, на 5’ конце может увеличивать эффективность
инициации за счет уменьшения стабильности вторичных структур мРНК, препятствующих
посадке рибосомы. Кластеры редких кодонов на участке 56-75 в генах секретируемых и
трансмембранных белков вызывают «+70 паузу», что способствует связыванию
синтезированной
последовательности
с
белками,
участвующими
в
дальнейшей
транспортировке пептида. Также было показано, что кластеры редких кодонов играют роль
в сворачивании белков [27].
Еще один интересный момент: наличие и отсутствие кодона в гене – консервативный
признак среди ортологичных генов у архей, бактерий, растений, млекопитающих и других
позвоночных. Факт наличия или отсутствия кодона в гене в 1109 чаще соответствует
принадлежности организма к филогенетической группе, чем можно ожидать при случайном
14
распределении. Исследуя гены-ортологи по этому признаку, можно разрешать вопросы
таксономии [28].
1.2.3. Скорость элонгации трансляции: вторичные структуры
Также показано, что вторичные структуры в мРНК замедляют движение рибосомы по
мРНК [29]. Для прохождения рибосомы через вторичные структуры необходимо их
расплетение, что обеспечивается рибосомными геликазами. Предложено два механизма
расплетания вторичных структур: в первом при температурных флуктуациях вторичной
структуры мРНК между открытым и закрытым состояниями, взаимодействие с рибосомой
происходит, когда мРНК находится в открытом состоянии. Такой механизм не требует
дополнительных затрат энергии. Во втором механизме расплетание шпильки происходит
за счет конформационных изменений, что требует дополнительных затрат энергии. Этот
механизм обеспечивает базальную скорость трансляции в клетке [6]. В недавнем обзоре
механизмов трансляции рибосом через вторичные структуры мРНК [30] авторы заключили,
что с современными экспериментальными данными лучше всего согласуется модель
энергозависимого расплетания вторичных структур; о том, что этой модели достаточно для
объяснения имеющихся экспериментальных данных, писали и ранее [31].
Вторичные структуры на участках инициации трансляции мРНК, как правило, отсутствуют,
что позволяет рибосоме сесть на мРНК. Однако бывает, что вторичные структуры на этом
участке встречаются, регулируя экспрессию гена на уровне трансляции. На данный момент
на бактериях показаны следующие механизмы регуляции инициации трансляции,
обеспечиваемые вторичной структурой мРНК: опосредование опознавания и связывания
регуляторных белков либо малых РНК с мРНК; обеспечение температурно-зависимой
экспрессии генов (при повышении температуры шпилька расплетается, сайт инициации
становится доступным для посадки рибосомы); обеспечение трансляционного сопряжения
при трансляции полицистронных мРНК (шпилька в сайте связывания рибосомы
расплетается рибосомой, транслирующей предыдущий в опероне ген); формирование
рибопереключателя, меняющего конформацию, и, соответственно, доступ рибосомы к
сайту связывания рибосом, в зависимости от наличия лиганда; переключение между
альтернативными вторичными структурами мРНК при взаимодействии с регуляторным
белком; активация инициации трансляции за счет наличия вторичной структуры после
старта трансляции, способствующей формированию инциаторного комплекса [32].
Вторичные структуры, располагаясь ниже «скользких последовательностей», участвуют в
осуществлении программируемого сдвига рамки считывания на этих последовательностях,
15
что показано на вирусах, бактериях и эукариотах. В результате с одного транскрипта могут
транслироваться разные белки [33].
Также наличие вторичных структур влияет на время жизни мРНК. Вторичные структуры в
мРНК и задержка рибосом в открытой рамке считывания могут затруднять работу
рибонуклеаз, за счет чего увеличивается время жизни мРНК и может расти количество
синтезированного белка. Но при этом эти же вторичные структуры замедляют скорость
элонгации трансляции. При этом также снижается пул свободных рибосом, что также
может снижать частоту инициации трансляции, уменьшая количество синтезированного
продукта. Поэтому в данном случае влияние вторичных структур на количество
полученного белка неоднозначно и зависит от баланса между скоростью деградации мРНК
и скоростью элонгации трансляции [24].
Итак, мы можем видеть, что на скорость элонгации трансляции влияет кодонный состав и
вторичные структуры, за счет чего может модулироваться количество получаемого белка.
Таким образом, рассчитывая соотношение оптимальных и неоптимальных кодонов в гене,
а также наличие вторичных структур в мРНК, можно предсказать эффективность синтеза
белка данного гена. Стоит отметить, что так как роль вторичных структур в оптимизации
элонгации трансляции может быть неоднозначной за счет их влияния на время жизни
мРНК, это может затруднить прогнозы об итоговом количестве полученного на этом этапе
белка. Различные регуляторные механизмы, способные расплетать вторичные структуры
мРНК также усложнят предсказание. Поэтому можно ожидать, что учет вторичных
структур будет отражать количество синтезированного белка с меньшей точностью.
1.2.4. Расчет эффективности элонгации трансляции
Для расчета характеристик эффективности элонгации трансляции одноклеточных
организмов в ИЦиГ СО РАН был разработан программный комплекс EloE. В результате
работы алгоритма рассчитываются индексы эффективности элонгации трансляции (ИЭЭ)
для каждого гена исследуемого организма, позволяющие отранжировать список генов
микроорганизма в соответствии с теоретической оценкой эффективности элонгации их
трансляции [7]. Ранее для S.cerevisiae и H.pylori был проведён анализ корреляции этих
оценок с уровнем экспрессии на уровне транскриптов по данным микрочипов, корреляция
составила 0.28 для H.pylori и 0.79 для S.cerevisiae [34]. Однако систематического
исследования данного вопроса с использованием геномных и протеомных данных для
различных групп прокариот ранее не проводилось.
16
Материалы и методы
2.1. Програмный комплекс EloE
В дипломной работе применялся программный комплекс EloE, разработанный В. С.
Соколовым [35]. В основе работы алгоритма EloE лежит расчет индекса эффективности
элонгации трансляции (ИЭЭ или EEI (Elongation Efficiency Index)), разработанный
сотрудниками ИЦиГ СО РАН А. Лихошваем и Ю. Г. Матушкиным [36]. Этот индекс
рассчитывается для каждого гена, кодирующего белок, и имеющего CDS в аннотации
генома, и означает среднюю скорость элонгации трансляции, характерную для данного
гена.
Рассчитывается индекс по следующей формуле:
𝐸𝐸𝑖(𝑖) = 𝐾 ⁄(𝑤1Ta(𝑖) + 𝑤2Te(𝑖))
где i – номер гена, Ta (i),– среднее время размещения в А-сайте, Te(i) – среднее время
транслокации, K – нормирующий множитель, w1 и w2 имеют значения 1 или 0, чем
определяют учет слагаемых в значении индекса.
Учет кодонного состава происходит при расчете Ta по формуле:
𝑇𝑎 (𝑖) = ∑
𝛽𝛿(𝑖,𝑗) =
𝑛𝑖
𝑗=1
𝛽𝛿(𝑖,𝑗) /𝑛𝑖
∑𝐶𝑚=1 √𝑎𝑚
√𝑎𝛿(𝑖,𝑗)
Где 1/βδ(i,j) – оптимальная относительная концентрация аминоацил-тРНК, комплементарной
j-ому учитываемому кодону, а αδ(i,j) и αm – частоты использования кодонов δ(i,j) и m в
выделенной подвыборке генов, ni – количество кодонов в гене i, С – общее число кодонов.
В качестве выделенной подвыборки выступает набор генов заранее заданного количества
(либо численно, либо в процентах от общего числа генов в геноме организма). Изначально
гены выбираются случайно, затем выборка постепенно изменяется в соответствии с
рассчитываемыми значениями индекса EEI, пока не стабилизируется на конкретном
оптимальном составе генов с наибольшими значениями.
Учет вторичных структур происходит при расчете Te(i) по формуле:
Te(i) = tmin(1 - p(i)) + tmaxp(i),
17
где tmin и tmax – максимальное условное время транслокации, p(i) – вероятность реализации
максимального
условного
времени
транслокации
(растет
с
увеличением
самокомплиментарности), рассчитываемая по формуле:
𝐿𝐶𝐼(𝑖)
𝑝(𝑖) = ∫
0
𝑘=
𝑘 𝑛+1 𝑥 𝑛 −𝑘𝑥
𝑒 𝑑𝑥
𝐺(𝑛 + 1)
𝑚
𝜎2
𝑚
𝑛 = ( )2
𝜎
где m и σ2, соответственно, математическое ожидание и дисперсия положительной
случайной величины с плотностью распределения
где G(n+1) – Гамма-функция, LCI(i) – индекс локальной комплементарности, учитывающий
самокомплементарность мРНК.
В алгоритме рассчитывается два типа LCI(i): LCI1, отражающий среднее число
комплиментарных нуклеотидов, приходящихся на один нуклеотид анализируемой
последовательности и LCI2, отражающий среднюю стабильность вторичных структур
мРНК. Расчет происходит по формулам:
𝐿𝐶𝐼1(𝑖) =
𝐿𝐶𝐼2(𝑖) =
𝑠𝑚𝑎𝑥
𝑙𝑚𝑎𝑥
𝑖 −𝑠𝑚𝑎𝑥 −𝑙𝑚𝑎𝑥
∑𝑚
ζ(𝑐𝑜𝑛(𝑚, 𝑚 + 𝑠 − 1), ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅
𝑐𝑜𝑛(𝑚 + 𝑠 + 𝑙, 𝑚 + 2𝑠 + 𝑙 − 2))]}
{∑𝑠=𝑠
[∑𝑙=𝑙
𝑚=1
𝑚𝑖𝑛
𝑚𝑖𝑛
𝑚𝑖 − 𝑠𝑚𝑎𝑥 − 𝑙𝑚𝑎𝑥
𝑠𝑚𝑎𝑥
𝑙𝑚𝑎𝑥
𝑖 −𝑠𝑚𝑎𝑥 −𝑙𝑚𝑎𝑥
∑𝑚
ψ(𝑐𝑜𝑛(𝑚, 𝑚 + 𝑠), ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅
𝑐𝑜𝑛(𝑚 + 𝑠 + 𝑙 − 1, 𝑚 + 2𝑠 + 𝑙 − 2))]}
{∑𝑠=𝑠
[∑𝑙=𝑙
𝑚=1
𝑚𝑖𝑛
𝑚𝑖𝑛
𝑚𝑖 − 𝑠𝑚𝑎𝑥 − 𝑙𝑚𝑎𝑥
где длина повтора (размер стебля шпильки) не меньше smin = 3 и не больше smax = 6,
расстояние между повторами (длина петли шпильки) не меньше lmin = 3 и не больше lmax =
50; con(i,j) – слово с i-го по j-й нуклеотид и con(i,j) комплементарное слово с j-го по i-й
нуклеотид (i ≤ j). ζ(con1, con2) = 1, если con1 и con2 идентичны, иначе ζ(con1, con2) = 0; ψ –
энергия вторичной структуры, состоящая из суммы энергий взаимодействия составляющих
ее динуклеотидов.
В итоге, для каждого гена организма рассчитывается пять типов индексов EEI, также
именуемые типами оптимизации элонгации трансляции:
18
1) EEI1 = K/Ta – учитывается только кодонный состав гена;
2) EEI2 = K/Te(LCI1) – учитывается только количество вторичных структур в мРНК;
3) EEI3 = K/Te(LCI2) – учитывается только стабильность вторичных структур в мРНК;
4) EEI4 = K/(Ta+Te(LCI1)) – учитываются и кодонный состав, и количество вторичных
структур в мРНК;
5) EEI5 = K/(Ta+Te(LCI2)) – учитываются и кодонный состав, и стабильность вторичных
структур в мРНК.
Далее определяется тип индекса, наиболее правдоподобно оценивающий эффективность
элонгации трансляции для исследуемого организма. Для этого из списков генов,
отранжированных в соответствии с индексом EEI для каждого из пяти типов выделяются
гены рибосомных белков. Далее для каждого типа рассчитываются среднее и стандартное
отклонение генов рибосомальных белков:
𝑀=
𝑁𝑟𝑖𝑏
1
∑ 𝑥𝑖
𝑁𝑟𝑖𝑏
𝑖=1
𝑅= √
𝑁𝑟𝑖𝑏
1
∑ (𝑀 − 𝑥𝑖 )2
𝑁𝑟𝑖𝑏
𝑖=1
Значения M и R нормируются так, чтобы иметь значения в интервале [0, 100]. Так как для
генов рибосомальных белков характерен высокий уровень экспрессии, в качестве
оптимального типа выбирается тот, для которого значение M – наибольшее, а значение R –
наименьшее. Данный алгоритм реализован в программном комплексе EloE, разработанном
В. С. Соколовым [35].
2.2. Данные об экспрессии гена на уровне белка
В качестве экспериментальных данных о количестве белка были взяты данные, хранящиеся
в базе данных https://pax-db.org/ [37]. На данном ресурсе представлены данные о количестве
белков всего организма, выраженные в виде числа молекул белка на миллион, таким
образом, показывая относительное содержание белковых молекул. Эти данные о
количестве белка были получены методом тандемной масс-спектрометрии. Метод массспектрометрии позволяет определять соотношение массы и заряда ионизированной
молекулы. Для применения этого метода к белкам, белки ионизируются, затем проходят
19
через спектрометр. Потом эти белки расщепляются на пептиды и вновь проходят через
спектрометр.
Теоретические
последовательности
белков,
аннотированных
для
исследуемого организма, разбиваются на теоретические пептиды по тому же принципу.
Сопоставление теоретического и наблюдаемого распределений пептидов позволяет
определить, к какому белку относятся детектируемые пептиды. Данный метод называется
методом тандемной масс-спектрометрии и позволяет получать количество различных
белков в смеси.
Таким образом были получены протеомные данные для 26 видов прокариот, при этом для
большинства организмов были представлены данные по нескольким экспериментам, в
таком случае в анализ брались усредненные данные по нескольким экспериментам. Для
организмов, для которых были получены данные о количестве белка, из ncbi assembly
извлекались аннотированные геномы с id генов, соответствующим id генов в файлах с
данными о количестве белка. Таким образом, анализ проводился для 26 видов прокариот,
включая два вида архей и 24 вида бактерий, относящихся к различным классам.
o
Подсчет
корреляций
Геномы
EloE
Протеомные
данные
Склеивание
данных по
основному типу
Сопоставление с M, R,
временем удвоения
Ящики с усами
Отображение филогении
Разбиение EEI и протеомных
данных на квантили,
корреляция, графики
Склеивание и подсчет корреляций
для всех возможных типов
построение графиков с корр., M, R
Рис. 1. Конвейер для анализа корреляции индексов эффективности элонгации
трансляции и протеомных данных. Стрелками обозначены скрипты, реализованные в
рамках дипломной работы, овалами – используемые данные.
Далее эти данные различным образом анализировались (рис.1).
Анализ квантилей значений индекса эффективности элонгации трансляции и экспрессии
соответствующих
генов
выполнялся
следующим
образом.
Для каждого из 26 организмов значения EEI по основному типу оптимизации элонгации
трансляции организма были разбиты на различное количество квантилей (по убыванию
ИЭЭ), значения экспрессии гена на уровне белка были также разбиты на такое же число
20
квантилей (по убыванию количества белка), затем среди генов подсчитывалась корреляция
Кендалла между номером квантили по ИЭЭ и по экспрессии гена (рис 8, 9.). Значения
корреляции при p > 0.05 выбрасывались из анализа.
Также для случаев аналогичного разбиения на 4 и 5 квантилей для каждого организма
рассчитывалось
соответствие
генов,
1)
отнесенных
в
верхнюю
квантиль
по
экспериментально измеренному уровню белка, 2) отнесенных в верхнюю квантиль по
значению ИЭЭ. Для этого подсчитывалась доля совпавших генов в группах 1) и 2).
2.3. Анализ характеристик элонгации трансляции рода Ralstonia
В качестве материала для анализа характеристик элонгации трансляции у бактерий рода
Ralstonia были взяты все аннотированные геномы представителей рода Ralstonia (246 штук),
доступные в базе данных RefSeq на 6 августа 2020. На их основе было получено два набора
данных.
Для изучения полногеномных данных были выбраны все геномы: как содержащие полные
последовательности
полученные
(complete
методом
sequence),
дробовика
так
(whole
и
genome
содержащие
shotgun
последовательности,
sequence).
Отдельные
последовательности в аннотированном геноме при помощи скрипта были объединены в
одну для каждого организма, и использовались для анализа полного генома. В итоге часть
аннотированных геномов оказались недостаточно полными для дальнейшего анализа (т.е.
они содержали лишь небольшую часть генов и слишком малое число генов рибосомных
белков, что препятствовало работе EloE) и были отброшены, в анализе участвовал 231
образец.
Для изучения данных именно о хромосоме был написан скрипт, позволяющий отбросить
данные, полученные методом дробовика (whole genome shotgun sequence), т.к в таких
данных не получалось по описанию определить, принадлежит последовательность
хромосоме или плазмиде. В оставшихся аннотированных геномах также при помощи
скрипта были отброшены данные о плазмидах и мегаплазмиде (также именуемой
хромосома 2). В итоге в анализ включались только аннотированные геномы хромосомы
(хромосомы 1) – 107 образцов.
21
Склеивание
Геномы аннотаций генома
в один файл
Запуск EloE
Определение
вида
Альтернативное
определение
типа EEI
Построение
тепловых карт
Рис. 2. Пайплайн для анализа характеристик эффективности элонгации рода Ralstonia.
Стрелками обозначены скрипты, реализованные в рамках дипломной работы.
В связи с пересмотром классификации видовые названия в некоторых геномных
аннотациях устарели, поэтому для бактерий, отнесенных к виду Ralstonia solanacearum,
также
переопределялась
филогенетическая
принадлежность.
Для
определения
филогенетической принадлежности организма использовались данные по сигнальным
последовательностям
16S-23S
рРНК
ITS
(intergenic
spacer),
характерным
для
соответствующих видов: 5′-AGTTATGGACGGTGGAAGTC для R. solanacearum, 5'CGTTGATGAGGCGCGCAATTT
или
5'-ATTACSAGAGCAATCGAAAGATT
для
R.pseudosolanacearum, 5'-ATTGCCAAGACGAGAG для R.syzygii.
Стандартно в EloE тип оптимизации трансляции рассчитывается следующим образом: как
характерный для организма определялся тот тип индекса, который имел наибольшее
значение M, если таких было несколько – среди них выбирался тип индекса с наименьшим
R. Для проверки устойчивости типа оптимизации у Ralstonia проводился расчет типа EEI
альтернативным способом:
1) Для каждого генома находились все j, для которых |Mmax – Mj| <= thres (thres = 5).
2) Для этих j, а также для типа EEI, которому соответствует Mmax, определялся j с
наименьшим R.
3) Если таких было несколько, j с наибольшим значением M определялся как
альтернативный тип EEI.
Далее в тексте стандартно рассчитанный тип оптимизации именуется как «базовый»,
рассчитанный альтернативным способом – альтернативный.
Для определения различий в эффективности элонгации трансляции генов между видами
были отобраны только complete sequence последовательности для бактерий рода Ralstonia
и вида Cupriavidus necator, доступные в базе данных RefSeq на 28 января 2021 года, всего
116 файлов. Бактерии рода Ralstonia были разделены на две группы, в соответствии с
филогенией и образом жизни: фитопатогены (R. solanacearum, R. pseudosolanacearum, R.
22
syzygii ) и почвенные (R. mannitolilytica, R. pickettii, R. insidiosa). Также представлен вид
Сupriavidus necator (ранее именуемый Ralstonia eutropha) в качестве внешней группы.
Скрипт Уточнение классификации,
Геномы интеграциисопоставление генов верхней
квартили по наименованиям
EloE
Подсчет частоты
встречаемости генов в верхней
квартили для каждого вида и
средней частоты для П, Ф, Н
Анализ групп
генов в
GeneOntology
• Квартили
по
значению
EEI
Рис. 3. Пайплайн для определения различий между генами с высокой эффективностью
элонгации трансляции. Стрелками обозначены скрипты, реализованные в рамках
дипломной работы.
Для определения того, к какой квантили относится ген, использовался скрипт,
разработанный в рамках диплома для интеграции EloE в качестве модуля в систему
обработки геномных данных КГЦ (ЦГИМУ) ИЦиГ.
Идентификация функциональных групп по названиям генов и соответствующим терминам
Gene Ontology
В данном анализе (см. рис. 3.) рассматривались гены верхней квантили, полученные при
разбиении общего количества генов организма, отранжированных в порядке снижения
ИЭЭ, на 4 квантили, то есть в первой квартили генов. Для этих организмов были выделены
гены,
по
значениям
ИЭЭ
попавшие
в
первую
квартиль
(25%
генов)
Гены
идентифицировались по названиям генов, полученным при аннотации генома. Для генов с
названиями подчитывалась частота встречаемости гена внутри каждого вида, на основе
чего выводилась средняя частота попадания гена в верхнюю квартиль для групп
фитопатогены, почвенные, С. necator (Ф, П, Н) (приложение, табл. 2).
Гены с частотой встречаемости > 0.8 считались характерными для верхней квантили данной
группы видов, со встречаемостью < 0.2 – не характерными. Отдельно выделялись гены,
характерные сразу для нескольких групп. Таким образом были получены группы генов: Н
(C. necator), Ф (фитопатогены) – гены верхней квартили фитопатогенов рода Ralstonia, П
(почвенные) – гены верхней квартили почвенных бактерий рода Ralstonia, НФ – гены,
характерные как для верхней квартили C. necator, так и для фитопатогенов; аналогично
выделены группы НП, ПФ, НПФ. С помощью Gene Ontology [38,39] были определены
биологические процессы, в которые вовлечен каждый рассматриваемый ген.
23
Аналогичный анализ проводился также по спискам генов, попавшим в верхнюю дециль
(10% генов с наибольшим значением индекса ИЭЭ).
Идентификация функциональных групп по идентификаторам COG
В связи с тем, что в аннотациях геномов, взятых из ncbi, значительное количество генов не
имеют в аннотации наименований генов, что исключает данные гены из анализа, в анализ
были привлечены идентификаторы COG (Clusters of Orthologous Groups) – кластера
ортологичных групп белков, взятые из базы данных COG [40–42]. Использование
идентификаторов COG позволяет получить информацию о большем количестве генов, так
как эти идентификаторы соответствуют не конкретным генам, а группам ортологичных
генов. Каждому идентификатору соответствует определенная функция, характерная для
соответствующих ортологичных генов. Также идентификаторы COG распределены на 26
групп, в соответствии с процессами, в которые вовлечена данная группа генов (трансляция,
углеводный обмен, синтез аминокислот и т.п.). Определение гена к идентификатору COG
происходит на основе гомологии этого гена с группой ортологов соответствующего
идентификатора COG.
Для
получения
идентификаторов
COG
геномы
исследуемых
организмов
были
переаннотированы инструментом prokka [43]. Для этого из геномных аннотаций 116 видов,
описанных выше и включающих представителей рода Ralstonia и вида C. necator, были
получены последовательности ДНК. Затем полученные fasta файлы загружались на сервер
центра
коллективного
пользования
«биоинформатика»,
где
программой
prokka
проводилась аннотация генома. Далее, для каждого генома выделялась верхняя дециль
генов на основе анализа EloE.
Для этих генов из геномных аннотаций выделялись
идентификаторы COG, для каждого идентификатора COG подсчитывалась частота
встречаемости внутри каждого вида, а затем внутри групп Н, Ф, П. Для этих групп и их
пересечений определялись характерные (частота >0.8) и не характерные (<0.2)
идентификаторы COG. Для каждого идентификатора COG привлекалось описание
выполняемых функций и процессов, к которым относится данный идентификатор.
2.4. Статистический анализ
В данной работе с использованием библиотек на Python выполнялся тест КолмогороваСмирнова
для
определения
типа
распределения.
Рассчитывались
коэффициенты
корреляции Спирмена и Кендалла вместе с соответствующими уровнями значимости.
Выбор ранговых коэффициентов корреляции обуславливался ранговыми значениями
24
индексов EEI. Корреляция Кендалла применялась в случае большого количества
переменных с одинаковыми рангами (при подсчете корреляции между квантилями), где
корреляция Спирмена может давать искажения, и не рекомендована к использованию.
Для оценки достоверности корреляции Пирсона при распределении, отличном от
нормального, использовался метод бутстрэп. Для этого генерировалось 10 000 выборок, со
значениями, случайным образом взятыми из исходной выборки. Для каждой полученной
выборки рассчитывалась корреляция Пирсона. Затем строилось распределение корреляции
Пирсона, рассчитывался доверительный интервал для этого распределения, p = 0,05. Далее
рассчитывался коэффициент корреляции Пирсона для исходной выборки. Корреляция
считалась статистически достоверной (p < 0,05), если полученный коэффициент
корреляции попадал в рассчитанный доверительный интервал.
25
Результаты и обсуждение
3.1. Анализ корреляции индексов элонгации трансляции с экспериментальными
данными об экспрессии белка
В данном разделе анализируется корреляция между теоретической эффективностью
элонгации трансляции, предсказанной алгоритмом EloE и выраженной в виде значения
индекса ИЭЭ для каждого белка, и экспериментально полученными данными о количестве
белка у прокариот (приложение, табл.1). В дальнейший анализ были взяты только
организмы, коэффициенты корреляции которых имели уровень значимости < 0.05. Далее
данная корреляция обозначается как К(ИЭЭ|Б). Данные корреляции считались с целью
определить, в какой мере получаемые значения индекса ИЭЭ отражают количество белка в
клетке, и какие параметры влияют на точность предсказания.
Стоит отметить, что при анализе процент генов, выражающийся в отношении числа генов,
для которых количество белка было экспериментально измерено, к общему количеству
генов, кодирующих белки, покрытием, сильно варьировал среди образцов в соответствии с
полнотой протеомных данных, соответственно, число генов, используемых при подсчете
коэффициентов корреляции К(ИЭЭ|Б), также варьирует среди исследуемых организмов
Рис. 4. Процент покрытия генома у исследуемых организмов, выражающийся в
отношении числа генов, для которых количество белка было экспериментально
измерено, к общему количеству генов, кодирующих белки
Корреляция Спирмена между процентом покрытия и коэффициентом корреляции К(ИЭЭ|Б)
слабая и недостоверная (corr = -0.24, p = 0.24), что позволяет заключить, что уровень
корреляции не зависит напрямую от процента покрытия. Конечно, при более полном
покрытии можно было бы получить более точные данные о предсказательной способности
26
EloE, но ввиду ограниченного количества имеющихся протеомных данных данные с
низким покрытием также включены в анализ.
Для каждого организма была расчитан коэффициент корреляции между индексом ИЭЭ для
каждого белка, и экспериментально полученными данными о количестве этого белка, далее
обозначаемый как К(ИЭЭ|Б). На представленном ящике с усами (рис. 5) отображены
полученные коэффициенты корреляции для исследованных 26 прокариот.
Рис. 5. Отображение коэффициентов корреляции Спирмена
К(ИЭЭ|Б) для 26
организмов (для одного из организмов корреляция статистически недостоверна (p>0.05),
обозначен крестом)
Среднее арифметическое значение корреляции для исследуемых 25 организмов (у каждого
p>0.05) – 0.42, что нельзя назвать высоким значением корреляции. Тем не менее, в виду
отсутствия альтернатив мы можем использовать этот метод для теоретической оценки
экспрессии на основе данных о последовательностях генов. Далее необходимо понять, как
коэффициент корреляции между экспрессионными данными и значениями ИЭЭ изменяется
для разных типов оптимального индекса.
27
3.1.1. Сопоставление корреляции с типами индекса
К(ИЭЭ|Б)
Полученные корреляции также были сопоставлены с типами индекса.
Рис. 6. Отображение коэффициентов корреляции Спирмена К(ИЭЭ|Б) для 25 организмов
для представленных в анализе типов индекса.
Как видно из графика, наиболее высокая корреляция получена для организмов,
относящихся к 1 типу оптимизации элонгации трансляции; более низкая для 4 типа, и еще
более низкая для 2; тип 3 оказался представлен всего одним организмом, чего недостаточно
для получения представления о корреляции для организмов определеннных к этому типу.
Организмов 5 типа в анализе представлено не было.
Наибольшая корреляция для организмов, эффективность элонгации трансляции которых
определяется только кодонным составом, хорошо соотносится с литературными данными.
Так как влияние вторичных структур на полученнное количество белка может быть
неоднозначно [24], а алгоритм в EloE подразумевает, что вторичные структуры снижают
эффективность элонгации трансляции, закономерно, что для организмов со значительным
влиянием вторичных структур на эффективность трансляции корреляция с протеомными
данными оказалась ниже.
3.1.2. Проверка оптимальности выбора типа оптимизации
Чтобы проверить, является ли оптимальным способ выбора типа индекса для организма, то
есть характерна ли для базового типа оптимизации максимальная корреляция К(ИЭЭ|Б),
корреляция была рассчитана не только для базового, но и для всех остальных типов
индекса. Для каждого из исследуемых организмов был построен график (всего 25 штук),
позволяющий сопоставить M, R значения и корреляцию для всех пяти типов индекса.
28
Действительно, для большинства организмов наибольшая корреляция получается для
базового типа, как представено на рисунке (приложение, рис. 1.). Но для некоторых
организмов тип оптимизации определялся неоптимально (приложение, рис. 2-8). При этом
каких-то закономерностей, позволяющих скорректировать алгоритм для исключения
ситуаций неоптимального выбора, обнаружено не было. Для этого необходимо иметь
больше данных об экспрессии на уровне белка для различных микроорганизмов.
3.1.3. Сопоставление корреляции с филогенией
Для отображения таксономического покрытия данного анализа корреляций К(ИЭЭ|Б), а
также для проверки ассоциаций между уровнем корреляции и таксономической
принадлежностью организмов таксономия исследуемых организмов была сопоставлена с
филогенетическим древом.
Рис. 7. Распределение 26 исследуемых организмов по классам и их корреляция К(ИЭЭ|Б),
отображенная цветом (для вида Neisseria meningitidis корреляция не указана, т.к. p>0.05,
для остальных p<0.05). Рядом с названием вида цифрой обозначен базовый тип ИЭЭ.
Взятые в анализ организмы представляют различные таксономические группы (8
бактериальных филумов, 1 архей), но, как видно на рисунке, провести строгую взаимосвязь
29
между таксономией и уровнем корреляции нельзя. Так, внутри классов Cyanobacteria и
Epsilonproteobacteria, каждый из которых представлен двумя видами, корреляции ощутимо
разнятся. Однако, стоит отметить, что все проанализированные бактерии из филума
Firmicutes класса Bacilli имеют высокую корреляцию (среднее значение коэффициентов
корреляции К(ИЭЭ|Б) у организмов данной группы – 0.59, для каждого организма p<0.05).
Бактерии филума Proteobacteria класса Gammaproteobacteria, за исключением Pseudomonas
aeruginosa, также имеют относительно высокую корреляцию (среднее значение
коэффициентов корреляции К(ИЭЭ|Б) у организмов данной группы – 0.46, для каждого
организма p<0.05). Также стоит отметить, что это наиболее представленные в анализе
группы (по 5-6 представителей), что позволяет в некоторой степени распространить эти
значения на весь класс. Можно предположить, что и для других организмов этих классов
результат ранжирования генов EloE будет давать довольно близкое к уровню экспрессии
этих генов значение. При этом стоит обращать внимание, что большинство представителей
этих групп отнесены к 1 типу оптимизации, и с осторожностью распространять значения
корреляции на представителей этих групп, отнесенных к другим типам оптимизации.
Группа Betaproteobacteria, представляющая особый интерес, так как в нее входит род
Ralstonia, в анализе была представлена одним видом – Neisseria meningitidis, коэффициент
корреляции для которого составил 0.09 при уровне значимости 0.08. Стоит отметить малый
размера генома организма (2.16 Мб) и при этом низкое покрытие генов в анализе:
корреляция считалась только на 20% от общего числа транслируемых генов. Как было
показано выше, связи между корреляцией и уровнем покрытия не обнаружено, пример: для
listeria_monocytogenes (2.96 Mб, 16.4%), bacteroides_thetaiotaomicron (6.3 Мб, 16.9%) при
более низком покрытии была получена высокая корреляция. В любом случае, такие данные
говорят о необходимости трактовать результаты EloE для рода Ralstonia с осторожностью
до тех пор, пока не будет получено больше данных об экспрессионных профилях на уровне
белка для бактерий из данной группы.
Полученные данные о К(ИЭЭ|Б) для некоторых наиболее представленных в анализе
таксономических групп в дальнейшем можно использовать для оценки предсказательной
способности EloE о количестве белка для других представителей этих групп.
30
3.1.4. Сравнительный анализ квантилей распределения значений индекса
эффективности элонгации трансляции и квантилей распределения экспрессии
соответствующих генов
Переход от индексов к квантилям может использоваться, например, для выявления генов с
наибольшим и наименьшим уровнем потенциальной экспрессии. Именно для определения
оптимального числа квантилей для разбиения и проводился этот анализ. Предполагалось,
что при разном количестве квантилей значение корреляции с экспериментальными
данными будет отличаться, поэтому было рассмотрены различные варианты разбиения с
целью определить число квантилей, дающее наибольшую корреляцию с
экспериментальными данными.
Рис. 8. Уровень коэффициентов корреляции по Кендаллу при разбиении данных по 25
организмам на 2-10 квантилей; при разбиении данных на 2-100 квантилей; no_q – без
разбиения на квантили.
По данным графикам (рис. 8.) видно, что наибольшее значение коэффициента корреляции
достигается при q= 4, 5. Таким образом, разбиение на 4-5 квантилей дает наиболее
оптимальный результат, чтобы судить о потенциальном уровне экспрессии тех или иных
генов.
3.1.5. Сопоставление генов, отнесенных в верхнюю квантиль по уровню экспрессии
белка и генов, отнесенных в верхнюю квантиль по значению ИЭЭ
Для 4 и 5 квантилей, которые выше показали наиболее высокие коэффициенты
корреляции, было проведено сопоставление генов, отнесенных в верхнюю квантиль по
уровню экспрессии белка и генов, отнесенных в верхнюю квантиль по значению ИЭЭ.
31
1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.00
К(ИЭЭ|Б)
4 квантили
5 квантилей
Рис. 9. Сопоставление коэффициентов корреляции К(ИЭЭ|Б), сходства верхних
квантилей по значению ИЭЭ и верхних квантилей по уровню экспрессии при
разбиении на 4 и 5 квантилей для различных прокариот.
Как видно на графике (рис. 9.), доля совпавших генов при сопоставлении квантилей
сильно варьирует среди организмов. Причем разбиение на 4 квантили дает большее
сходство, чем разбиение на 5 квантилей. Из этого анализа следует, что при выделении из
организма генов с высокой экспрессией, чтобы получить более точный результат, лучше
исследовать гены верхней квартили (25%), чем гены верхней квантили при разбиении на 5
квантилей (20%).
3.1.6. Сопоставление коэффициентов корреляции со скоростью деления организмов
Авторы исследования [22], основываясь на низком значении корреляции между
количеством генов тРНК и предпочтением кодонов у большей части из взятых авторами в
анализ бактерий с низкой скоростью деления предположили, что хотя трансляция является
лимитирующим фактором для деления у быстрорастущих организмов, она не является
таковым для организмов, размножающихся медленно. В то же время, это низкое значение
корреляции может быть обусловлено значительным влиянием вторичных структур в мРНК
на эффективность элонгации трансляции.
Тем не менее, продолжая мысль авторов исследования [22], разумно предположить, что для
организмов с меньшим отбором в сторону ускорения трансляции механизмы повышения
эффективности
элонгации
трансляции
будут
менее
выражены,
соответственно
предсказания EloE будут менее эффективны, и коэффициент корреляции ИЭЭ с
32
экспериментальными данными будет ниже. В связи с этим интересно сопоставить время,
необходимое для удвоения бактерии с полученными значениями коэффициента
корреляции.
Рис. 10. Зависимость минимального количества времени, необходимого для деления
организма (часы), и
коэффициента корреляции К(ИЭЭ|Б). Точками обозначены
исследуемые организмы, цветом – тип ИЭЭ, характерный для организма.
Для этого были взяты данные о минимальном времени удвоения в культуре для каждого
вида [44–65], в часах. Бралось минимальное время деления в культуре на среде,
позволяющей достичь наименьшего времени деления, а не среднее время деления среди
всех используемых сред, либо время удвоения в естественных условиях, которое обычно
гораздо выше, чем в среде [66], так как наименьшее время отражает способность вида
ускорить экспрессию, в том числе на уровне элонгации трансляции, в благоприятных
условиях.
И действительно, можно заметить (рис. 10.) увеличение точности предсказания при
уменьшении минимального времени роста, хотя остаются и бактерии с быстрым ростом, но
низким коэффициентом корреляции. Коэффициент орреляции между временем удвоения и
корреляцией между ИЭЭ и количеством белка составил r = 0,56 по Пирсону, статистическая
значимость результата подтверждена бутстрэпом (p < 0.05).
33
3.1.7. Коэффициент корреляции и эффективность элонгации трансляции генов
рибосомных белков
Также разумно было предположить, что для организмов, для которых предсказания ИЭЭ в
лучше отражают реальные данные о количестве белка и соответственно имеют больший
коэффициент корреляции К(ИЭЭ|Б), в алгоритме EloE гены рибосомных белков имеют
более высокое среднее значение ИЭЭ и меньшее распределение по сравнению с
организмами, имеющими высокий коэффициент корреляции.
Рис. 11. Сопоставление значений M и R со значением корреляции К(ИЭЭ|Б).
Таким образом, коэффициент корреляции Пирсона между К(ИЭЭ|Б) и M составил 0.73
(p<0.05); между К(ИЭЭ|Б) и R r = -0.47 (p<0.05). Статистическая значимость
рассчитывалась бутстрэпом. Это позволяет утверждать, что высокие M и низкие R –
критерий, на который следует ориентироваться при решении вопроса о степени доверия к
теоретической оценке уровня экспрессии.
34
Рис. 12, 13. Сопоставление К(ИЭЭ|Б) с M, R по типам оптимизации элонгации
трансляции. Размер точек отражает минимальное время удвоения, характерное для
данного вида.
Также эти коэффициенты корреляции были посчитаны отдельно для представленных в
анализе типов оптимизации ИЭЭ.
тип EEI
количество корр_M
p_M
корр_R
p_R
корр_ВУ
p_ВУ
1
12
0.2011
0.5309
-0.4343
0.1583
-0.5634
0.0564
2
5
0.9000
0.0374
-0.9000
0.0374
-0.1000
0.8729
3
1
4
7
0.7748
0.0408
-0.2728
0.5540
-0.8929
0.0068
5
0
все
25
0.6974
0.0001
-0.4745
0.0165
-0.6896
0.0001
Табл. 2. Коэффициенты корреляции между К(ИЭЭ|Б) и различными параметрами для
представленных типов оптимизации (M, R, время удвоения(ВУ)) и соответствующие
уровни значимости. Цветом выделены недостаточно достоверные значения.
Стоит учитывать, что выборка по каждому типу мала, что может вносить искажения в
полученные значения коэффициентов корреляций. Как видно из таблицы (табл. 2), для 1
типа корреляция с M, R оказалась статистически недостоверной, а для 2 типа очень
высокой, что можно использовать для оценки достоверности предсказания ИЭЭ у
отнесенных к этой группе представителей рода Ralstonia. Для 4 типа имеются высокие
значения корреляции с параметром M и временем удвоения, что можно учесть для оценки
сходства EEI с реальными количествами белка бактерий рода Ralstonia.
35
3.2. Интеграция программного комплекса EloE в качестве модуля в систему
обработки геномных данных КГЦ (ЦГИМУ) ИЦиГ
Для осуществления автоматизированной обработки геномов с разбиением генов по
квантилям в рамках диплома был реализован скрипт, осуществляющий предобработку
геномов, запуск EloE и разбиение результата на квантили (см рис. 14). Предобработка
заключается в расстановке пропущенных табуляций в файле для восстановления .gbk
формата. Также осуществляется склеивание аннотированных участков генома в одну
общую аннотацию, что необходимо для чтения файла программным комплексом EloE.
Далее файлы подаются на вход EloE. После завершения работы программы считывается
файл с ранжированным списком белков по EEI и разбивается на заданное количество
квантилей (по умолчанию – 4, выше определенное как одно из наиболее оптимальных).
Начало
Список
геномных
файлов
Формат
файла
стандартн
ый?
Цикл по файлам
Да
Нет
Получить список
ранжированных
генов, разбить на
квантили
Перейти к
следющему
файлу
Запуск
EloE
Склеить
аннотации в
файле в один
геном
Список
файлов с
генами,
разбитыми по
ИЭЭ
Исправить
ошибки,
перезаписать
Конец
Рис. 14. Представление алгоритма работы скрипта по предобработке геномов, запуску
EloE и разбиению результата на квантили в виде блок-схемы.
Скрипт можно запускать из командной строки. Директории входных, выходных файлов, а
также размещения EloE можно подавать через .ini файл. Представленный скрипт был
интегрирован в систему обработки геномных данных КГЦ (ЦГИМУ) ИЦиГ аспирантом
Мухиным Алексеем Максимовичем. В дальнейшем предполагается использование данного
модуля в КГЦ для массового анализа геномов прокариот, представленных в базе данных
КГЦ (ЦГИМУ).
36
3.3. Биоинформатический анализ характеристик элонгации трансляции у бактерий
рода Ralstonia
3.3.1. Анализ типов оптимизации элонгации трансляции у бактерий рода Ralstonia
Как было описано в разделе материалы и методы, для видов группы Ralstonia с помощью
программного комплекса EloE был определен базовый тип элонгации трансляции (рис 15.).
Чтобы проверить, определен ли тип оптимизации элонгации трансляции устойчиво,
рассчитывался также альтернативный тип оптимизации, по алгоритму, описанному в
методах.
Рис. 15. Типы оптимизации элонгации трансляции при анализе полного генома бактерий
рода Ralstonia.
При анализе полного генома подавляющее большинство представителей R. solanacearum,
R.pseudosolanacarum, R. syzygii относится к 5 индексу, то есть в оптимизации элонгации
трансляции большую роль играет кодонный состав гена, а также количество и
энергетическая стабильность вторичных структур в мРНК. Большинство представителей R.
insidiosa, R. mannitolilytica, R. pickettii отнесены к 4 индексу, то есть в оптимизации
трансляции большую роль играет кодонный состав гена и количество вторичных структур
мРНК. Несколько организмов отнесено ко 2 типу. Использование альтернативного типа не
приводит к значительным смещениям типа представленных образцов, однако можно
заметить, что несколько фитопатогенов переопределилось от 2 и 3 типа к 5.
37
Рис. 16. Сопоставление типов оптимизации при анализе полного генома с филогенией
рода. Филогенетическое дерево взято из статьи [10], где авторы получали его двумя
способами: на основе 6 генов домашнего хозяйства и на основе 686 кластеров генов
методом максимального правдоподобия с бутстреп поддержкой [10]. Вид R. insidiosa на
дереве не отмечен, но известно, что он филогенетически близок к R. pickettii [2].
Как видно из графика (рис. 16.), распределение по типам оптимизации элонгации
трансляции соответствует филогении данного рода – подавляющее большинство
фитопатогенов отнесено к 5 типу оптимизации, в котором значительную роль в
оптимизации элонгации трансляции играет кодонный состав гена и энергетическая
стабильность вторичных структур в мРНК; подавляющее большинство условнопатогенных почвенных бактерий отнесено к 4 типу оптимизации, в котором важны
кодонный состав гена и количество вторичных структур в мРНК.
Для групп фитопатогены, почвенные и С. necator были посчитаны средние значения M R
по всем типам индекса с целью определить, насколько близки эти значения у разных групп.
38
M1 R1
M2 R2
M3 R3
M4 R4
M5 R5
plant
-33
38
63
36
63
36
58
36
68
31
soil
55
36
61
35
60
35
83
22
81
23
43
60
39
62
36
71
32
76
31
necator 6
Табл. 3. Средние M, R значения у таксономических групп. Базовый тип большинства
представителей групп выделен цветом.
Как видно из таблицы (табл. 3), для фитопатогенов характерны в основном более низкие M
и более высокие R значения, чем для свободноживущих бактерий.
Для почвенных
представителей рода Ralstonia значения для 4 и 5 типа довольно близки. Для C. necator
разница тоже не столь велика. Для фитопатогенов учет энергии вторичных структур и
кодонный состав позволяет занять рибосомам более высокие позиции, чем число шпилек и
кодонный состав. Также заметно, что учет исключительно кодонного состава сильнее всего
снижает M у фитопатогенов.
3.3.2. Анализ типов элонгации трансляции у бактерий рода Ralstonia при учете только
хромосомы 1
Геном представителей данного рода состоит из хромосомы (3,5 – 4 Мб) и мегаплазмиды
(1,4 – 2 Мб), причем известно, что обе части генома прошли длительную совместную
эволюцию [8], ввиду чего ее необходимо учитывать при расчете типа ИЭЭ, что и сделано
в разделе 3.3.1.. Тем не менее, полезно также проверить характеристики эффективности
элонгации трансляции без её учёта, чтобы понять, насколько наличие мегаплазмиды
влияет на наблюдаемые характеристики.
39
Рис. 17. Типы оптимизации элонгации трансляции при анализе основной хромосомы
бактерий рода Ralstonia.
На графиках 1-4 группы (рис. 17) R. solanacearum, R.pseudosolanacearum, R. syzygii при
основном подсчете типа оптимизации имеют большой разброс по типу индекса
(представители R. solanacearum относятся ко 2, 3 и 5 типам, R.pseudosolanacearum в
основном к 2 и 5 типам, R. syzygii в основном ко 2 и 3 типам). В случае альтернативного
типа оптимизации представители видов R. solanacearum (филотип II),
R.pseudosolanacearum распределяются в основном к 5 типу, а R. syzygii относится в
основном ко 2 и 3, также немного к 5 типу.
Для видов R. insidiosa, R. mannitolilytica, R. pickettii не удалось найти достаточного
количества геномов с собранной хромосомой, чтобы хорошо отследить закономерность,
но в зависимости от способа выбора оптимального типа индекса эти виды относятся к 4
или 5 группе.
40
Рис. 18. Сопоставление типов оптимизации при анализе хромосомы 1 с филогенией рода.
Круговыми диаграммами показано распределение организмов представленных групп по
типам ИЭЭ.
Наличие значительных различий в распределении представителей данных видов по типу
оптимизации при небольшом изменении способа определения оптимального типа индекса
может говорить о том, что в данном случае M и R значения между определившимися
типами не сильно отличаются. Гораздо меньшее смещение у R. syzygii при
альтернативном подсчете типа индекса указывает на лидирующую роль энергетической
стабильности и количества шпилек в мРНК в повышении эффективности элонгации
трансляции в случае учета только одной хромосомы. Вероятно, гены мегаплазмиды у
R. syzygii существенно отличаются по кодонному составу от генов хромосомы, что
обуславливает устойчивую разницу между типами для хромосомы и для всего генома.
Стоит отметить, что учет только части генома в анализе оптимизации элонгации
трансляции не позволяет корректно определить тип оптимизации для всего организма, так
как на фоне генов домашнего хозяйства, преимущественно расположенных на хромосоме,
гены рибосомальных белков могут получать меньшее значение индекса, чем при учете
41
всего генома, что влияет на определение типа оптимизации. Однако, некоторое смещение
от 5 ко 2-3 типу, не учитывающему кодонный состав, может говорить о том, что плазмида
кодирует значительное количество неоптимальных по кодонному составу белков, что при
их учете повышает индекс ГРБ в 5 типе оптимизации .
3.3.3. Сопоставление высокоэкспрессированных генов у разных видов
Сопоставление генов по наименованиям генов, анализ по Gene Ontology для верхней
квартили (25%) генов
Стоит учесть, что множество генов (больше половины) в геномах этих организмов не
определены, поэтому мы можем обсуждать только уже аннотированные гены. Также геном
C. necator несколько больше геномов Ralstonia, что может влиять на количество генов,
отнесенных к типу Н.
В группу НПФ попали гены, связанные со сборкой рибосомы, различными аспектами
окислительного фосфорелирования, глиоксилатным циклом, циклом трикарбоновых
кислот, а также гены, связанные с ответом на нагревание и воздействие антибиотиков.
К группе Н были отнесены гены, вовлеченные в синтез и транспорт L и D аланина (D аланин
может входить в состав клеточной стенки) синтез кардиолипина, фенилаланина, ,
катаболизм дикарбоновых кислот и другие гены.
В группу НФ были распределены гены, связанные с транспортом и нейтрализацией ионов
фтора, синтезом ароматических кислот, окислительным фосфорилированием, а также ген,
вовлеченный в репарацию двухцепочечных разрывов ДНК.
В группу НП вошли гены, связанные с синтезом феназина, диаминопимелата, триптофана,
лизина; ген метаболизма глутамина; гены, вовлеченные в глиоксилатный цикл, цикл
трикарбоновых кислот; гены, связанные с трансляцией.
В группу П попали 4 гена: mtgA, необходимый для синтеза пептидогликана; mlaE,
связанный с транспортом фософолипидов; grpE, вовлеченный в ответ на тепловой и
осмотический шок; pepN, участвующий в расщиплении внутриклеточных пептидов.
В группу Ф вошли гены, ассоциированные с патогенностью: rfbA
и rfbB, вероятно
связанные с синтезом O-антигена (липополисахарид клеточной стенки; показано, что он
необходим для пролиферации бактерий в томатах и листьях табака, хотя некроз у табака
может развиться и без наличия О-антигена [67], также эти гены возможно связаны с
синтезом экзополисахарида (способствует колонизации растения и закупорке протоков);
42
способствует возникновению иммунного ответа растения [68]); fabF, связанный с
процессами синтеза жирных кислот; folK, участвующий в синтезе фолиевой кислоты; hrcA,
вовлеченный в реакцию теплового шока; sctV, связанный с системой секреции 3 типа,
играющей важную роль в патогенезе.
К группе ПФ были отнесены гены, связанные с транспортом липополисахаридов,
гликолипидов, D-ксилозы, и иона фосфата; связанные с синтезом лейцина, серина,
сидерофора (переносчик железа в бактериальную клетку); гены, связанные со сборкой
наружной мембраны, разложением пероксида водорода и другие.
Таким образом, мы наблюдаем, что в пересечение групп ожидаемо попали гены домашнего
хозяйства. В группу генов с высоким индексом эффективности элонгации трансляции у
фитопатогенов входит несколько генов, связанных с патогенезом; у почвенных бактерий в
эту группу вошел ген, связанный с ответом на тепловой и осмотический шок. Таким
образом, мы можем предполагать, что дивергенция этих видов шла с изменением типа
оптимизации элонгации трансляции в сторону повышения энергии вторичных структур у
фитопатогенов и ее снижения у почвенных бактерий рода Ralstonia, что способствовало
адаптации к средам обитания данных организмов.
Сопоставление генов по идентификаторам COG, исследование верхней децили
(10%) генов.
Для уточнения числа квантилей, наилучшим образом подходящего для описанного выше
исследуемого организма, для каждого организма были построены кривые, отображающие
распределения генов по уровню ИЭЭ. Ниже (рис.19.) представлены графики для четырех
представителей исследуемых организмов. Как видно из этих графиков, относительно
высоким значением уровня ИЭЭ отличается не четверть генов, а значительно меньшая
часть, порядка 10 процентов. Для остальных организмов картина аналогичная. Поэтому
было принято решение сопоставить также гены верхней децили.
Кроме того, в данном варианте анализа гены сопоставлялись не по названиям генов, а по
идентификаторам COG, так как данный подход позволяет провести более глубокий
функциональный анализ потенциально высоко экспрессирующихся генов, чем при работе
с названиями генов. И действительно, при сопоставлении генов верхней децили таким
образом было выделено 705 COG, тогда как при сопоставлении генов верхней децили по
названиям генов выделялось было выделено 499 генов, так как для некоторых генов в
аннотации
не
определялось
название
гена,
идентификатор.
43
но
присваивался
некоторый
COG
Рис. 19. Кривые распределения значения ИЭЭ по генам организмов
Первые 3 0 строк таблицы с результатом данного анализа представлены в приложении,
табл. 3. Аналогично анализу с Gene Ontology, на пересечение трех групп НПФ попали
различные гены домашнего хозяйства, - группы генов, связанные с трансляцией, синтезом
аминокислот, производством энергии и др.К группе ПФ было отнесено 3 ортологичных
группы, две из которых связаны с движением, одна обеспечивает регуляцию образования
железосерных кластеров. К группе П отнесено 5 групп генов, среди которых фермент,
катализирующий превращение ацетоацетата в ацетон и углекислый газ, 2 гена рибосомных
белков, а также гены, связанные с репликацией и метаболизмом липидов. Генов,
характерных только для группы Ф, получено не было. К группе НП отнесены различные
группы генов, связанные с трансляцией, производством энергии, транспортом (система
ABC, транспорт Fe3+, транспорт глицерол-3-фосфата) и другие гены. Результаты
проведённого
анализа дополняют
картину,
использованием генной онтологии.
44
построенную
на основе
анализа
с
Выводы
1. Проведённый анализ показал, что наибольший коэффициент корреляции между
базовым индексом эффективности элонгации трансляции и экспериментально
измеренным уровнем белка наблюдается у прокариот:
a. повышающих эффективность этого этапа за счет оптимизации кодонного
состава;
b. относящихся к филуму Firmicutes класса Bacilli и филуму Proteobacteria класса
Gammaproteobacteria;
c. имеющих более высокую максимальную скорость клеточного деления;
d. для которых оптимальный индекс эффективности элонгации трансляции имеет
высокие значения параметра M (средний ранг) и низкие значения параметра R
(стандартное отклонение) для генов рибосомных белков.
2. Программный комплекс для автоматической оценки эффективности элонгации
трансляции генов различных организмов (EloE) был интегрирован в качестве модуля в
систему обработки геномных данных КГЦ (ЦГИМУ) ИЦиГ СО РАН.
3. Типы оптимизации элонгации трансляции бактерий рода Ralstonia различаются в
соответствии с крупными филогенетическими группами внутри рода: в то время как для
таких фитопатогенов, как R. solanacearum, R. pseudosolanaсearum, R. syzygii, а также
почвенной бактерии C. necator характерна оптимизация с учётом кодонного состава и
стабильности вторичных структур в мРНК (EEI5), для ветви, содержащей штаммы
видов почвенных бактерий R. mannitolilytica, R. pickettii и R. insidiosa, характерна
оптимизация с учётом кодонного состава и количества вторичных структур в мРНК
(EEI4). Т. е. при дивергенции данной группы вектор отбора был направлен против
наличия каких-либо вторичных структур в мРНК высоко экспрессирующихся генов.
4. Сравнительный анализ потенциально высоко экспрессирующихся групп генов у
различных видов бактерий рода Ralstonia выявил, что помимо общих для различных
видов генов домашнего хозяйства, для фитопатогенов в класс потенциально высоко
экспрессирующихся генов попали гены, ассоциированные с патогенностью, а для
почвенных бактерий в него попали гены, связанные с синтезом клеточной мембраны,
ответом на тепловой и осмотический шок.
45
Заключение
В данной работе были проанализированы коэффициенты корреляции между
теоретическим индексом эффективности элонгации и данными о количестве белка для
представителей различных таксонов прокариот. В результате выявлены параметры,
которые можно использовать для предсказания значения этой корреляции у организмов,
для которых отсутствуют протеомные данные. Также была разработана программа,
позволяющая интегрировать программный комплекс EloE в систему обработки
геномных данных КГЦ (ЦГИМУ) ИЦиГ СО РАН. С использованием программного
комплекса EloE проанализированы геномы бактерий рода Ralstonia, обнаружено
разбиение по типу индекса в соответствии с филогенией: фитопатогенные бактерии
отнесены к типу, для которого характерна оптимизация с учётом кодонного состава и
стабильности вторичных структур в мРНК (EEI5), условно-патогенные почвенные
бактерии отнесены к типу, для которого характерна оптимизация с учётом кодонного
состава и количества вторичных структур в мРНК (EEI4). С применением
вышеупомянутой программы для интеграции EloE был проведен анализ потенциально
высоко экспрессирующихся генов бактерий рода Ralstonia, в котором были выявлены
различия между наборами генов с потенциально высокой экспрессией между
фитопатогенами рода Ralstonia, почвенными бактериями рода Ralstonia и внешней
группой C. necator.
46
Список литературы
1.
Waugh JB, Granger WM G.A. Incidence, Relevance and Response for Ralstonia
Respiratory Infections // Clin Lab Sci. 2010. Vol. 23, № 2. P. 99–106.
2.
Fang Q. et al. Nosocomial bloodstream infection and the emerging carbapenem-resistant
pathogen Ralstonia insidiosa // BMC Infect. Dis. BMC Infectious Diseases, 2019. Vol. 19,
№ 1. P. 1–9.
3.
Peeters N. et al. Ralstonia solanacearum, a widespread bacterial plant pathogen in the
post-genomic era // Mol. Plant Pathol. 2013. Vol. 14, № 7. P. 651–662.
4.
Safni I. et al. Polyphasic taxonomic revision of the Ralstonia solanacearum species
complex: Proposal to emend the descriptions of Ralstonia solanacearum and Ralstonia
syzygii and reclassify current R. syzygii strains as Ralstonia syzygii subsp. syzygii subsp.
nov., R. s // Int. J. Syst. Evol. Microbiol. 2014. Vol. 64. P. 3087–3103.
5.
Mohammad F., Green R., Buskirk A.R. A systematically-revised ribosome profiling
method for bacteria reveals pauses at single-codon resolution // Elife. 2019. Vol. 8. P. 1–
25.
6.
Qu X. et al. The ribosome uses two active mechanisms to unwind messenger RNA during
translation. // Nature. 2011. Vol. 475, № 7354. P. 118–121.
7.
Sokolov V. et al. Web application for automatic prediction of gene translation elongation
efficiency. // J. Integr. Bioinform. 2015. Vol. 12, № 1. P. 256.
8.
Coenye T., Vandamme P. Ralstonia solanacearum GMI1000 genome // BMC Genomics.
2003. Vol. 4, № 1.
9.
Genin S., Denny T.P. Pathogenomics of the ralstonia solanacearum species complex //
Annu. Rev. Phytopathol. 2012. Vol. 50, № April. P. 67–89.
10.
Zhang Y., Qiu S. Phylogenomic analysis of the genus Ralstonia based on 686 single-copy
genes // Antonie van Leeuwenhoek, Int. J. Gen. Mol. Microbiol. Springer International
Publishing, 2016. Vol. 109, № 1. P. 71–82.
11.
Macho A.P. Subversion of plant cellular functions by bacterial type-III effectors: Beyond
suppression of immunity // New Phytol. 2016. Vol. 210, № 1. P. 51–57.
12.
Rodnina M. V. Translation in prokaryotes // Cold Spring Harb. Perspect. Biol. 2018. Vol.
10, № 9. P. 1–21.
47
13.
Guimaraes J.C., Rocha M., Arkin A.P. Transcript level and sequence determinants of
protein abundance and noise in Escherichia coli // Nucleic Acids Res. 2014. Vol. 42, № 8.
P. 4791–4799.
14.
Г.
М.
Дымшиц
О.В.С.
Основные
начала
молекулярной
биологии:
25
иллюстрированных лекций : учебное пособие. Новосибирск: Министерство науки и
высшего образования РФ, Новосибирский государственный университет, Факультет
естественных
наук,
Кафедра
молекулярной
биологии
и
биотехнологии,
Специализированный учебно-научный центр НГУ, Кафедра естественных наук.,
2017. 65–77 p.
15.
Ikemura T. Codon usage and tRNA content in unicellular and multicellular organisms. //
Mol. Biol. Evol. United States, 1985. Vol. 2, № 1. P. 13–34.
16.
Sharp P.M., Tuohy T.M.F., Mosurski K.R. Codon usage in yeast: Cluster analysis clearly
differentiates highly and lowly expressed genes // Nucleic Acids Res. 1986. Vol. 14, №
13. P. 5125–5143.
17.
Sørensen M.A., Kurland C.G., Pedersen S. Codon usage determines translation rate in
Escherichia coli // J. Mol. Biol. 1989. Vol. 207, № 2. P. 365–377.
18.
Brar G.A., Weissman J.S. Ribosome profiling reveals the what, when, where and how of
protein synthesis // Nat. Rev. Mol. Cell Biol. 2015. Vol. 16, № 11. P. 651–664.
19.
Weinberg D.E. et al. Insights Into Dynamics and Regulation of Yeast Translation // Cell
Rep. 2016. Vol. 14, № 7. P. 1787–1799.
20.
Wei Y., Silke J.R., Xia X. An improved estimation of tRNA expression to better elucidate
the coevolution between tRNA abundance and codon usage in bacteria // Sci. Rep.
Springer US, 2019. Vol. 9, № 1. P. 1–11.
21.
Wright F. The “effective number of codons” used in a gene // Gene. 1990. Vol. 87. P. 23–
29.
22.
Higgs P.G., Ran W. Coevolution of codon usage and tRNA genes leads to alternative
stable states of biased codon usage // Mol. Biol. Evol. 2008. Vol. 25, № 11. P. 2279–2291.
23.
Tats A., Tenson T., Remm M. Preferred and avoided codon pairs in three domains of life
// BMC Genomics. 2008. Vol. 9. P. 1–15.
24.
Samatova E. et al. Translational Control by Ribosome Pausing in Bacteria : How a Nonuniform Pace of Translation Affects Protein Production and Folding // Front. Microbiol.
48
2021. Vol. 11.
25.
Kramer E.B., Farabaugh P.J. The frequency of translational misreading errors in E. coli is
largely determined by tRNA competition // Rna. 2007. Vol. 13, № 1. P. 87–96.
26.
Boël G. et al. Codon influence on protein expression in E.coli // Nature. 2016. Vol. 529,
№ 7586. P. 358–363.
27.
Komar A.A. The Yin and Yang of codon usage // Hum. Mol. Genet. 2016/06/27. Oxford
University Press, 2016. Vol. 25, № R2. P. R77–R85.
28.
Miller J.B. et al. Codon use and aversion is largely phylogenetically conserved across the
tree of life. // Mol. Phylogenet. Evol. United States, 2020. Vol. 144. P. 106697.
29.
Wen J.-D. et al. Following translation by single ribosomes one codon at a time. // Nature.
2008. Vol. 452, № 7187. P. 598–603.
30.
Xie P., Chen H. Mechanism of ribosome translation through mRNA secondary structures
// Int. J. Biol. Sci. 2017. Vol. 13, № 6. P. 712–722.
31.
Xie P. Model of ribosome translation and mRNA unwinding. // Eur. Biophys. J. Germany,
2013. Vol. 42, № 5. P. 347–354.
32.
Chiaruttini C., Guillier M. On the role of mRNA secondary structure in bacterial
translation // Wiley Interdiscip. Rev. RNA. 2020. Vol. 11, № 3. P. 1–21.
33.
Wang R. et al. High frequency of +1 programmed ribosomal frameshifting in Euplotes
octocarinatus // Sci. Rep. Nature Publishing Group, 2016. Vol. 6, № 2045–2322. P. 1–12.
34.
Vladimirov N. V., Likhoshvai V. a., Matushkin Y.G. Correlation of codon biases and
potential secondary structures with mRNA translation efficiency in unicellular organisms
// Mol. Biol. 2007. Vol. 41, № 5. P. 843–850.
35.
Соколов et al. Eloe – веб - приложение для оценки эффективности элонгации
трансляции генов 2014 // Вавиловский журнал генетики и селекции. 2014. Vol. 18,
№ 4/2. P. 904–909.
36.
Лихошвай В.А., Матушкин Ю.Г. Предсказание эффективности экспрессии генов по
их нуклеотидному составу // Молекулярная биология. 2000. Vol. 34, № 3. P. 406–
412.
37.
Wang M. et al. Version 4 . 0 of PaxDb : Protein abundance data , integrated across model
organisms , tissues , and cell-lines // Proteomics. 2015. Vol. 15. P. 3163–3168.
49
38.
Ashburner M. et al. Gene ontology: tool for the unification of biology. The Gene
Ontology Consortium. // Nat. Genet. 2000. Vol. 25, № 1. P. 25–29.
39.
Carbon S. et al. The Gene Ontology resource: Enriching a GOld mine // Nucleic Acids
Res. 2021. Vol. 49, № D1. P. D325–D334.
40.
Tatusov R.L., Koonin E. V, Lipman D.J. A genomic perspective on protein families. //
Science. United States, 1997. Vol. 278, № 5338. P. 631–637.
41.
Galperin M.Y. et al. Microbial genome analysis: the COG approach. // Brief. Bioinform.
2019. Vol. 20, № 4. P. 1063–1070.
42.
Galperin M.Y. et al. COG database update: focus on microbial diversity, model
organisms, and widespread pathogens. // Nucleic Acids Res. 2021. Vol. 49, № D1. P.
D274–D281.
43.
Seemann T. Prokka: rapid prokaryotic genome annotation. // Bioinformatics. England,
2014. Vol. 30, № 14. P. 2068–2069.
44.
Andersen A.P. et al. Growth and morphological transformations of Helicobacter pylori in
broth media // J. Clin. Microbiol. 1997. Vol. 35, № 11. P. 2918–2922.
45.
Fievet A. et al. Single-cell analysis of growth and cell division of the anaerobe
Desulfovibrio vulgaris hildenborough // Front. Microbiol. 2015. Vol. 6, № DEC. P. 1–11.
46.
Lucchini S. et al. Transcriptional adaptation of Shigella flexneri during infection of
macrophages and epithelial cells: Insights into the strategies of a cytosolic bacterial
pathogen // Infect. Immun. 2005. Vol. 73, № 1. P. 88–102.
47.
Abshire K.Z., Neidhardt F.C. Growth rate paradox of Salmonella typhimurium within host
macrophages // J. Bacteriol. 1993. Vol. 175, № 12. P. 3744–3748.
48.
McBirney S.E. et al. Wavelength-normalized spectroscopic analysis of Staphylococcus
aureus and Pseudomonas aeruginosa growth rates // Biomed. Opt. Express. 2016. Vol. 7,
№ 10. P. 4034.
49.
Tobiason D.M., Seifert H.S. Genomic content of neisseria species // J. Bacteriol. 2010.
Vol. 192, № 8. P. 2160–2168.
50.
Gaspari E. et al. Model-driven design allows growth of Mycoplasma pneumoniae on
serum-free media // npj Syst. Biol. Appl. Springer US, 2020. Vol. 6, № 1.
51.
James B.W., Williams A., Marsh P.D. The physiology and pathogenicity of
50
Mycobacterium tuberculosis grown under controlled conditions in a defined medium // J.
Appl. Microbiol. 2000. Vol. 88, № 4. P. 669–677.
52.
Pereira V. Isolation, Culture and Morphological Characterization of Microcystis Sp Toxic
Strain From the Tacuary Reservoir. // Int. J. Adv. Res. 2018. Vol. 6, № 8. P. 387–393.
53.
Glomski I.J., Decatur A.L., Portnoy D.A. Listeria monocytogenes Mutants That Fail to
Compartmentalize Listerolysin O Activity Are Cytotoxic, Avirulent, and Unable to Evade
Host Extracellular Defenses // Infect. Immun. 2003. Vol. 71, № 12. P. 6754–6765.
54.
Ratet G. et al. Live Imaging of Bioluminescent Leptospira interrogans in Mice Reveals
Renal Colonization as a Stealth Escape from the Blood Defenses and Antibiotics // PLoS
Negl. Trop. Dis. 2014. Vol. 8, № 12.
55.
O’Connor T.J. et al. Erratum: Minimization of the Legionella pneumophila genome
reveals chromosomal regions involved in host range expansion (Proceedings of the
National Academy of Sciences of the United States of America (2011) 108, 36 (1473314740) DOI: 10.1073/pnas.1111678 // Proc. Natl. Acad. Sci. U. S. A. 2011. Vol. 108, №
43. P. 17856.
56.
Rodrigo G Ducati, Rajesh K Harijan, Scott A Cameron, Peter C Tyler, Gary B Evans
V.L.S. Transition-State Analogues of Campylobacter jejuni 5′- Methylthioadenosine
Nucleosidase // ACS Chem Biol. 2018. Vol. 13, № 11. P. 100–106.
57.
Holubová J., Josephsen J. Potential of AbiS as defence mechanism determined by
conductivity measurement // J. Appl. Microbiol. 2007. Vol. 103, № 6. P. 2382–2391.
58.
Kai T. et al. Autotrophic growth of Acidithiobacillus ferrooxidans by oxidation of
molecular hydrogen using a gas-liquid contactor // Bioresour. Technol. 2007. Vol. 98, №
2. P. 460–464.
59.
Chenoweth M.R. et al. Growth Characteristics of Bartonella henselae in a Novel Liquid
Medium: Primary Isolation, Growth-Phase-Dependent Phage Induction, and Metabolic
Studies // Appl. Environ. Microbiol. 2004. Vol. 70, № 2. P. 656–663.
60.
Sonnenburg E.D. et al. Specificity of polysaccharide use in intestinal bacteroides species
determines diet-induced microbiota alterations // Cell. Elsevier Ltd, 2010. Vol. 141, № 7.
P. 1241–1252.
61.
Bochkareva O.O. et al. Genome rearrangements and phylogeny reconstruction in Yersinia
pestis // PeerJ. 2018. Vol. 2018, № 3. P. 1–13.
51
62.
Bugrysheva J. V. et al. Rapid antimicrobial susceptibility testing of bacillus anthracis,
yersinia pestis, and burkholderia pseudomallei by use of laser light scattering technology
// J. Clin. Microbiol. 2016. Vol. 54, № 6. P. 1462–1471.
63.
Lagorce A. et al. Genome-wide transcriptional response of the Archaeon Thermococcus
gammatolerans to Cadmium // PLoS One. 2012. Vol. 7, № 7.
64.
Touloupakis E., Cicchi B., Torzillo G. A bioenergetic assessment of photosynthetic
growth of Synechocystis sp. PCC 6803 in continuous cultures // Biotechnol. Biofuels.
BioMed Central, 2015. Vol. 8, № 1. P. 1–11.
65.
Gera K., McIver K.S. Laboratory growth and maintenance of streptococcus pyogenes
(The Group A Streptococcus, GAS) // Curr. Protoc. Microbiol. 2013. № SUPPL.30. P. 1–
14.
66.
Gibson B. et al. The distribution of bacterial doubling times in the wild // Proc Biol Sci.
2018. Vol. 285, № 1880.
67.
Li C.H. et al. Roles of different forms of lipopolysaccharides in ralstonia solanacearum
pathogenesis // Mol. Plant-Microbe Interact. 2014. Vol. 27, № 5. P. 471–478.
68.
Lerouge I., Vanderleyden J. O-antigen structural variation: Mechanisms and possible roles
in animal/plant-microbe interactions // FEMS Microbiol. Rev. 2002. Vol. 26, № 1. P. 17–
47.
52
Приложение
Коэффициент корреляции Спирмена К(ИЭЭ|Б)
Рис. 1. Значение корреляции Спирмена и M, R параметров для каждого из пяти типов
индекса.
Коэффициент корреляции Спирмена К(ИЭЭ|Б)
Рис. 2. Пример неудачного выбора типа индекса. При равных M2, R2 и M5, R5 параметрах
корреляция для 5 типа гораздо больше, чем для типа 2.
Коэффициент корреляции Спирмена К(ИЭЭ|Б)
Рис. 3. На этих примерах тип 2 имеет наибольшую корреляцию M, но для типа 4 корреляция
получается больше на 0.1. Учитывая предыдущий пример (рис. 2.), возникает
предположение, что учитывание частоты кодонов дает более близкий к реальности
результат.
Коэффициент корреляции Спирмена К(ИЭЭ|Б)
Рис. 4. Корреляция для типа 4 больше корреляции для основного типа 1. При этом по
графику можно видеть, что значения M у этих двух индексов близки, а R значение у 1
больше почти на 10. При немного модифицированном расчете основным типом индекса
мог бы быть 4, и корреляция бы повысилась.
Коэффициент корреляции Спирмена К(ИЭЭ|Б)
Коэффициент корреляции Спирмена К(ИЭЭ|Б)
Рис 5, 6. На этих примерах индекс 2 имеет наибольшее значение M, но для индекса 4
корреляция получается больше на 0.1. Создается ощущение, что в случае некоторой
приближенности M2 и M4 учитывание частоты кодонов дает более близкий к реальности
результат.
Коэффициент корреляции Спирмена К(ИЭЭ|Б)
Рис 7. Встречаются и обратные случаи (хотя здесь разница получается меньше ). Причем
для 1 типа M значение очень низкое, как и корреляция, поэтому кажется закономерным
более плохое значение для индекса 4 типа.
Коэффициент корреляции Спирмена К(ИЭЭ|Б)
Рис 8. Здесь коэффициент корреляции для 5 типа индекса больше, чем для основного – 3
типа индекса, несмотря на его менее оптимальные M, R значения.
вид
тип покрыти
EE е
I
корреляци
я
p-value
M
R
Время деления,
часы
staphylococcus_aureus
shigella_flexneri
1
1
63
39
0.66
0.65
8.458E-211
4.0139E-202
83
94
25
12
0.400
0.500
streptococcus_pyogenes
lactococcus_lactis
bacteroides_thetaiotaomicron
listeria_monocytogenes
escherichia_coli
bacillus_anthracis
1
1
1
1
1
4
76
57
16
16
97
26
0.63
0.60
0.57
0.57
0.57
0.52
3.6043E-141
2.5796E-128
2.5222E-67
1.4572E-41
1.43E-300
1.00888E-94
91
76
91
79
87
77
26
49
20
36
30
46
0.667
0.500
2.700
0.517
0.333
0.500
campylobacter_jejuni
salmonella_typhimurium
thermococcus_gammatolerans
legionella_pneumophila
synechocystis_sp,
yersinia_pestis
2
1
1
4
1
1
47
56
62
25
38
30
0.46
0.45
0.44
0.42
0.40
0.40
6.48395E-42
1.7946E-126
3.71194E-66
2.72269E-32
8.01245E-48
4.85779E-47
67
85
77
66
53
91
37
39
32
43
51
26
2.467
0.500
4.500
3.300
5.800
1.000
desulfovibrio_vulgaris
deinococcus_deserti
bartonella_henselae
leptospira_interrogans
Halobacterium_salinarum
helicobacter_pylori
4
1
4
2
4
2
27
39
86
66
54
99
0.39
0.38
0.35
0.35
0.33
0.28
5.07227E-36
6.57647E-48
1.15427E-38
6.0605E-66
0.000000001
1.22421E-29
79
87
61
59
36
51
18
28
41
42
41
44
2.480
2.600
3.000
8.200
11.000
0.833
pseudomonas_aeruginosa
mycobacterium_tuberculosis
mycoplasma_pneumoniae
microcystis_aeruginosa
acidithiobacillus_ferrooxidans
neisseria_meningitidis
3
4
2
4
2
5
44
84
61
79
42
20
0.27
0.26
0.24
0.14
0.12
0.09
1.36917E-42
1.45102E-52
1.60139E-06
1.43339E-22
0.000017329
0.077349585
83
36
34
55
42
79
17
63
54
46
47
33
0.500
14.700
8.000
46.000
5.000
0.667
Табл. 1. Таблица, включающая список организмов, для которых считались коэффициенты
корреляции между теоретическими индексами оптимизациями EEI и протеомными
данными, значения корреляций и их уровней значимости, характерные для этих организмов
типы EEI, значения M и R, минимальное время деления этих организмов.
Группа
Вид
фитопатогены
фитопатогены
фитопатогены
почвенные
почвенные
почвенные
R. necator
R. pseudosolanacearum
R. solanacearum
R. syzygii
R. insidiosa
R. mannitolilytica
R. pickettii
R. necator
Количество
образцов
78
5
11
2
3
3
6
Табл. 2. Список видов, вошедших в анализ генов с потенциально высокой экспрессией
COG
plant
soil
necator
COG description
COG letter
COG letter descriprion
COG1344
1.036824
1.388889
0
Flagellin and related hook-associated protein FlgL
N
['Cell motility\n']
COG2975
0.965478
0.833333
0
Fe-S-cluster formation regulator IscX/YfhJ
O
['Post-translational
types
sp
modification,
protein
turnover,
chaperone
sp
functions\n']
COG1749
0.805524
0.833333
0
Flagellar hook protein FlgE
N
['Cell motility\n']
sp
COG0629
0
1
0.166667
Single-stranded DNA-binding protein
L
['Replication and repair\n']
s
COG0291
0.186038
0.833333
0.166667
Ribosomal protein L35
J
['Tranlsation\n']
s
COG0099
0
1.166667
0
Ribosomal protein S13
J
['Tranlsation\n']
s
COG1012
0
0.944444
0
Acyl-CoA reductase or other NAD-dependent aldehyde dehydrogenase
I
['Lipid metabolism\n']
s
COG4689
0.060606
0.888889
0
Acetoacetate decarboxylase
Q
['Secondary Structure\n']
s
COG0460
0.060606
1.166667
1
Homoserine dehydrogenase
E
['Amino Acid metabolis and transport\n']
ns
COG1049
0
1.5
1
Aconitase B
C
['Energy production and conversion\n']
ns
COG1250
0.030303
0.944444
1.833333
3-hydroxyacyl-CoA dehydrogenase
I
['Lipid metabolism\n']
ns
COG1838
0.18949
0.944444
1
Tartrate dehydratase beta subunit/Fumarate hydratase class I, C-terminal domain
C
['Energy production and conversion\n']
ns
COG1653
0
1.166667
0.833333
ABC-type glycerol-3-phosphate transport system, periplasmic component
G
['Carbohydrate metabolism and transport\n']
ns
COG2084
0
1.166667
1
3-hydroxyisobutyrate dehydrogenase or related beta-hydroxyacid dehydrogenase
I
['Lipid metabolism\n']
ns
COG3960
0.121212
1.166667
1
Glyoxylate carboligase
Q
['Secondary Structure\n']
ns
COG0100
0.030303
1
1
Ribosomal protein S11
J
['Tranlsation\n']
ns
COG0198
0.151515
0.944444
1
Ribosomal protein L24
J
['Tranlsation\n']
ns
COG0268
0
0.944444
1
Ribosomal protein S20
J
['Tranlsation\n']
ns
COG0147
0
0.944444
1
Anthranilate/para-aminobenzoate synthases component I
EH
['Amino Acid metabolis and transport\n', 'Coenzyme metabolis\n']
ns
COG0098
0.060606
0.944444
1
Ribosomal protein S5
J
['Tranlsation\n']
ns
COG0251
0.151515
1.722222
1.333333
Enamine deaminase RidA, house cleaning of reactive enamine intermediates,
V
['Defence mechanisms\n']
ns
YjgF/YER057c/UK114 family
COG0592
0.021097
1.166667
1
DNA polymerase III sliding clamp (beta) subunit, PCNA homolog
L
['Replication and repair\n']
ns
COG0508
0.121212
0.944444
0.833333
Pyruvate/2-oxoglutarate dehydrogenase complex, dihydrolipoamide acyltransferase
C
['Energy production and conversion\n']
ns
(E2) component
COG1840
0.181818
2.722222
1.833333
ABC-type Fe3+ transport system, periplasmic component
P
['Inorganic ion transport and metabolism\n']
ns
COG0766
0
0.833333
1
UDP-N-acetylglucosamine enolpyruvyl transferase
M
['Cell wall/membrane/envelop biogenesis\n']
ns
COG0256
0
0.944444
0.833333
Ribosomal protein L18
J
['Tranlsation\n']
ns
COG0254
0.874568
1.166667
1
Ribosomal protein L31
J
['Tranlsation\n']
nps
COG0231
0.935175
1.166667
1
Translation elongation factor P (EF-P)/translation initiation factor 5A (eIF-5A)
J
['Tranlsation\n']
nps
COG0051
0.818182
1.166667
1
Ribosomal protein S10
J
['Tranlsation\n']
nps
COG0347
1.250096
1.5
2
Nitrogen regulatory protein PII
TE
['Signal Transduction\n', 'Amino Acid metabolis and transport\n']
nps
Табл. 3. Результаты сопоставления генов верхней децили по идентификаторам COG
Отзывы:
Авторизуйтесь, чтобы оставить отзыв