Оригинальный русский текст: https://vavilovj-icg.ru/2015-year/19-6/
ГЕНЕТИКА НАСЕКОМЫХ
Онтологии
Компьютерное моделирование в настоящее время становится центральной научной парадигмой системной биологии и основным инструментом для теоретического исследования и понимания механизмов функционирования сложных живых систем. Увеличение количества и сложности этих моделей приводит к необходимости их коллективной разработки, повторного использования, верификации, описания вычислительного эксперимента и его результатов. При разработке форматов представления знаний для математического моделирования биологических систем активно применяют онтологическое моделирование предметной области. В этом смысле онтологию, связанную со всей совокупностью форматов, обеспечивающих поддержку исследований в системной биологии, в частности компьютерное моделирование биологических систем и процессов, можно считать первым приближением к онтологии системной биологии. В обзоре кратко представлены особенности предметной области (биоинформатика, системная биология, биомедицина), основные мотивации в развитии онтологий и наиболее важные примеры онтологического моделирования и семантического анализа на разных уровнях иерархии знаний: молекулярно-генетическом, клеточном, тканевом, органов и организма. Биоинформатика и системная биология являются прекрасным полигоном для отработки технологий и эффективного использования онтологического моделирования. Создание нескольких десятков базовых ссылочных онтологий и их верификация позволяют использовать эти онтологии в качестве источников знаний для интеграции и построения более сложных моделей предметной области, ориентированных на решение конкретных задач биомедицины и биотехнологии. Дальнейшая формализация и накопление онтологических знаний, а также использование формальных методов их анализа могут поднять весь цикл научных исследований в области системной биологии на новый технологический уровень.
Геномика и анализ полиморфизмов
Различные методы выявления значимых контекстных сигналов широко используются для поиска сайтов связывания транскрипционных факторов и выявления структурно-функциональной организации регуляторных районов генов. Такие методы не требуют ни предварительного выравнивания выборки анализируемых последовательностей, ни экспериментальной информации о точном расположении сайтов связывания транскрипционных факторов. Широкое распространение получили методы поиска контекстных сигналов, основанные на выявлении вырожденных олигонуклеотидных мотивов, записанных в 15- буквенном коде номенклатуры IUPAC (International Union of Pure and Applied Chemistry). Существенной сложностью использования вырожденных мотивов является их огромное разнообразие, что заставляет исследователей применять различные эвристические подходы, не гарантирующие нахождение наиболее значимого сигнала. Появление высокопроизводительных вычислительных систем, основанных на использовании графических ускорителей, сделало возможным применение точных полнопереб орных методов для выявления значимых мотивов. Нами разработана новая система выявления значимых вырожденных олигонуклеотидных мотивов заданной длины в регуляторных районах генов, основанная на использовании широко распространенных графических ускорителей и обеспечивающая поиск сигнала с наибольшей значимостью. Показана высокая эффективность использования графических ускорителей (GPU) в сравнении с расчетами на центральном процессоре (CPU). С использованием предложенного подхода проанализированы регуляторные районы генов B. subtilis, E. coli, H. pylori, M. gallisepticum, M. genitalium и M. pneumoniae. Для каждого вида прокариот были выявлены наборы вырожденных мотивов и проведена их классификация на основе сходства с сайтами связывания транскрипционных факторов E. coli.
Исследование зависимости частоты возникновения мутаций в геноме человека выполнено на примере набора документированных однонуклеотидных полиморфизмов (ОНП) из проекта «1 000 геномов». Рассмотрены задачи разработки новых компьютерных методов статистического анализа генетических текстов на основе оценок сложности последовательности символов. Показано применение профилей сложности в скользящем окне к анализу сайтов, содержащих однонуклеотидные полиморфизмы в геноме человека. Установлено локальное понижение сложности текста в районе ОНП. На основе анализа профилей сложности в участках, содержащих ОНП, показано, что фланкирующие повторы мономеров определяют пониженную контекстную сложность сайтов однонуклеотидных полиморфизмов в геноме человека. Эффект локального понижения уровня сложности текста последовательностей фланкирующих сайты ОНП подтвержден для данных о полиморфизмах в геномах крысы и мыши. Определены различия в контекстной организации для кодирующих и регуляторных последовательностей, которые отражаются в сложности текста нуклеотидных последовательностей, содержащих ОНП. Изменения в частоте точковых мутаций были ранее показаны для последовательностей, содержащих микросателлиты. С использованием более общего математического аппарата и более полных данных в работе показана насыщенность политрактами и простыми повторяющимися последовательностями локального геномного окружения участков, содержащих ОНП. Определены олигонуклеотиды с повышенной частотой встречаемости в геномном окружении ОНП у человека, показана их связь с политрактами. Присутствие политрактов может свидетельствовать о большей вероятности разрыва двойной цепи ДНК в этой точке, приводящей к повышению частоты замен нуклеотидов. Полученные оценки были определены при помощи разработанного ранее комплекса компьютерных программ, который кроме оценки сложности фазированных выборок позволяет эффективно определять частотный спектр олигонуклеотидов фиксированной длины, производить сравнение частот олигонуклеотидов в выборках большого объема.
Высокопроизводительное секвенирование ДНК, в том числе в ходе проекта «1 000 геномов», открыло возможность для учета локусов и SNPs (Single Nucleotide Polymorphism – SNP) в медицине. Это позволяет врачам улучшить лечение. Однако десяткам миллионов неаннотированных SNPs соответствует гигантское число ложноположительных (ложноотрицательных) кандидатных SNP-маркеров, отбираемых компьютерными методами для сравнения их частот у пациентов с нормой. Это способствует недооценке значимых для медицины SNPs и затратам на проверку нейтральных SNPs. Предшествующие медицинским испытаниям опыты по проверке потенциально кандидатных SNP-маркеров могут исключить нейтральные SNPs. С помощью ранее созданного Web-сервиса SNP_ TATA_comparator был найден неаннотированный SNP rs367781716 – замена референсного Т (норма) на минорный С в позиции –37 перед стартом транскрипта с гена АВСА9, достоверно снижающий сродство его промотора к ТАТА -связывающему белку (ТВР). Это соответствует недостаточности продукта гена АВСА9, транспортера АТ Р-связывающей кассеты A9. Для экспериментальной проверки этого rs367781716 мы измерили методом гель-ретардации скорости образования (ka) и распада (kd) комплексов ТВР с олигонуклеотидами, идентичными аллелям «– 37С» и «–37Т» гена АВСА9. Установлено, что скорость образования комплексов ТВР/ТАТА, ka , для минорного аллеля в 2,4 раза ниже, чем для референсного. Экспериментальное значение изменения равновесной константы диссоциации (KD = kd /ka), характеризующей аффинность ТВР к промотору, содержащему ТАТА -бокс, и его прогноз с использованием W eb-сервиса SNP_ ТАТА _Comparator совпали с точностью до погрешности измерений и расчетов. Измерены время полураспада и свободная энергия Гиббса комплекса ТВР с промотором АВСА9. Обсуждаются возможные фенотипические проявления потенциально кандидатного SNP-маркера rs367781716.
Генетическая вариабельность в системе циркадных часов проявляется в фенотипической изменчивости физиологических функций и поведения, а также в нарушениях функционирования не только самих часов, но и других систем, приводящих к развитию серьезных патологических состояний. В данной работе был проведен анализ влияния однонуклеотидных полиморфных замен (ОНП), локализованных в области [–70, –20] от старта транскрипции, на сродство TATA-связывающего белка (TATA-binding protein, TBP) к промотору в двух группах генов, являющихся компонентами системы циркадных часов человека. Первую группу составляют гены ядра циркадного осциллятора (11 генов), вторую – гены ближайшего регуляторного окружения циркадного осциллятора (21 ген), для сравнения взята группа функционально отличающихся генов (31 ген). Для оценки in silico изменения константы диссоциации и, следовательно, сродства TBP/промотор при мутациях был использован Web-сервис SNP_TATA_Comparator. В результате показано, что в первой группе генов количество ОНП-маркеров снижения сродства TBP/ промотор значимо ниже количества ОНП-маркеров увеличения сродства (α < 10–3), в то время как в группе сравнения наблюдается противоположная картина: ОНП-маркеров уменьшения сродства TBP/промотор значимо больше, чем ОНП-маркеров увеличения сродства (α < 10–6). Наблюдаемая особенность может быть специфической характеристикой генов циркадного осциллятора, влияющей на его устойчивость при генетической вариабельности анализируемой области промоторов. Полученные предсказания могут играть важную роль для отбора кандидатных ОНП- маркеров различных патологий, связанных с нарушением системы циркадных часов, для дальнейшей проверки их в экспериментальных исследованиях, а также при верификации математических моделей циркадного осциллятора.
Компьютерный анализ миллионов неаннотированных SNPs (Single Nucleotide Polymorphisms) из проекта «1 000 геномов» может ускорить поиск биомедицинских SNP-маркеров. Анализ при помощи Web-сервиса SNP_ TATA_Comparator SNPs сайтов связывания ТАТА -связывающего белка (ТВР) сочетали с поиском хронопатологий по ключевым словам так, чтобы биохимические маркеры хронопатологий соответствовали изменениям экспрессии генов, содержащих эти SNPs. Для промоторов 14 генов человека в районе [– 70; – 20] (район доказанных сайтов связывания ТВР) были найдены биомедицинские и кандидатные SNP-маркеры нарушений циркадного ритма, которые могут достоверно (Z-тест) изменять сродство ТВР к этим промоторам. В их числе: rs17231520, rs569033466 (хронопатологии печени); rs35036378 (хронопатология поведенческой активности); rs549858786 (хронопатология экспрессии IL1B при ревматоидном артрите); rs563207167, rs11557611, rs5505 (хронопатологии баланса «опухоль – хозяин», кровяного давления и репродуктивной системы); rs1143627 (циркадность диагностики и терапии биполярного расстройства); rs16887226, rs544850971 (неустойчивость к эндотоксинам из- за дисбаланса циркадной и иммунной систем); rs367732974, rs549591993 (циркадность обострений сердечной недостаточности); rs563763767 (циркадность случаев инфаркта миокарда); rs2276109, rs572527200 (циркадность приступов астмы); rs34223104, rs563558831 и rs10168 (циркадные оптимумы терапии метотрексатом и циклофосфамидом); rs397509430, rs33980857, rs34598529, rs33931746, rs33981098, rs34500389, rs63750953, rs281864525, rs35518301, rs34166473 (циркадность синдрома беспокойных ног и нейросенсорной тугоухости). Проверка этих 32 SNP-маркеров по медицинским стандартам может способствовать предиктивно-превентивной персонифицированной медицине.
В работах, выполненных на диких и лабораторных животных, показано существование компромисса между репродуктивным успехом и иммунитетом. Поэтому в процессе доместикации могли отбираться особи с повышенными репродуктивными способностями, но со сниженным иммунитетом. Пониженная реактивность иммунной системы могла в дальнейшем стать наследуемой путем фиксации в популяции генов с «неблагоприятными » мутациями. Цель исследования – изучить: 1) частоты генотипов и аллелей однонуклеотидного полиморфизма (SNP – Single Nucleotide Polymorphism) SNP rs340283541 в гене цитокина лимфотоксина бета (LTB) у домашних свиней и диких кабанов; 2) экспрессию мРНК этого гена у миниатюрных свиней с разными генотипами; 3) провести биоинформатичеcкий анализ потенциальной функциональной роли этого SNP. Частота генотипа GG в выборке кабанов была достоверно ниже частоты данного генотипа в объединенной выборке из разных пород и популяций домашних свиней. Уровень экспрессии мРНК гена LTB в лимфатическом узле у миниатюрных свиней с генотипом GG имел тенденцию к повышению (р < 0,06), по сравнению с носителями аллеля А. SNP rs340283541 входит в состав мотива ДНК с высокой степенью консервативности у 12 видов млекопитающих, что косвенно свидетельствует о его важной функциональной роли. С помощью контекстного анализа выявлено, что аллель А содержит потенциальные сайты связывания транскрипционных факторов BRN-2 и AP-1, а аллель G – факторов RFX1, ISGF3 (сайт ISRE) и USF, которые экспрессируются в клетках иммунной системы. Таким образом, в процессе доместикации свиней произошло повышение частоты генотипа GG SNP rs340283541 в 3’-области гена LTB. Генотип GG, вероятно, ассоциирован с повышенным уровнем экспрессии мРНК гена LTB в ткани лимфатического узла. Повышение уровня экспрессии у свиней с генотипом GG может быть связано с образованием сайтов связывания транскрипционных факторов RFX1, ISRE, USF и/или разрушением сайтов связывания BRN-2 и AP-1. Также не исключ ено, что полиморфизм rs340283541 находится в неравновесии по сцеплению с другой функционально значимой мутацией.
Биоинформатика растений
Необходимость изучения микросателлитных локусов пшеницы, в первую очередь, обусловлена актуальностью работ по выявлению полиморфных маркеров для участков хромосом, определяющих хозяйственно ценные признаки. В настоящей работе проведено насыщение отдельных районов короткого плеча хромосомы 5B (5BS) мягкой пшеницы SSR-маркерами, разработанными по данным секвенирования BAC -клонов. 130 клонов, отобранных случайным образом из BAC -библиотеки 5BS, были секвенированы на платформе IonTorrent и собраны в контиги с использованием программы MIRA . Характеристики сборки (N50 = 4 136 п. н.) сравнимы с таковыми для сборок генома пшеницы и родственных видов, полученными в последнее время, и приемлемы для решения задачи идентификации микросателлитных локусов. Для выявления последовательностей ДНК с повторяющейся единицей 2–4 п. н. использовался алгоритм, основанный на свойствах сложностных разложений, формирующихся в режиме скользящего окна. По данным анализа 17 770 контигов общей протяженностью 25 879 921 п. н., разработано 113, 79 и 67 маркеров микросателлитных (SSR) локусов c повторяющейся единицей 2, 3 и 4 п. н. соответственно. SSR-маркеры с мотивом 3 п. н. были проверены на нулли-тетрасомных линиях пятой гомеологичной группы хромосом сорта пшеницы Чайниз Спринг (CS). Выявлен 21 маркер, специфичный для хромосомы 5В. Были локализованы 8 маркеров в дистальном районе хромосомы (бин 5BS6) с использованием серии делеционных линий CS по 5ВS. Для 8 и 4 маркеров определена локализация в интерстициальном районе в бинах 5BS5 и 5BS4 соответственно, один маркер был локализован в прицентромерном бине. Сравнительный анализ распределения тринуклеотидных микросателлитов по хромосоме 5В
пшеницы и у различных видов злаков указывает на пролиферацию и поддержание количественного содержания повтора (AAG)n в процессе эволюции злаков.
Огромное число грибов, бактерий и вирусов потенциально способны инфицировать ткани и вызывать заболевания растений. Устойчивость растений к патогенам основывается на сложной сети конститутивных и индуцированных защитных реакций, в контроле которых задействовано большое число генов. Клеточная стенка является первым препятствием, которое должны преодолеть патогенные микроорганизмы. Успешная защита на уровне клеточной стенки может остановить вторжение подавляющего большинства потенциальных фитопатогенов. Разные виды растений различаются по структуре клеточной стенки. Основу клеточной стенки составляет сеть из микрофибрилл целлюлозы, пересекаемых молекулами гемицеллюлозы. В растущих частях растения эта сеть встроена в матрикс из пектиновых полисахаридов. В уже сформировавшихся тканях клеточные стенки усилены лигнином. Кроме полисахаридов, клеточная стенка содержит значительное количество белков, выполняющих структурную и ферментативную функции. Информация о многочисленных белках клеточных стенок разных видов растений представлена в базе данных WallProtDB. Каждый из компонентов клеточной стенки вносит вклад в формирование устойчивости к патогенам. В местах контакта с потенциальными патогенами происходит дополнительное укрепление клеточной стенки и накопление антимикробных вторичных метаболитов. Патогены секретируют ферменты, способные расщеплять компоненты клеточной стенки. В ответ на атаку микробов растение продуцирует ингибиторы микробных гидролитических ферментов. Растение также способно оценивать количество компонентов клеточной стенки. Так, мутанты с дефицитом целлюлозы обычно имеют повышенный уровень лигнификации и усиление защитного ответа. Возникающие после действия микробных ферментов низкомолекулярные фрагменты клеточной стенки выполняют сигнальную функцию, усиливая защитную реакцию растения. Таким образом, клеточная стенка является динамической структурой, способной предотвращать проникновение большинства потенциальных патогенов и запускать разные варианты иммунного ответа. Реконструкция генных сетей, контролирующих структурно-функциональную организацию клеточной стенки в процессе роста и в условиях биотических и абиотических стрессов, необходима для понимания молекулярных механизмов развития и стрессоустойчивости. В обзоре рассматриваются механизмы специфической и неспецифической устойчивости растений к патогенам различной природы, связанные с клеточной стенкой. Обсуждаются структура клеточной стенки и роль различных компонентов в детекции инвазии фитопатогенов и индукции защитных механизмов.
Компьютерное моделирование
Рецептор CD95 является одним из наиболее изученных представителей семейства рецепторов смерти. Его активация ведет к запуску апоптоза – программы программируемой клеточной гибели через образование комплекса DISC (Death-Inducing Signaling Complex – комплекс, индуцирующий смерть). Основным структурным звеном комплекса CD95 DISC является адаптерный белок FA DD (Fas-Associated Death Domain – Fas-ассоциированный домен смерти), олигомеризация которого необходима для последующей активации прокаспазы-8 в рецепторном комплексе. Белок FA DD характеризуется наличием домена смерти и домена DED (Death Effector Domain – эффекторный домен смерти). Домен смерти рецептора CD95 связывается с соответствующим доменом белка-адаптера FA DD, а за счет связывания доменов DED происходит образование комплекса с участием прокаспазы-8, 10 и белка с-FLIP. Поиск ингибиторов взаимодействия белка FA DD и других ключ евых компонент комплекса DISC представляет огромный интерес для исследования структурно-функциональной организации данного комплекса, молекулярных механизмов клеточной гибели и лечения нейродегенеративных заболеваний. Был осуществлен поиск малых химических соединений in silico, направленно взаимодействующих c доменом DED белка FA DD. Для достижения данной цели были проведены молекулярное моделирование белковых комплексов и виртуальный скрининг потенциальных ингибиторов FA DD, а также разработана новая методология экспериментальной проверки их биологического эффекта на клеточных линиях. Компьютерно-экспериментальный анализ позволил выявить оптимальную конформацию белка FA DD для дизайна низкомолекулярных соединений, способных связываться в районе аминокислотного остатка Y25. Мы предполагаем, что дальнейшая оптимизация структур химических соединений, способных связываться с гидрофобным карманом вблизи аминокислотного остатка Y25 FA DD, позволит создать новые перспективные ингибиторы программируемой клеточной гибели.
Поиск эффективных ингибиторов апоптоза является актуальной задачей при создании лекарственных препаратов, в том числе направленных на лечение нейродегенеративных заболеваний. Инициация апоптоза осуществляется через образование макромолекулярных комплексов, в которых происходит активация каспаз – основных ферментов, ответственных за гибель клетки. Одним из таких макромолекулярных комплексов является комплекс DISC (Death-Inducing Signaling Complex – комплекс, индуцирующий смерть), который играет ключ евую роль при индукции так называемого внешнего пути апоптоза, в формировании которого центральное место занимает белок-адаптер FA DD (Fas-Associated Death Domain– Fas-ассоциированный домен смерти). Поэтому ингибиторы белка FA DD, препятствующие выполнению его функций в составе комплекса DISC, могут быть потенциальными лекарствами, подавляющими запуск апоптоза, а изучение молекулярного механизма их действия представляет высокий интерес для понимания функционирования путей передачи сигнала апоптоза. Известно, что одним из природных белков-ингибиторов FA DD является протеогликан MUC1 из группы муцинов. В частности, было установлено, что два пептида из первичной структуры цитоплазматического домена MUC1 (MUC1-CD, MUC1-cytoplasmic domain) также способны ингибировать связывание каспазы-8 c FA DD. Однако пространственная структура белка MUC1-CD до сих пор не расшифрована, что существенно усложняет рациональное конструирование потенциальных лекарств на основе данных пептидов. В связи с этим целью настоящей работы были компьютерное моделирование пространственных структур пептидов MUC1-CD, соответствующих фрагментам этого белка (1–20 и 46–72), а также анализ их конформационных свойств. Основное внимание в работе было уделено пептиду MUC1-CD (46–72), который способен связываться с FA DD. С использованием метода молекулярной динамики в неявной воде было показано, что пептид MUC1-CD (46–72) обладает конформацией, сходной с таковой у ряда участков домена DED (Death Effector Domain – эффекторный домен смерти) белка каспазы-8. Было обнаружено как минимум 4 участка белка каспазы-8, пространственную структуру которых может принимать пептид MUC1-CD (46–72). Полученные результаты показывают, что молекулярный механизм ингибирующей активности данного пептида может заключаться в конкурентном связывании с FA DD за счет структурного и конформационного сходства с белок-связывающими участками домена DED каспазы-8.
Анализ биологических данных является важнейшим вопросом в биоинформатике, вычислительной геномике, молекулярном моделировании и системной биологии. Рассматриваемые в статье подходы позволяют сократить затраты на проведение экспериментов по получению биологических данных. В статье рассмотрен вопрос идентифицируемости математических моделей физиологии, фармакокинетики и эпидемиологии. Рассматриваемые процессы моделируются с помощью нелинейных систем обыкновенных дифференциальных уравнений. Математическое моделирование динамических процессов основано на использовании закона сохранения масс. В процессе решения задачи по оценке параметров, характеризующих исследуемый процесс, нередко возникает вопрос неединственности решения. В случае, когда известны результаты эксперимента (данные на выходе) и данные на входе, целесообразно проводить априорный анализ информативности этих данных. В статье рассмотрено понятие идентифицируемости математических моделей. Представлен обзор методов анализа идентифицируемости динамических систем. В работе приведен обзор следующих подходов: метод передаточной функции, применяемый для линейных моделей (удобен для анализа фармакокинетических данных, так как большой класс препаратов характеризуется линейной кинетикой); метод разложения в ряды Тейлора, применяемый для нелинейных моделей; метод, основанный на теории дифференциальной алгебры (структура данного алгоритма допускает его реализацию на ЭВМ); метод, основанный на теории графов (данный метод не только определяет идентифицируемость модели, но и позволяет найти замену переменных специального вида, приводящую исходную модель к идентифицируемой). На конкретных примерах продемонстрирована необходимость проводить априорный анализ идентифицируемости модели перед проведением численных расчетов по определению параметров, характеризующих тот или иной процесс. Рассмотрены примеры анализа идентифицируемости математических моделей медицинской биологии.
Бактериальные сообщества являются тесно взаимосвязанными системами, состоящими из большого числа видов, что значительно осложняет анализ их структуры и взаимоотношений. В настоящий момент существует ряд экспериментальных методов, предоставляющих гетерогенные данные, касающиеся различных аспектов этого объекта исследования. Произошедшее за последнее время резкое увеличение объема доступных метагеномных данных представляет интерес не только для биостатистиков, но и для специалистов в области моделирования биосистем, поскольку эти данные позволяют повысить качество моделей. В то же время методы математического и компьютерного моделирования оказываются полезны для понимания эволюции микробных сообществ и их функции в экосистеме. В статье представлен обзор существующих методов и средств математического и компьютерного моделирования, использующихся в области экологии микробных сообществ и опирающихся на различные типы экспериментальных данных. Рассмотрены подходы, фокусирующиеся на описании таких аспектов микробного сообщества, как его трофическая структура, метаболическая и популяционная динамика, генетическое разнообразие, а также пространственная гетерогенность и динамика распространения. В работе также приведена классификация существующих программных средств моделирования микробных сообществ. Показано, что несмотря на преобладание тенденции к использованию гибридных подходов к моделированию, остаются актуальными проблемы интеграции между моделями, описывающими различные уровни биологической организации сообществ. Многоаспектность интеграционных подходов, используемых для моделирования микробных сообществ, основана на необходимости учитывать гетерогенные данные, полученные из различных источников с помощью высокопроизводительных экспериментальных методов исследования генома.