главная поиск
ссылки

Ретроэлементы (RE) составляют значительную часть (до 50%) генома человека. RE несут в себе большое количество различных регуляторных элементов и  способны перемещаться по геному при помощи ретротранспозиции. Ретроэлементы способны оказывать влияние как на экспрессию близлежащих генов, так и на функционирование генома в  целом. В геноме человека обнаружено большое количество интеграций RE, полиморфных в  различных человеческих популяциях. Полиморфные интеграции ретроэлементов все шире используются в качестве молекулярно-генетических маркеров (МГМ) в популяционно- и  медико-генетических исследованиях, например для определения генетических взаимоотношений между отдельными популяциями или ассоциативного анализа интеграционного полиморфизма с развитием некоторых заболеваний. МГМ на  основе RE обладают рядом преимуществ: 1) присутствие инсерции ретроэлемента в данном геномном локусе всегда говорит об общем происхождении, так как вероятность независимой интеграции RE в точно такое же место генома исчезающе мала; 2) инсерции RE, как правило, достаточно стабильны, так как в  геноме не существует специального механизма для бесследного удаления интеграций; 3) из всех известных типов полиморфизмов инсерционная вариабельность ретроэлементов наиболее легко детектируется экспериментально.

PRED — это первый общероссийский интернет ресурс посвященный полиморфным ретроэлементам (RE) человека — молекулярно-генетическим маркерам нового поколения. Данный интернет ресурс позволяет проводить поиск молекулярно-генетических маркеров необходимых для проведения популяционно-генетических и медико-биологических исследований широкого профиля.

PRED позволяет проводить поиск полиморфных ретроэлементов, обладающих характеристиками необходимыми исследователю. К таким характеристикам относятся нуклеотидная последовательность, положение ретроэлемента в геноме человека, частота его встречаемости в исследованных человеческих популяциях, информация о ближайших генах и их взаимное расположение. Кроме того, в  базе данных имеется подробная информация по каждому отдельно взятому ретроэлементу и  ссылка на работу, в которой впервые была опубликована информация о полиморфизме RE.

Все ретроэлементы можно разделить на 2 большие группы: LTR не содержащие и LTR содержащие ретротранспозоны. Эти группы различаются между собой как в плане строения, так и механизмом размножения. Первая группа включает в себя автономные LINE и неавтономные SINE элементы.
Полноразмерные LINE элементы (Long Interspersed Nuclear Elements) имеют длину 4-6 тыс. п. о. и содержат две открытые рамки считывания (ORF - Open Reading Frame) и поли А последовательность на 3' конце. Нуклеотидная последовательность полноразмерного LINE кодирует ферменты, необходимые для их размножения, таким образом, этот класс элементов считается автономным. По краям LINE элементов имеется короткий прямой повтор длиной 7-20 п. о., представляющий собой дупликацию сайта мишени.
В отличие от LINE нуклеотидная последовательность SINE (Short Interspersed Nuclear Elements) элементов лишена каких-либо ORF. В ее состав входит внутренний промотор для РНК-полимеразы III, поли А последовательность на 3' конце и короткий прямой повтор такой же длины как у LINE по краям. Для размножения они используют ретротранспозиционный аппарат LINE элементов.
В геноме приматов обнаружена немногочисленная группа ретроэлементов SINE-R/SVA, имеющих смешанное происхождение, но размножающиеся при помощи ретротранспозиционного аппарата LINE (Ostertag et al., 2003).
Вторая группа RE - LTR-ретропозоны - имеет ряд существенных отличий от группы LINE и SINE элементов. Прежде всего, все повторяющиеся последовательности, относящиеся к этой группе, имеют на концах LTR (Long Terminal Repeat) или длинные концевые повторы длиной несколько сотен п. о. Они также окружены дупликацией сайта мишени (TSD), длина которой, как правило, составляет 3-6 п. о. Наиболее сложным строением обладают полноразмерные эндогенные ретровирусы (HERV - Human Endogenous RetroVirus), содержащие несколько ORF, представляющих собой гомологи основных ретровирусных генов gag, pol и env. Другие LTR ретропозоны, как правило, лишены гена env, необходимого для перемещения из одной клетки в другую. Большинство копий LTR-ретропозонов, представляют собой одиночные LTR, в которых сконцентрированы основные регуляторные последовательности, необходимые для транскрипции и размножения ретровирусов. Обратная транскрипция у всех представителей данной группы происходит в цитоплазме и сходна с таковой экзогенных ретровирусов.
На основании сравнения последовательностей в каждом классе RE выделяются семейства и подсемейства, часть из которых возникла и была активна достаточно давно, но есть такие, которые возникли относительно недавно. Последние, как правило, специфичны для определенного таксона животных и представлены большим количеством копий в геноме. Так, существуют семейства L1P в составе LINE и семейство Alu в составе SINE, специфичные для генома приматов. Часть интеграций представителей молодых подсемейств ретроэлементов произошла настолько недавно, что фиксация определенного аллеля в популяции не произошла, в результате чего такие инсерции остаются полиморфными в популяциях человека. Семейства и подсемейства ретроэлементов к которым относятся полиморфные интеграции внесённые в базу данных приведены на рисунке.

Классификация ретроэлементов, присутствующих в базе данных PRED. Числами скобках показана представленность данного класса в базе данных.

SINE
SINE (Short Interspersed Nuclear Elements) - короткие диспергированные повторы составляют около 13-14% человеческого генома (Lander et al., 2001). Этот класс ретроэлементов включает в себя неавтономные ретротранспозоны длиной менее 500 п. о., имеющие в своем составе промотор и поли А последовательность, и лишенные каких-либо открытых рамок считывания. В человеческом геноме, как и в геноме других приматов, SINE представлены в основном двумя семействами: MIR (Mammalian-wide Interspersed Repeats) и Alu.
Семейство MIR представлено в геноме человека 300 - 400 тыс. копий, что составляет около 2,5% генома. Как и многие другие SINE элементы, обнаруженные в геномах многих эукариотических организмов, MIR произошли от тРНК. Считается, что представители семейства MIR активно размножались в геноме еще до расхождения основных эволюционных ветвей млекопитающих.
Семейство Alu представлено более чем миллионом копий в человеческом геноме, что составляет порядка 10 % всех геномных последовательностей. Полноразмерный Alu элемент имеет длину около 300 п. о. и представляет собой гомодимер. В 5' концевой части Alu элемента находится расщепленный промотор, узнаваемый РНК полимеразой III и состоящий из боксов А и В. В средней части ретроэлемента содержится короткая А/Т богатая последовательность, а в 3' концевой части поли А последовательность различной длины. В отличии от большинства других семейств SINE, ведущих свое начало преимущественно от тРНК, Alu элементы произошли от 7SL РНК, входящей в состав рибонуклеопротеиновых частиц SRP (Signal Recognition Particles) (Ullu et al., 1984).

Схема строения Alu элемента. А и В - бокс А и бокс В - части расщепленного промотора для РНК полимеразы III; А5ТАСА6 последовательность, разделяющая две половины элемента; (А)n - поли А последовательность на 3' конце. Белые треугольники обозначают дупликации сайта мишени в результате интеграции.

Только несколько Alu-повторов в геноме, так называемые "мастер-гены", транспозиционно активны. Мутации, аккумулирующиеся в "мастер-гене", наследуются и его копиями, что привело к существованию нескольких подсемейств, различающихся генетическим возрастом. Мутации, унаследованные от "мастер-гена", характерны для всех членов произошедшего от него семейства или подсемейства, и называются диагностическими. Кроме того, более старые подсемейства Alu аккумулируют большое количество случайных мутаций (дивергенция свыше 20%), что подтверждает их древнее происхождение. Члены молодых подсемейств характеризуются малым числом случайных мутаций (0.1%) и повышенным содержанием CpG динуклеотидов.
Все Alu-повторы разделяются на три основных семейства, различающиеся по времени возникновения, и обозначающиеся заглавными латинскими буквами в алфавитном порядке: старое (J), среднее (S) и молодое (Y) (Batzer et al., 1996). Каждое семейство подразделяется на ряд подсемейств. AluJ разделяют на два подсемейства AluJo и AluJb. Последовательность AluJo наиболее близка к 7SL RNA. S подсемейства Sx, Sp, Sq, Sg и Sc - средние по возрасту подсемейства Alu возникли от 31 до 48 миллионов лет назад.
Молодое семейство Y характеризуется высоким уровенем CpG динуклеотидов, сохранением не редуцированной поли(А) последовательности на 3'-конце и фланкирующих внедрение Alu прямых повторов. Представленность молодого Y семейства - более 200 000 копий на геном. На основе нескольких дополнительных диагностических мутаций в Y семействе выделяют подсемейства, обозначающиеся латинскими буквами в порядке публикации их консенсусных последовательностей (a, b, c, d и т. д.). Номер в конце названия подсемейства означает количество диагностических мутации, отличающих данное подсемейство от консенсусной последовательности семейства. Например, Ya5 - первое описанное подсемейство Y, несущее 5 дополнительных диагностических мутаций. На рисунке показано время возникновения и представленность основных семейств Alu. Ряд молодых подсемейств AluY, например, Yb8, Ya5a2, Yc1 и др., является человек специфическим. Некоторые интеграции представителей молодых подсемейств Alu остаются полиморфными в популяциях человека.

Возраст и представленность различных подсемейств Alu в геноме человека. Млн - миллионов лет назад.

Недавно была предпринята новая попытка классификации Alu элементов обнаруженных в геноме человека (Price et al., 2004). Авторы провели множественное выравнивание последовательностей 480000 индивидуальных Alu элементов и разделили их на группы, с использованием оригинального подхода. Проведенное исследование позволило выявить 213 подсемейств Alu, каждое из которых включает в себя от нескольких десятков до нескольких тысяч элементов.

SINE-R и SVA
Сравнительно небольшое число ретроэлементов (3500-7500) включает в себя семейство SINE-R (R-retrovirus derived). Представители этой группы характеризуются длиной около 630 п. о. В 5`-концевой области они несут G/C богатый промотор для РНК полимеразы II, а в 3`-концевой области поли А последовательность. Центральная область длиной приблизительно 510 нуклеотидов гомологична небольшой части гена env и 3` LTR провируса HERV-K. В области гомологичной LTR имеется (по сравнению с 970 нуклеотидным LTR HERV-K10) 370-ти нуклеотидная делеция, включающая промоторную область LTR (Ono et al., 1987). Среди представителей семейства встречаются как сравнительно "молодые", характерные только для генома человека, так и достаточно "старые" ретроэлементы, встречающиеся в геномах всех обезьян Старого Света. Кроме SINE-R ретротранспозонов в геноме человека встречаются также SVA элементы (Ostertag et al, 2003). По своей структуре они представляют собой сложный ретротранспозон, состоящий из гексамерного повтора (CCCTCT)n, последовательности гомологичной Alu, VNTR (Variable Number of Tandem Repeats) области, состоящей из нескольких десятков тандемных повторов длиной 35-50 п. о. и SINE-R последовательности за которой следует поли А. Вся структура в целом фланкирована короткими дупликациями сайта мишени, имеющими такую же длину и структуру как и TSD, образуемые при интеграции L1 и Alu. По-видимому, SINE-R и SVA элементы представляют собой группу сложных неавтономных ретроэлементов способных к ретротранспозиции за счет активности LINE.

LINE
В геноме встречаются в основном 3 класса LINE: L1 (LINE1), L2 (LINE2) и L3 (LINE3) (Lander et al, 2001). Полноразмерные представители LINE имеют длину несколько тысяч п. о. и включают в свой состав две ORF, однако большинство содержащихся в геноме копий укорочены со стороны 5' конца. К LINE элементам можно отнести также HAL1 элементы, имеющие только одну ORF, сходную по структуре с ORF1 (Smit et al., 1999). Считается, что LINE элементы возникли еще в докембрии и являются ровесниками эукариот, так как встречаются в геномах практически всех эукариотических организмов. L2 и L3 очень "старые" группы, которые были активны еще до возникновения млекопитающих. Считается, что последние представители L2 были активны 80-100 млн. лет назад и принимали участие в размножении MIR элементов (Smit et al., 1996).
Наиболее молодой и широко распространенной группой LINE элементов является семейство L1 ретротранспозонов, на примере которых и будет рассмотрено строение и размножение LINE. Около полумиллиона копий представителей L1 образуют не менее 17 % человеческого генома. Полноразмерный элемент имеет длину около 6 тысяч п. о. и включает в свой состав 5' нетранслируемую область (5' UTR - 5' Untranslated Region) длиной около 900 п. о., содержащую внутренний промотор, ORF1 (длиной около 1 т. п. о.) и ORF2 (длиной 4 т. п. о.), разделенные спейсером (63 п. о.), короткую 3' нетранслируемую область (3' UTR - 3' Untranslated Region) длиной около 200 п. о., за которой следует сигнал полиаденилирования и поли А последовательность. В геноме содержится всего лишь около 5000-7000 полноразмерных копий L1, в то время как остальные копии укорочены со стороны 5' конца (Kazazian et al., 2002). Благодаря этому средняя длина L1 элемента в геноме составляет около 900 п. о. Считается, что человеческий геном содержит 60-100 L1, сохранивших способность к автономной ретротранспозиции (Brouha et al., 2003).

Схема строение LINE 1 элемента. 1 Kb - 1 тысяча п. о. (масштаб); 5' UTR и 3' UTR - 5' и 3' нетранслируемые области; ORF1 и ORF2 - открытые рамки считывания LINE; EN - эндонуклеазный домен, RT - домен с активностью обратной транскриптазы, С - С-концевой домен белка ORF2p; Pr - промотор; ААТААА - сигнал полиаденилирования; (А)n - поли А последовательность на 3' конце. Белые треугольники обозначают дупликации сайта мишени в результате интеграции L1.

На основании результатов множественного выравнивания нуклеотидных последовательностей 3' концевой части ORF2 и 3' UTR L1 человека, были выделены подсемейства этих ретроэлементов. Каждое подсемейство характеризуется совокупностью специфических нуклеотидных замен в определенных положениях последовательности L1. Классификации, полученные в результате множественного выравнивания ORF2 и 3' UTR, полностью согласуются друг с другом (Smit et al., 1995). Каждое подсемейство, выделенное в результате анализа ORF2, соответствует совокупности групп, полученных с помощью множественного выравнивания 3' UTR.
В современной литературе используется следующая номенклатура: на название семейства ретроэлементов - LINE1 указывают первая буква и цифра (L1); следующая заглавная буква обозначает таксон организмов, в геномах которых встречаются элементы данного семейства - P (Primate) и М (Mammalian). Заглавная буква в четвертой позиции определяет дальнейшее разделение семейства на подсемейства на основе анализа 3' UTR. Группы внутри каждого из подсемейств нумеруются арабскими цифрами, начиная с самой молодой внутри семейства (Smit et al., 1995). Например, внутри подсемейства L1PA группа L1PA1 или L1Hs (Human Specific) отличается от следующей (L1PA2) 12 диагностическими заменами в 3'-нетранслируемой области. Эта группа считается наиболее "молодой", поскольку обладает наименьшей средней внутригрупповой дивергенцией. Внутри L1Hs выделяют две подгруппы: Та и pre-Та. По результатм сравнительного структурного анализа Та элементов было проведено дальнейшее разделение подгруппы на Та-0 и Та-1, последнее на основании наличия/отсутствия характеристической делеции разделяется на Та-1nd и Та-1d (Boissinot et al., 2000).

LTR ретротранспозоны
Еще одной обширной группой ретроэлементов являются LTR содержащие ретротранспозоны. Эта достаточно разнородная группа включает в себя повторяющиеся элементы, объединяемые наличием LTR, указывающего на ретровирусное происхождение. При этом LTR (Long Terminal Repeat) определяется как длинный концевой повтор, имеющий по краям инвертированную последовательность TG/CA и содержащий промотор и сайт полиаденилирования. Все LTR-ретропозоны составляют около 8 % человеческого генома и представлены 450 тысячами копий (Li et al., 2001).
Систематическое исследование и каталогизация базы данных Repbase, содержащей все обнаруженные повторяющиеся генетические элементы многих организмов, выявило около 200 семейств ретровирусных и LTR одобных повторяющихся элементов в геноме человека (Jurka et al., 2000).
Помимо собственно эндогенных ретровирусов и их одиночных LTR, которые будут рассмотрены более подробно ниже, к этой группе относится суперсемейство MaLR (Mammalian apparent LTR retrotransposons) с наиболее многочисленным семейством THE-1. Последовательность MaLR, находящаяся между двумя LTR, содержит единственную ORF. Для некоторых MaLR показана гомология их единственной ORF либо ретровирусному гену pol, либо gag, в то время как остальные лишены такого структурного сходства с HERV, что затрудняет объяснение их происхождения. По-видимому, MaLR возникли 80-100 млн. лет назад, о чем свидетельствует их наличие в геномах млекопитающих различных отрядов, таких как грызуны, парнокопытные и др.
Эндогенные ретровирусы (HERVs-Human Endogenous Retroviruses) - это повторяющиеся мобильные генетические элементы геномов млекопитающих, сходные по структуре с интегрированной формой персистирующих экзогенных ретровирусов. По современным представлениям HERV являются отпечатками древних экзогенных ретровирусов, заразивших клетки линии зародышевого пути и закрепившихся в геноме (Sverdlov et al., 1998).
Типичный полноразмерный HERV имеет длину 3.3 - 10 тысяч пар оснований и содержит гомологи основных ретровирусных генов gag, pol, иногда prt и env, которые фланкированы длинными концевыми повторами (LTR - Long Terminal Repeat) на 5' и 3' концах. Ген gag (group specific anigens) кодирует коровые белки - белок основного капсида (CA), белок ядерного капсида (NC) и белок матрикса (MA); ген prt кодирует протеазу (PR), pol - обратную транскриптазу (RT), РНКазу Н и интегразу (IN); а ген env кодирует белки оболочки ретровирусов - трансмембранные (TM) и поверхностные (SU) (Lower et al., 1996). Кроме того, в составе гена gag провирусов семейства HERV-K была выявлена последовательность, кодирующая дУТФазу. Помимо этих основных белков в геноме провируса закодирован регуляторный белок cORF, являющийся структурным и функциональным аналогом вспомогательных белков Rev (HIV-1) и Rex (HTLV), мРНК которого образуется путем двойного сплайсинга одного из транскриптов ретровируса (Magin et al., 1999). Этот белок связывается с последовательностью RcRE (regulatory cORF responsive element) мРНК, соответствующей U3-R области LTR, и стабилизирует несплайсированные и частично спласированные РНК, а также способствует их экспорту из ядра. Кроме того, на 5' конце кодирующей части провируса находится домен, связывающий тРНК затравку в процессе обратной транскрипции (PBS - primer binding site) и сигнал упаковки в капсид.

Строение провируса ERV. Белыми прямоугольниками обозначены ORF, соответствующие ретровирусным генам: gag - group specific antigen кодирует белок основного капсида (CA), белок ядерного капсида (NC) и белок матрикса (MA); prt - кодирует дУТФазу (DU) и протеазу (PR); pol - полимераза кодирует обратную транскриптазу (RT), РНКазу Н (RNH) и интегразу (IN); env - липопротеиновая оболочка кодирует трансмембранный (TM) и поверхностный (SU) белки. Черными прямоугольниками обозначен ген corf, кодирующий вспомогательный белок CORF. PBS - участок связывания тРНК затравки; LTR - длинный концевой повтор. Белые треугольники по краям обозначают дупликации сайта мишени (TSD).

LTR содержат набор регуляторных последовательностей и состоят из 3-х частей, называемых U3 (3' уникальный район), R (повторяющийся участок) и U5 (5' уникальный район). Большинство регуляторных элементов - промотор, энхансер и рецепторы транскрипционных факторов - сосредоточены в U3 области, за исключением сигнала полиаденилирования в R области и негативного регуляторного элемента в U5 области (Domansky et al., 2000). Все провирусы и одиночные LTR фланкированы в геноме короткими прямыми повторами (обычно 3-6 пар оснований), представляющими собой дупликацию сайта интеграции (TSD).

Схема строения LTR эндогенных ретровирусов, на примере HERV-K. Enh - энхансер; Pr - промотор; pA - сигнал полиаденилирования; NRE - негативный регуляторный элемент.

Помимо полноразмерных провирусов, число которых, как правило, незначительно (от 1 до нескольких десятков элементов для каждого семейства), в геноме встречается большое количество копий, содержащих обширные делеции, в основном в областях env и gag, а также одиночные LTR. Считается, что одиночные LTR возникали благодаря рекомбинации между двумя LTR полноразмерного провируса с вырезанием кодирующей части. Эта гипотеза подтверждается наличием примеров, когда одиночному LTR в человеческом геноме одного индивидуума соответствует полноразмерный HERV в ортологичном локусе генома другого индивидуума (Hughes et al., 2004). У подавляющего большинства HERV кодирующие части повреждены терминирующими кодонами, делециями и мутациями, сдвигающими рамку считывания. Поэтому, лишь немногие из них транскрипционно активны и проявляют способность к экспрессии генов белков, формирующих вирус подобные частицы. Предполагается, что HERV и неавтономные LTR ретротранспозоны размножаются с использованием того же механизма, что и экзогенные ретровирусы (Kazazian et al., 2004). На первом этапе ДНК ретровируса подвергается транскрипции при помощи РНК полимеразы II, узнающей промотор, находящийся в U3 области 5' LTR. Терминация транскрипции и присоединение поли А последовательности происходит в R области 3' LTR, несущей сигнал полиаденилирования. Образовавшаяся полноразмерная РНК может подвергаться альтернативному сплайсингу, в результате которого образуется несколько различных по своей структуре РНК. Молекулы РНК экспортируется в цитоплазму, где происходит трансляция, в результате которой синтезируются ретровирусные белки. Следующим этапом жизненного цикла ретровирусов является процесс обратной транскрипции полноразмерной несплайсированной РНК. Одной из существенных особенностей обратной транскрипции ретровирусов является использование ретровирусной RT клеточных тРНК, в качестве праймера для синтеза кДНК. Для этого в составе РНК ретровируса имеется участок гомологичный тРНК, который называется PBS - сайт связывания праймера. Получившаяся в результате обратной транскрипции полноразмерная ДНК копия ретровируса направляется в ядро, где происходит ее интеграция в геномную ДНК при помощи ретровирусной интегразы. Интеграза вносит в комплементарные цепи ДНК сайта мишени разрывы на небольшом расстоянии обычно от 3 до 6 п. о., результатом чего является образование короткого прямого повтора последовательности сайта мишени. По-видимому, достаточно часто после интеграции полноразмерного провируса в геном происходит рекомбинация между двумя идентичными LTR, приводящая к образованию одиночного LTR. Несмотря на растущее количество данных по нуклеотидной последовательности эукариотических геномов, систематику и номенклатуру эндогенных ретровирусов и ретровирус подобных последовательностей никак нельзя назвать хорошо проработанной и общепринятой. Все эндогенные ретровирусы подразделяются на 3 больших класса (Tristem, 2000). Первый класс включает в себя в основном последовательности, гомологичные по структуре экзогенным ретровирусам типа С, таким как MMLV (Moloney murine Leukemia Virus). Ко второму классу принадлежат последовательности, родственные ретровирусам типов A, B и D, таким как MMTV (Mouse Mammary Tumor Virus). Позже был выделен третий класс, представители которого проявляют сходство с пенистыми вирусами (foamy). Эта группа наиболее разнородна. Разделение на семейства внутри классов производится на основании выравнивания консервативного участка гена pol различной длины или участка гена gag. Название семейств основано на специфичности сайта связывания праймера для инициации обратной транскрипции к той или иной тРНК. В таком случае, в названии семейства к аббревиатуре HERV прибавляется в качестве суффикса однобуквенное обозначение соответствующей аминокислоты, тРНК которой служит затравкой при обратной транскрипции и комплементарна PBS. Например, название HERV-K обозначает семейство ретровирусов, у которых сайт связывания праймера комплементарен транспортной РНК лизина, HERV-E - тРНК глутаминовой кислоты, HERV-H - гистидиновой тРНК и т.д. Многие семейства называют по одному из представителей (например HERV-HS49C23) и в название включается тип клеточной линии или номер клона, из которого выделен данный элемент, и т. д.

Дизайн и наполнение сайта: Ильгар Мамедов (imamedov@ibch.ru), Анна Амосова (amosann@ibch.ru), Глеб Фисунов (herr-romanoff@rambler.ru)