中度重復序列大致指在真核基因組中重復數十至數萬(<105)次的重復順序。其復性速度快于單拷貝順序,但慢于高度重復順序。少數在基因組中成串排列在一個區域,大多數與單拷貝基因間隔排列。依據重復順序的長度,中度重復順序可分為兩種類型。
(1)短分散片段 (short interspersed repeated segments, SINES)這類重復順序的平均長度約為300bp(〈500bp),它們與平均長度約為1000bp的單拷貝順序間隔排列。拷貝數可達10萬左右。如Alu家族,Hinf家族等屬于這種類型的中度重復序列。
(2)長分散片段 (Long interspersed repeated segments, LINES)這類重復順序的長度大于1000bp,平均長度為3500-5000bp,它們與平均長度為13000bp(個別長幾萬bp)的單拷貝順序間隔排列。
也有的實驗顯示人基因組中所有LINES之間的平均距離為2.2kb,拷貝數一般在1萬左右,如KpnⅠ家族等。中度重復順序在基因組中所占比例在不同種屬之間差異很大,一般約占10-40%,在人約為12%。這些順序大多不編碼蛋白質。
這些非編碼的中度重復順序的功能可能類似于高度重復順序。在結構基因之間,基因簇中,以及內含子內都可以見到這些短的和長的中度重復順序。按本文的分類原則有些中度重復順序則是編碼蛋白質或rRNA的結構基因,如HLA基因,rRNA基因,tRNA基因,組蛋白基因,免疫球蛋白基因等。
中度重復順序一般具有種特異性;在適當的情況下,可以應用它們作為探針區分不同種哺乳動物細胞的DNA。下面介紹幾種典型的中度重復順序。
Alu家族: Alu家族是哺乳動物包括人基因組中含量最豐富的一種中度重復順序家族,在單倍體人基因組中重復達30萬-50萬次,約占人基因組的3-6%。
Alu家族每個成員的長度約300bp,由于每個單位長度中有一個限制性內切酶Alu的切點(AG↓CT)從而將其切成長130和170bp的兩段,因而定名為Alu序列(或Alu家族)。Alu序列分散在整個人體或其他哺乳動物基因組中,在間隔DNA,內含子中都發現有Alu序列,平均每5kbDNA就有一個Alu順序。
已建立的基因組中無例外地含有Alu順序。Alu順序具有種的特異性,人的Alu順序制備的探針只能用于檢測人的基因組中的Alu序列。由于在大多數的含有人的DNA的克隆中都含有Alu順序,因此,可以這樣認為,用人的Alu序列制備的探針與要篩選的克隆雜交,陽性者即為含有人DNA克隆,陰性者不含有人DNA。
序列分析表明人類Alu順序是由兩個約130bp的正向重復構成的二聚體,而在第二個單體中有一個31bp的插入序列,該插入序列在Alu家族的不同成員之間核苷酸順序相似但不相同。每個Alu順序兩側為6-20bp的正向重復順序,不同的Alu成員的側翼重復順序也各不相同。
Alu序列的5'端比較保守,但富含脫氧腺苷酸殘基的3'端在不同的Alu成員中是有變化的。在相近的生物體中Alu家族在結構上存在相似性,一般認為靈長類基因組中的Alu順序多為由兩個130bp的正向重復組成的二聚體,而嚙類動物則為由一個130bp左右的DNA片段組成的單體。
Alu序列在不同的哺乳動物之間存在著一定的相似性,但其序列相差較大,不會產生交叉雜交。Alu順序廣泛散布于整個基因組的原因可能是由于Alu順序可由RNA聚合酶轉錄成RNA分子,再經反轉錄酶的作用形成cDNA,然后重新插入基因組所致。
也有人認為Alu序列兩側存在著短的重復順序,使得Alu順序很象轉座子,因此推測Alu順序可能也是能夠移動的。這可能是它們在整個基因組中含量如此豐富,頒布如此廣泛的原因之一。
Alu家族的功能是多方面的,由于在許多核內不均一RNA(hnRNA)中含有大量的Alu順序,而且,Alu順序含有與某些真核基因內含子剪接接頭相似的序列,因而,Alu順序可能參與hnRNA的加工與成熟。
Alu序列在人基因組中不尋常地大量存在,提示它與遺傳重組及染色體不穩定性有關。最近發現在人的組織細胞中存在自然發生的染色體外雙鏈環狀DAN,被稱為人類質粒(human plasmid),而這些質粒又毫無例外地含有Alu順序。還有研究表明,Alu順序中的某些區段有形成Z-DNA的能力。
另外,Alu順序可能具有轉錄調節作用。
KpnⅠ家族: KpnⅠ家族是中度重復順序中僅次于Alu家族的第二大家族。用限制性內切酶KpnⅠ消化人類及其它靈長類動物的DNA,在電泳譜上可以看到4個不同長度的片段,分別為1.2,1.5,1.8和1.9kb,這就是所謂的KpnⅠ家族。
KpnⅠ家族成員順序比Alu家族更長(如人KpnⅠ順序長6.4kb),而且更加不均一,呈散在分布,屬于中度重復順序的長分散片段型。盡管不同長度類型的KpnⅠ家族(稱為亞類,subfamily)之間同源性比較小,不能互相雜交,但它們的3'端有廣泛的同源性。
KpnⅠ家族的拷貝數約為3000 ̄4800個,占人體基因組的1%,與散在分布的Alu家族相似,KpnⅠ家族中至少有一部份也是通過KpnⅠ順序的RNA轉錄產物的cDNA拷貝的重新插入到人基因組DNA中而產生的。
Hinf家族: 這一家族以319bp長度的串聯重復存在于人體基因組中。用限制性內切酶HinfⅠ消化人體DNA,可以分離到這一片段。Hinf家族在單位基因組內約有50 100個拷貝,分散在不同的區域。319bp單位可以再分成兩個亞單位,分別為172bp和147bp,它們之間有70%的同源性。
多聚dT-dG家族: 這一家族的基本單位是dT-dG雙核苷酸,多個dT-dG雙核苷酸串聯重復在一起,分散于人體基因組中。已經發現,這個家族的一個成員位于人類δ和β珠蛋白基因之間,含有17個dT-dG雙核苷酸組成的串聯重復順序。
在人基因組中,dT-dG交替順序達106拷貝,這些順序的平均長度為40bp。人們推測,這樣一個短的串聯重復順序可能是基因轉變(gene conversion)或不等交換(unequal crossing-over)的識別信號。
另外,這些嘌呤和嘧啶的交替順序有助于Z-DNA的形成,在基因調節中可能起著重要的作用。中度重復順序除了包括以上非編碼區域外,許多編碼區如rRNA基因,tRNA基因,組蛋白基因等在基因組中也多次重復,屬于中度重復順序。
rRNA基因: 在原核生物如大腸桿菌基因組中,rRNA基因一共是七套;在真核生物中rRNA基因的重復次數更多。
在真核生物基因組中18S和28S,rRNA基因是在同一轉錄單位中,低等的真核生物如酵母中,5SrRNA也和18S,28SrRNA在同一轉錄單位中;而在高等生物中,5SrRNA是單獨轉錄的,而且其在基因組中的重復次數高于18S和28S基因。和一般的中度重復順序不一樣,各重復單位中的rRNA基因都是相同的。
rRNA基因通常集中成簇存在,而不是分散于基因組中,這樣的區域稱為rDNA,如染色體的核仁組織區(nucleolus organizer region)即為rDNA區。 18S和28SrRNA基因構成一個轉錄單位。從轉錄單位上轉錄下來的rRNA前體經過酶切成為18S和28SrRNA。
在哺乳動物和兩棲動物中,18S和28SrRNA之間一同被轉錄下來的間隔區經過加工成為5.8SrRNA(在大腸桿菌中該區含有tRNA序列)。rRNA前體的其它部份被降解成核苷酸。真核生物中每個轉錄單位約長7-8kb(在哺乳動物中長13kb),其中編碼rRNA的部份占70-80%(哺乳動物中只占50%左右)。
一個rRNA基因簇(rDNA簇)含有許多轉錄單位,轉錄單位之間為不轉錄的間隔區,該間隔區由21-100bp片段組成的類似衛星DNA的串聯重復順序。
轉錄單位和不轉錄的間隔區構成一個rDNA重復單位。由于不轉錄的間隔區中類似衛星DNA的串聯重復次數不一樣,因此,在不同生物及同種生物的不同rDNA重復單位之間不轉錄間隔區的長短相差甚大。
非洲爪蟾的rDNA簇中,由類似衛星DNA的重復序列交替排列構成。5'端為一固定長度的獨特順序;后面的重復區域是由97bp的重復單位組成;另外兩個重復區域是由60bp或81bp的重復單位構成;由于每個重復區域中重復單位的重復次數在不同的rDNA重復單位中不一樣,因而造成不同的不轉錄間隔區的長短不一。
另外兩個固定長度的區域稱為Bam島(因為這兩個片段的分離是采用BamHI酶消化制備的)。
Bam島的后半部與轉錄單位前面的序列(含有啟動子)相似;另外在60/81bp的重復區域中也有類似的序列。根據這些結構特點,有人認為不轉錄的間隔區可能在轉錄單位的轉錄起始中起著重要作用。
rDNA的重復單位在許多動物的卵子形成過程中進行大量復制擴增,如爪蟾在擴增前有rDNA重復單位500個,在從卵母細胞前身
(oocyteprecursor)發展到卵母細胞過程中(3周時間),rDNA的重復單位可擴增400倍,每個細胞核的核仁數增加到幾百個。
擴增rDNA的過程是采用滾環式復制方式在核仁區進行的,擴增的DNA不納入到染色體中,而是包含在核區。卵母細胞成熟后,大量的rDNA由于失去了存在的意義而逐漸降解。
在卵子形成的過程中rDNA大量擴增的目的,就是為了產生大量的rRNA,組裝成核糖體,用于合成大量的蛋白質,以滿足受精后發育的需要。在大多數真核細胞中5SrRNA基因和18S,28SrRNA基因不屬于一個轉錄單位。
5SrRNA基因在基因組中亦呈串聯重復排列成基因簇。其結構在非洲爪蟾中研究得最為清楚。在爪蟾體細胞中5SrRNA基因約有500拷貝,而在卵細胞中5S基因可重復20000多次。這大概是為了和卵細胞中大量擴增的28S和18S基因相統一。
在爪蟾中發現有幾種5SrRNA基因。最主要的一種其結構形式與18S、28S基因相似,即5S基因與非轉錄間隔區相間排列,組成一個重復單位。
每個重復單位的5'端是含有A-T豐富區的一段49bp長的G-C豐富區;下面跟是120bp的5SrRNA基因;后面又是一段 并不轉錄的序列,而且與前面的5S基因比較有9個點突變,因此稱為這段基因為假基因(pseudo gene)。盡管假基因不被轉錄,但在5S基因簇中總是有等量的5S基因和它的假基因。
在卵細胞中還有一個次要的5SrRNA基因,與主要的5S基因在序列上有一定和差異,在結構上與主要的5S基因相似,但整個重復單位長只有350bp,而且間隔區與主要的5S基因完全不一樣。
人類的rRNA基因位于13,14,15,21和22號染色體的核仁組織區,每個核仁組織區平均含有50個rRNA基因的重復單位。5SrRNA基因似乎全部位于1號染色體(1q42-43)上,每單倍體基因組約有1000個5SrRNA基因。tRNA基因的清確重復次數比較難以估計。
在非洲爪蟾中約有300個拷貝由tRNAmet,tRNAphe,tRNATrp及其它tRNA基因組成的3.18kb的串聯重復單位。而在人體單倍基因組中約有1000-2000個tRNA基因,為50-60種rRNA編碼,每種平均重復20-30次。
組蛋白基因: 組蛋白基因在各種生物體內重復的次數不一樣,但都在中度重復的范圍內。通常每種組蛋白的基因在同一種生物中拷貝數是相同的。雞的基因組中組蛋白基因有10個拷貝,在哺乳動物中為20拷貝,非洲爪蟾為40拷貝,而海膽的每種組蛋白的基因達300-600拷貝。
不同生物中組蛋白基因在基因組中的排列不一樣,組蛋白基因沒有一定的排列方式,而在拷貝數高的基因組中(>100拷貝),大部份組蛋白基因串聯重復形成基因簇。
海膽發育早期五種組蛋白基形成一個重復單位,每種組蛋白基因之間是非轉錄間隔區,5個間隔區均不相同。這樣的重復單位在整個基因組中重復300次以上,而且這些重復單位基本上是相同的。在海膽中,5種組蛋白基因的轉錄方向都是相同的,每種組蛋白基因獨立的產生自己的mRNA。
非洲爪蟾卵細胞5S基因重復單位包括一個基因和一個假基因。在三種不同的海膽中,其組蛋白基因重復單位中非轉錄間隔區在長度和序列上差異是很大的,盡管它們的組蛋白基因的長度和序列相差不多。實際上,在同一種海膽內不同的組蛋白基因重復單位之間,相應的非轉錄間隔區也不是完全相同的。
另外,在海膽胚胎發育晚期,要由晚期組蛋白基因來編碼組蛋白,該基因與上述的早期組蛋白基因有輕微的差異,但該組蛋白基因不成簇排列,整個基因組僅有10個拷貝,呈散在分布。
在果蠅和非洲爪蟾中,5種組蛋白也排成一個重復單位,也存在間隔區,而且組蛋白基因的轉錄方向不一樣。多個重復單位也形成串聯重復排列。進化到哺乳動物,組蛋白基因一般不再形成重復單位,而呈散在分布或集成一小群。
盡管組蛋白基因在基因組中的排列和分布在不同生物之間相差甚大,但是所有組蛋白基因都不含內含子,而且在序列上相應的組蛋白基因都很相似,從而編碼的組蛋白在結構上和功能上也極為相似。
基因組中存在大量重復序列用以編碼組蛋白是有其重要意義的。DNA復制時,組蛋白也要成倍增加,而且往往在DNA合成一小段后,組蛋白馬上就要與其相結合,這要求在較短的時間內合成大量的組蛋白,因而需要有大量的組蛋白基因存在。
人體基因組中還有幾個大的基因簇,也屬于中度重復順序長的分散片段型。在一個基因簇內含有幾百個功能相關的基因,這些基因簇又稱為超基因(Super gene),如人類主要組織相容性抗原復合體HLA和免疫球蛋白重鏈及輕鏈基因都屬于超基因。
超基因可能是由于基因擴增后又經過功能和結構上的輕微改變而產生的,但仍保留了原始基因的結構及功能的完整性。
北京天優福康生物科技有限公司
服務熱線:400-860-6160
聯系電話/微信:13718308763
QQ:2136615612 3317607072
E-mail:Tianyoubzwz@163.com


