單細(xì)胞測(cè)序方法和原理系列:
所謂DNA文庫,實(shí)際上是許多個(gè)DNA片段,在兩端接上了特定的DNA接頭,形成的DNA混合物。
文庫有2個(gè)特點(diǎn):
1. 當(dāng)中這一段插入的DNA,它的序列是各種各樣的。
2. 它的兩頭的街頭序列,是人工特異加上去的,是已知的。
要構(gòu)建文庫,首先需要把基因組DNA用超聲波打斷,之后把兩端用酶補(bǔ)平。再用Klenow酶在3’端加上一個(gè)A堿基,然后再用連接酶把接頭給連上去。連好了接頭的DNA混合物,我們就稱為一個(gè)文庫。
Illumina儀器對(duì)比。從最早的Miseq一天測(cè)三千萬條read,到Hiseq一天測(cè)30億條reads,再到Novaseq一天可以測(cè)130億條read,通量還是有一個(gè)非常大的提升。
文庫構(gòu)建好之后,后續(xù)就是做橋式PCR。橋式PCR是把文庫種到芯片上去然后進(jìn)行擴(kuò)增的這樣一個(gè)過程。
1)首先要把文庫加到芯片上。芯片的內(nèi)表面種滿兩種不同類型的oligo(寡核苷酸序列)。因?yàn)槲膸靸深^的DNA序列和芯片上的引物是互補(bǔ)的,就可以發(fā)生互補(bǔ)雜交。
2)隨后加入dNTP和聚合酶,聚合酶會(huì)從引物開始,延著模版合成出一條全新的DNA鏈來。新的這條鏈和原來的鏈?zhǔn)莣an全互補(bǔ)的。
3)接下來加入NaOH堿溶液,DNA在NaOH堿溶液存在的情況下,就解鏈了。液流一沖,原來的模版鏈(沒有和芯片共價(jià)連接的鏈)就會(huì)被沖走,和芯片共價(jià)連接的 鏈就會(huì)被保留。
4) 再往液流池中加入中性液體(中和前面加入的堿液),這時(shí)DNA鏈上的另外一端就會(huì)和玻璃板上的第二種引物發(fā)生互補(bǔ)雜交。
5)加入酶和dNTP,聚合酶就沿著第二個(gè)引物合成出一條新的鏈來。
6)然后再加堿,把兩條鏈解鏈開,再加入新的中和液,這時(shí)候DNA鏈就會(huì)和新的引物雜交。再加酶,再加dNTP,又從新的引物上合成出新的鏈來。連續(xù)重復(fù)這一過程,DNA鏈的數(shù)量就會(huì)以指數(shù)方式增長(zhǎng)。
橋式PCR完成之后,接下來需要把合成的雙鏈變成可以測(cè)序的單鏈。辦法是通過一個(gè)化學(xué)反應(yīng),把一個(gè)引物上的一個(gè)特定基團(tuán)給切斷掉,然后再用堿溶液來洗芯片。堿讓DNA雙鏈解鏈,那根被切斷了根的DNA鏈就被水沖掉了,留下那根共價(jià)鍵連在芯片上的鏈。接下來加入中性溶液,再在這個(gè)中性溶液里加入測(cè)序引物,隨后就可以開始正式的測(cè)序工作了。
在測(cè)序的時(shí)候加進(jìn)去的主要是兩個(gè)東西,一是帶熒光標(biāo)記的dNTP(3‘末端是被一個(gè)疊氮基堵住的),二是聚合酶。聚合酶就會(huì)選擇哪個(gè)dNTP是和原來位置上的那個(gè)堿基是互補(bǔ)的,根據(jù)互補(bǔ)性原理,把這個(gè)dNTP合成到新的鏈上去。
因?yàn)閐NTP的3‘端是被一個(gè)疊氮基團(tuán)堵住的,所以它一個(gè)循環(huán)只能延長(zhǎng)一個(gè)堿基。合成之后,用水把多余的dNTP和酶給沖掉,放到顯微鏡下去進(jìn)行激光掃描,根據(jù)發(fā)出來的熒光判斷它是哪個(gè)堿基。因?yàn)?種dNTP上面標(biāo)記的熒光素都不一樣,根據(jù)熒光就可以判斷新合成的堿基是什么堿基。因?yàn)樾潞铣傻膲A基和原來位置的堿基是互補(bǔ)的,就可以知道模版鏈的堿基是什么。
一個(gè)循環(huán)完成之后,就加入一些化學(xué)試劑,把疊氮基團(tuán)和旁邊標(biāo)記的熒光基團(tuán)切掉。切掉之后,3‘端的羥基就暴露出來,接下來加入新的dNTP和新的酶,就又延長(zhǎng)一個(gè)堿基。之后把多余的酶和dNTP沖掉,再進(jìn)行一輪顯微的激光掃描,判斷堿基是什么。重復(fù)這個(gè)過程,就可以把上百個(gè)甚至更多個(gè)堿基的序列讀出來。
因?yàn)閕llumina的測(cè)序量很大,但一個(gè)樣本往往用不了幾億條DNA。所以科學(xué)家就想了一個(gè)辦法,在文庫的接頭上做了一些標(biāo)記,每一個(gè)樣本有一個(gè)特定的接頭,每個(gè)接頭里面有一段特定的序列,這段特定的序列,我們就稱為Index/Barcode(特定序列標(biāo)記了特定樣本的來源)。
要讀Index序列,先用堿把上面這跟測(cè)完‘Read 1’的序列上面的DNA鏈解鏈掉,加入中性液,再加入‘Read 2’的測(cè)序引物。Read 2的結(jié)合位點(diǎn)就在Index序列的旁邊,接下來進(jìn)行第二輪測(cè)序。一般是讀6-8個(gè)堿基。讀完以后就可以知道這某一個(gè)具體的一段DNA,它來自原始的哪個(gè)樣本。
這是Illumina的最核心的另外一個(gè)技術(shù) 。雙端測(cè)序就是一根DNA鏈,除了從正向讀一遍,還可以從DNA的負(fù)向再讀一遍。這樣子就把Illumina測(cè)序的有效長(zhǎng)度加了一倍。
這個(gè)倒鏈的過程,是先讓DNA合成,得到互補(bǔ)鏈。之后用化學(xué)試劑切斷模版鏈根部,加入堿溶液洗掉,接下來就進(jìn)行第2端的測(cè)序。原理和第1端是一樣的。
最重要的是,我們可以理解,一個(gè)點(diǎn)經(jīng)過幾百個(gè)循環(huán)得到一條鏈幾百個(gè)堿基的信息。但實(shí)際上這個(gè)芯片可以有上億個(gè)點(diǎn),也就是上億個(gè)cluster(簇)。上億個(gè)鏈同時(shí)在合成,因此每一個(gè)循環(huán)都可以讀出上億個(gè)序列,這就得到了很大的一個(gè)測(cè)序數(shù)據(jù)量。
reads越長(zhǎng),出錯(cuò)的越多,真實(shí)信號(hào)會(huì)越來越弱。因此illumiina的測(cè)序讀長(zhǎng)被限制在300bp以內(nèi)。