PRODUCT CLASSIFICATION
產品分類短讀取的 RNA-seq 雖然可以計數已表達的轉錄本,但無法提供這些轉錄本的結構信息。
現在,斯坦福大學研究人員在《自然-生物技術》(Nature Biotechnology)雜誌上報告稱,他們(men) 開發出了一種能保留轉錄本結構信息的新方法,他們(men) 通過環狀 cDNA 模板和長讀取測序,實現了對轉錄異構體(ti) (transcript isoform)的定量和分析。
在這項研究中,科學家舍棄了傳(chuan) 統的短讀取 RNA 測序法,利用 PacBio 公司提供的長讀取技術來測序完整的轉錄本。他們(men) 在 20 個(ge) 人體(ti) 組織的混合樣本中,鑒定得到了 476,000 個(ge) 轉錄本序列,平均長度 1 kb。
絕大多數哺乳動物的基因,不符合一基因一轉錄本的模式。這些基因往往存在多種剪切形式,擁有可變的轉錄起始/終止位點。短讀取的測序技術不能提供上述信息,舉(ju) 例來說,短讀取可以檢測到發生選擇性剪切的外顯子,但無法判斷外顯子之間的結構關(guan) 係,是包含在同一個(ge) 轉錄本中還是各自獨立出現。
理論上,長讀取測序技術可以克服這樣的限製。研究人員構建了由環狀cDNA模板組成的SMRTbell文庫,並將其用於(yu) 測序。由於(yu) 測序平台的讀取長度實際上比這些 cDNA 長,該係統可以對每個(ge) 堿基讀取多次,沿著圓環不斷進行,生成更為(wei) 的“環化一致序列”(circular-consensus sequence CCS)。在這項研究中,平均讀取長度達到 7 kb,絕大多數 cDNA 堿基被測序了 5-15 次。
研究人員鑒定得到的絕大多數是全長轉錄本,但也並不*。這是由於(yu) PacBio 測序讀長和 cDNA 合成效率的限製,而這兩(liang) 個(ge) 因素都受序列長度的影響。
論文的主要作者 Michael Snyder 表示:““對 1.5 kb 以下的 cDNA 來說沒什麽(me) 問題,對於(yu) 大部分2-2.5 kb的cDNA來說,也可以鑒定到全長,”作者寫(xie) 道。“更長的轉錄本需要參考,質量較低但更長的讀取數據。”總的來說,研究人員獲得了 476,000 個(ge) CCS,代表著 476 million 堿基。
研究人員將這些轉錄本,與(yu) GENCODE 項目鑒定的 mRNA 進行比對,確定了約 14,000 個(ge) 全長的轉錄異構體(ti) (包括編碼和非編碼的轉錄本),其中有10%是前所未見的。Snyder 表示:“這類研究就好比是盲人摸象,而我們(men) 看到了更完整的圖像。”
這項研究中的方法可以用於(yu) RNA 的結構分析和定量。不過,西班牙科學家 Roderic Guigo (未參與(yu) 該研究)認為(wei) ,單純從(cong) 實用性和經濟性考慮,這一方法主要適用於(yu) 前者,因為(wei) 在真實樣本中為(wei) 各轉錄異構體(ti) 計數是很昂貴的。
麻省理工學院的 Chris Burge 教授(未參與(yu) 該研究)評價(jia) 道:“該方法有望在轉錄異構體(ti) 水平全麵注釋基因組,揭示轉錄本的詳細結構信息。”
這項研究可以幫助人們(men) 解決(jue) 一些轉錄本難題,例如判斷相距較遠的選擇性外顯子剪切是否相互關(guan) 聯。不過 Burge 也指出,許多人類轉錄本實際上超過 2 kb,這一技術還有待進一步改進,以處理更長序列。