Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
長鎖ノンコーディングRNA
長鎖ノンコーディングRNA(ちょうさノンコーディングRNA、英: long non-coding RNA、略称: lncRNA)はRNAの一種であり、一般的に、タンパク質へ翻訳されない200ヌクレオチド以上の長さの転写産物として定義される。miRNA、siRNA、piRNA、snoRNAなどの短鎖ノンコーディングRNAとlncRNAとの区別は、こうした恣意的な基準によってなされている。
lncRNAには、タンパク質をコードする遺伝子領域と重複しない領域に位置するlincRNA(long intervening/intergenic non-coding RNA)、intronic ncRNA(イントロン内)、sense lncRNA(センス鎖)、antisense lncRNA(アンチセンス鎖)などに分類されることもあり、ゲノム上での遺伝子やエクソンとの位置関係がそれぞれ異なる。
存在
2007年の研究では、ヒトゲノム上で行われている転写のうち、タンパク質コーディング遺伝子と関係したものはわずか1/5であり、lncRNAはタンパク質コーディングRNA配列よりも少なくとも4倍以上転写されていることが示された。FANTOMなどの大規模cDNAシーケンシングプロジェクトによって、こうした転写の複雑性が明らかとなった。FANTOM3プロジェクトでは、5'末端のキャップ形成、スプライシング、ポリアデニル化など、mRNAの多くの特徴を持つものの、オープンリーディングフレーム(ORF)をほとんどまたは全く持たないノンコーディング転写産物が約35,000種類同定された。多くのシングルトン転写産物や非ポリアデニル化転写産物は除去されているため、この数は控えめな見積もりである(タイリングアレイデータでは転写産物の約40%がポリアデニル化されていないことが示されている)。タンパク質コーディング転写産物とノンコーディング転写産物との区別は難しい場合があり、こうしたcDNAライブラリ内のncRNAの同定は困難を伴うものである。複数の研究からは、あらゆる組織の中で最も多くのlncRNAを発現しているのは精巣と神経組織であることが示唆されている。FANTOM5では、さまざまなヒト試料から27,919種類ののlncRNAが同定されている。
定量的観点からは、lncRNAの存在量はmRNAの約1/10であり、タンパク質コーディング遺伝子と比較して、lncRNAの発現レベルは個々の細胞間での変動が大きい。一般的に、lncRNAの大部分(約78%)が組織特異的な特徴を持つのに対し、mRNAでこうした特徴を持つものはわずか約19%である。組織特異性の高さに加えて、lncRNAは発生段階での特異性の高さや、ヒトの大脳新皮質などの組織でみられるように細胞のサブタイプによる特異性によっても特徴づけられる。2018年には、既存のデータベース、発表文献、RNA-Seqデータの解析に基づく新規RNAアセンブリの包括的統合によって、ヒトには270,044種類のlncRNA転写物が存在することが明らかとなった。
哺乳類と比較して、植物のlncRNAの広がりに焦点を当てた研究は比較的少ない。しかしながら、37種の高等植物と6種の藻類を対象とした広範な研究では、in silicoアプローチによって約200,000種類のノンコーディング転写産物が同定され、植物のlncRNAのレポジトリとしてGreeNCが設立されている。
ゲノム上の構成
2005年、哺乳類のゲノムは長い遺伝子間領域によって隔てられた、無数の転写の「巣」と表現される構造を持つことが記載された。一部のlncRNAは遺伝子間領域に位置しているものの、大部分はタンパク質コーディング遺伝子領域と重複する領域に位置し、センス方向とアンチセンス方向に重複した転写産物が存在する、という複雑な階層性が生じていることが示された。こうした転写の巣の内部の配列は、センス方向とアンチセンス方向の多数のコーディング・ノンコーディング転写産物によって共有されている。例えば、FANTOM2において不完全なコーディング配列としてアノテーションされていた8961種類のcDNAのうち3012種類は、後にタンパク質コーディングcDNAのノンコーディングバリアントとであるとされた。
GENCODEコンソーシアムによって、ヒトのlncRNAのアノテーション、ゲノム上の構成、修飾、細胞内局在、組織発現プロファイルの包括的セットの照合と解析が行われ、ヒトのlncRNAは2つのエクソンからなる転写産物に偏って多く存在していることが示された。
長鎖ノンコーディングRNAの同定ツール
ツール | 生物種 | ウェブサーバ | レポジトリ | 入力ファイル | 主なモデル/アルゴリズム | トレーニングセット | 発表年 | 出典 |
---|---|---|---|---|---|---|---|---|
RNAsamba | 全て | RNAsamba | RNAsamba | FASTA | ニューラルネットワーク | YES | 2020 | |
LGC | 植物/動物 | LGC | FASTA/BED/GTF | ORFの長さとGC含量との関係 | NO | 2019 | ||
CPAT | ヒト/ハエ/マウス/ゼブラフィッシュ | CPAT | CPAT | FASTA/BED | ロジスティック回帰 | YES | 2013 | |
COME | 植物/ヒト/マウス/ハエ/線虫 | COME | COME | GTF | Balanced Random Forest | YES | 2017 | |
lncRScan-SVM | ヒト | NA | FASTA/BED/GTF/GFF | サポートベクターマシン | YES | 2015 | ||
CNCI | 植物/動物 | NA | FASTA/GTF | サポートベクターマシン | NO | 2013 | ||
PLEK | 脊椎動物 | NA | PLEK | FASTA | サポートベクターマシン | NO | 2014 | |
FEELnc | 全て | NA | FEELnc | FASTA/GTF | ランダムフォレスト | YES | 2017 | |
PhyloCSF | 脊椎動物/ハエ/カ/酵母/線虫 | NA | FASTA | Phylogenetic Codon Model | YES | 2011 | ||
PLIT | 植物 | NA | FASTA | LASSO/ランダムフォレスト | YES | 2018 | ||
RNAplonc | 植物 | NA | FASTA | REPTree | YES | 2018 | ||
PLncPRO | 植物/動物 | NA | FASTA | ランダムフォレスト | YES | 2017 | ||
CREMA | 植物/動物 | NA | FASTA | アンサンブル学習 | YES | 2018 | ||
slncky | 全て | NA | slncky | FASTA/BED | 進化的保存性 | YES | 2016 |
翻訳
lncRNAのアノテーションは誤ったものであり、実際にはタンパク質をコードしているのではないか、といった議論は多く存在する。いくつかのlncRNAは、実際に生物学的意義のある機能を持つペプチドをコードしていることが判明している。リボソームプロファイリング研究は、アノテーションされたlncRNAのうち40%から90%では実際には何らかの翻訳が行われていることを示唆しているが、リボソームプロファイリングデータを解析する正確な手法に関しては意見の不一致がある。さらに、lncRNAから産生されるペプチドの多くは非常に安定性が低く、生物学的機能を持たない。
保存性
lncRNAの保存性に関する初期の研究からは、lncRNAは保存配列エレメントに富み、置換率や挿入/欠失率が低く、希少変異が少ないことが指摘されており、その機能を維持する純化選択がはたらいていることが示唆された。しかしながら、脊椎動物のlncRNAに対するさらなる研究からは、lncRNAの配列は保存されているものの、その転写に関しては保存されていないことが明らかにされた。言い換えると、ヒトのlncRNAの配列が他の脊椎動物で保存されている場合であっても、その生物のオーソロガスなゲノム領域でlncRNAの転写は起こっていない場合が多い。こうした観察に対しては、lncRNAの大部分が機能的なものではないことを示唆しているとの解釈がなされたり、生物種間で迅速な適応選択が行われていることを示唆しているとの解釈がなされたりしている。
lncRNAの転写のターンオーバーは当初予測されていたよりもはるかに速いが、それでも数百のlncRNAが配列レベルで保存されていることは着目に値する。遺伝子全長にわたって強い配列保存性がみられるlncRNA、転写産物の一部(5'末端、スプライス部位など)のみが保存されているlncRNA、ゲノム上のシンテニックな領域から転写されているが配列類似性はみられないlncRNAなど、lncRNAにみられるさまざまな選択のシグネチャーのカテゴリを明らかにする試みがいくつか行われている。さらに、lncRNAの保存された二次構造を同定する試みも行われているが、現在のところこうした研究からは相反する結果が得られている。
機能
哺乳類のlncRNAの大部分が機能的である可能性が高いことを示す証拠は蓄積している一方で、それらの生物学的意義が実証されているものは比較的少数である。一部のlncRNAはlncRNAdbにおいて機能のアノテーションが行われているが、その大部分はヒトのものである。他にも実験的証拠のあるlncRNAの機能は、LncRNAWiki(ヒトのlncRNAに関する、一般編集可能なwikiベースのオープンコンテントプラットフォーム)において、機能発揮機構、疾患との関係に関するキュレーションが研究コミュニティによって行われており、LncBookからアクセスすることもできる。文献ベースのlncRNAの機能発揮機構のキュレーションによると、lncRNAは転写調節に関与しているとの報告が広くみられる。さらに大規模なシーケンシング研究からは、lncRNAと考えられていた転写産物の多くで実際にはタンパク質への翻訳が行われている証拠も得られている。
遺伝子の転写の調節
遺伝子特異的転写
真核生物では、転写は緊密に調節された過程である。ncRNAはこの過程のさまざまな面に作用し、転写調節因子やRNAポリメラーゼII(RNAP II)、さらにはDNA二本鎖を標的として遺伝子発現を調節する。
ncRNAは自身がコレギュレーターとして機能したり、転写因子の活性を変化させたり、コレギュレーターの結合や活性を調節したり、といったいくつかの機構で転写を調整する。例えばncRNAのEvf-2は、前脳の発生と神経発生に重要な役割を果たすホメオボックス転写因子Dlx2のコアクチベーターとして機能する。Sonic hedgehogは、前脳の発生時にDlx5遺伝子とDlx6遺伝子の間に位置する超保存エレメントからEvf-2の転写を誘導する。その後、Evf-2はDlx2転写因子を同じ超保存エレメントへリクルートし、Dlx2はDlx5の発現を誘導する。哺乳類のゲノムには、同じように転写され、かつエンハンサー機能を果たす超保存エレメントや高保存性エレメントが他にも存在し、Evf-2が脊椎動物の成長時に複雑な発現パターンを持つ発生遺伝子を調節する一般的機構の実例の1つであることを示唆している。同様のノンコーディング超保存エレメントの転写と発現は、ヒトの白血病では異常が生じており、また結腸がん細胞ではこれらがアポトーシスに寄与していることが示されており、腫瘍形成に関与していることが示唆される。
ncRNAの局所的な発現は転写プログラムをリクルートし、近接するタンパク質コーディング遺伝子の発現を調節する。近接するタンパク質コーディング遺伝子と反対方向に転写される多様なlncRNA(哺乳類ゲノム中の全lncRNAの約20%)は、多能性細胞において近接する必須発生調節遺伝子の転写制御に関与している可能性が高い。
RNA結合タンパク質TLSは、CBP/p300ヒストンアセチルトランスフェラーゼに結合し、抑制標的であるサイクリンD1に対する活性を阻害する。サイクリンD1のプロモーターへのTLSのリクルートは、DNA損傷シグナルに応答して低レベルで発現し、5'調節領域に位置するlncRNAによって行われる。さらに、これらの局所的なncRNAはTLSの活性を調節するリガンドとして協調的に機能する。広い意味では、この機構は哺乳類のプロテオームで最大のクラスの1つであるRNA結合タンパク質の機能を転写プログラムへと統合することを可能にするものである。また、新生lncRNA鎖はCBPの活性を増加させ、そのncRNAの転写を増加させることが示されている。ある研究では、APOA1のアンチセンス方向のlncRNAは、エピジェネティックな修飾によってAPOA1の転写を調節することが発見されている。
また、X染色体の不活性化を回避して行われる遺伝子の転写は、不活性化を回避する染色体ドメインにおけるncRNAの発現を介した現象である可能性が提唱されている。
基本転写装置の調節
ncRNAはRNAP IIによる全ての遺伝子転写に必要とされる、基本転写因子を標的とする場合もある。こうした基本転写因子には、プロモーター上で組み立てられる開始複合体の構成要素や、転写伸長に関与するものが含まれる。DHFR遺伝子の上流のマイナープロモーターから転写されたncRNAはメジャープロモーター内で安定なRNA-DNA三重鎖を形成し、転写コファクターTFIIBの結合を阻害する。真核生物の染色体には数千のRNA-DNA三重鎖が存在しており、こうした遺伝子調節機構はプロモーターの利用の制御のために広く利用されている手法である可能性がある。また、U1 ncRNAはTFIIHに結合してRNAP IIのC末端ドメインのリン酸化を促進することで転写を誘導する。対照的に7SK ncRNAは、HEXIM1/2とともに、P-TEFbによるRNAP IIのC末端ドメインのリン酸化を防ぐ不活性複合体を形成することで転写伸長を抑制し、ストレス環境下での伸長反応を全般的に抑制する。こうした例は、個々のプロモーターごとに特異的な調節様式を回避し、遺伝子発現全般に迅速な変化をもたらす手法となっている。
こうした迅速に全般的変化をもたらす能力は、ノンコーディング反復配列の迅速な発現においても明らかとなっている。ヒトのSINEの1種であるAlu配列やそれに類似したマウスのB1、B2エレメントはゲノム中に最も豊富に存在する可動性エレメントとなっており、それぞれヒトのゲノム約10%、マウスゲノムの約6%を占めている。こうしたエレメントは熱ショックなどの環境ストレスに応答してRNAP IIIによってncRNAとして転写され、RNAP IIに高い親和性で結合して活性のある開始前複合体の形成を防ぐ。その結果、ストレスに応答して遺伝子発現の広範かつ迅速な抑制が行われる。
AluのRNA転写産物の機能的配列の解析からは、このncRNAが明確なモジュール構造を持ち、いわばタンパク質のような転写因子としての機能を持つことが明らかとなりつつある。Alu RNAには2つの「アーム」が存在し、そのそれぞれが1つのRNAP II分子を結合するとともに、それに加えて2つの調節ドメインがin vitroでRNAP IIによる転写の抑制を担っている。これら緩やかな構造をとる2つのドメインはB1エレメントなど他のncRNAに連結することで、それらに抑制効果を付与することもできる。Alu配列や類似した反復配列が哺乳類のゲノム中に多く広く分布しているのは、進化の過程でこうした機能的ドメインが他のlncRNAに取り込まれたことが理由の1つである可能性がある。機能的な反復配列ドメインの存在は、Kcnq1ot1、Xlsirt、Xistなどの既知のいくつかのlncRNAに共通した特徴である。
熱ショックのほかにも、ウイルス感染などの細胞ストレス時や一部のがん細胞でSINE(Alu、B1、B2など)の発現は増加しており、同様に遺伝子発現の全般的変化を調節ている可能性がある。AluやB2 RNAのRNAP IIへの直接的結合は、転写を幅広く抑制する機構となる。しかしながらこの全般的応答には例外があり、熱ショック遺伝子など誘導が行われている遺伝子の活発なプロモーターにはAluやB2 RNAは存在しない。こうした個々の遺伝子を全般的抑制から除外する階層的調節にもまた、HSR1(heat shock RNA 1)と呼ばれるlncRNAが関与している。哺乳類細胞中でHSR1が不活性状態で存在しているかに関しては議論があるが、HSR1はストレスに際して活性化され、熱ショック遺伝子の発現を誘導する。この活性化には温度上昇に応答したHSR1のコンフォメーション変化が関与しており、それによって転写アクチベーターHSF1との相互作用が可能となり、HSF1は三量体化して熱ショック遺伝子の発現を誘導する。これらは、AluやB2 RNAが遺伝子発現を全般的に抑制する一方で、他のncRNAが特定の遺伝子の発現を活性化するという、ncRNAによる入れ子状の制御回路の例を示している。
RNAポリメラーゼIIIによる転写
基本転写因子やRNAP II自体と相互作用するncRNAの多く(7SK、Alu、B1、B2 RNAなど)はRNAP IIIによって転写されており、これらの発現は調節標的であるRNAP IIとは共役していない。RNAP IIIは、tRNAや5S rRNA、snRNAなどのハウスキーピングncRNAに加えて、BC2やBC200、一部のmiRNAやsnoRNAなど、他のncRNAも転写する。RNAP IIIによって転写されるncRNAの中にタンパク質コーディング遺伝子と配列相同性を持つ一群のncRNAが含まれることは、センス/アンチセンス相互作用に基づいてRNAP II依存的トランスクリプトームを調節するRNAP III依存的ncRNAトランスクリプトームの存在を支持している。具体的には、21A ncRNAはCENP-Fの発現を転写後段階で調節していることが知られている。
転写後調節
転写調節に加えて、ncRNAは転写後のmRNAのプロセシングのさまざまな段階も制御する。miRNAやsnoRNAなどの低分子調節RNAと同様に、こうした機能には標的mRNAとの相補的な塩基対形成が伴うことが多い。相補的なncRNAとmRNAとの間での二本鎖RNAの形成は、トランスに作用する因子が結合するために必要なmRNA内の重要なエレメントを覆い隠すことで、pre-mRNAのプロセシングやスプライシング、輸送、翻訳、分解などの過程を変化させ、転写後段階で遺伝子発現に影響を与える可能性がある。
スプライシング
mRNAのスプライシングは、自身の翻訳を誘導し、また自身がコードするタンパク質のレパートリーを機能的に多様化する。Zeb2のmRNAが効率的に翻訳されるためには、IRESを含む5' UTRのイントロンが保持されていることが必要である。イントロンの保持は、イントロンの5'スプライス部位と相補的なアンチセンス転写産物の発現に依存している。上皮細胞におけるZeb2アンチセンス転写産物の異所性発現はスプライシングを抑制してZeb2のmRNAの翻訳を誘導し、上皮間葉転換を誘導する。同様に、Rev-ErbAαと呼ばれるアンチセンス転写産物は甲状腺ホルモン受容体ErbAa2のmRNAの選択的スプライシングを制御する。
翻訳
ncRNAは翻訳時にも調節を行っている可能性がある。この性質は特に神経細胞で利用されており、シナプスの活動に応答して樹状突起や軸索でmRNAの翻訳を行うことで、シナプス可塑性の変化や神経ネットワークのリモデリングに寄与している。RNAP IIIによって転写されるBC1やBC200 ncRNAはもともとtRNAに由来し、それぞれマウスとヒトの中枢神経系で発現している。BC1の発現はシナプスの活動とシナプス形成に応答して誘導され、神経細胞の樹状突起に特異的に標的化される。BC1とさまざまな神経特異的mRNA上の領域との配列相補性からは、BC1が標的の翻訳抑制に関与していることが示唆されている。実際に、BC1は樹状突起における翻訳抑制に関係し、線条体におけるドーパミンD2受容体を介した伝達効率を制御していることが示されており、BC1 RNAを欠失したマウスは探索行動の低下と不安関連行動の増加といった行動変化を示す。
siRNAによる遺伝子調節
二本鎖RNAの形成は一本鎖RNA中の重要なエレメントを覆い隠すだけでなく、ショウジョウバエやマウス卵母細胞における内因性siRNA(endo-siRNA)形成の基質ともなる。これらはアンチセンスや反復領域などの転写産物間の相補性配列のアニーリングによってRNA二本鎖が形成され、Dicer2によってendo-siRNAへとプロセシングされることで形成されている可能性がある。また、分子内で伸長したヘアピン構造を形成するlncRNAもsiRNAへとプロセシングされる可能性があることがesi-1、esi-2転写産物で示されている。こうした転写産物から形成されたendo-siRNAは、生殖系列においてゲノム内の可動性トランスポゾンエレメントの拡大の抑制に特に有用なようである。アンチセンス転写産物や偽遺伝子からのendo-siRNAの形成はRISCを介して機能的な遺伝子をサイレンシングする可能性があり、長鎖・短鎖RNAによるさまざまな調節を統合する重要なノードとして作用していることがXistとTsixの例で示されている。
エピジェネティックな調節
ヒストンやDNAのメチル化、ヒストンのアセチル化、SUMO化などのエピジェネティックな修飾は染色体の生物学の多くの面に影響を与え、主にクロマチンドメインのリモデリングによって多数の遺伝子の調節に影響する。RNAがクロマチンの不可欠な構成要素であることは以前から知られていたが、RNAがクロマチン修飾経路に関与する方法が理解され始めたのは近年になってからである。例えばncRNAのOplr16は、染色体内のルーピングとDNA脱メチル化酵素TET2のリクルートによって、幹細胞コア因子の活性化をエピジェネティックに誘導する。
ショウジョウバエでは、lncRNAがTrithoraxタンパク質Ash1をHox調節エレメントへリクルートし、そのクロマチン修飾機能を指揮することでホメオティック遺伝子Ubxの発現を誘導する。同様のモデルは哺乳類でも提唱されており、ヒトの発生過程を通じて持続するHox遺伝子の胚発現プロファイルには、強力なエピジェネティック機構が存在すると考えられている。実際に、ヒトのHox遺伝子は数百種類のncRNAと関係しており、これらはヒトの発生の時間・空間軸の双方に従って順次発現し、ヒストンのメチル化やRNAポリメラーゼのアクセス性が異なるクロマチンドメインを形成する。HOTAIRと名付けられたncRNAはHOXC遺伝子座に由来し、クロマチンのトリメチル化状態を変化させることでHOXD遺伝子座を40 kbにわたって転写抑制する。HOTAIRはPolycombクロマチンリモデリング複合体の作用をトランスに指揮してこの作用を果たし、細胞のエピジェネティック状態とその後の遺伝子発現を支配すると考えられている。SUZ12、EZH2、EEDなどのPolycomb複合体の構成要素にはRNA結合ドメインが存在し、これらを介してHOTAIRやその他の類似したncNRAに結合している可能性がある。これはncRNAが汎用のクロマチン修飾タンパク質のセットの機能をゲノム上の特定の遺伝子座にリクルートするという好例であり、近年発表されたゲノム地図の複雑性を強調するものである。タンパク質コーディング遺伝子と関係した多くのlncRNAは、クロマチン修飾の局所的パターンに寄与し、発生時に遺伝子発現を調節している可能性がある。タンパク質コーディング遺伝子の大部分にはアンチセンスパートナーが存在し、これらにはがんでエピジェネティックな機構によって高頻度でサイレンシングされている多くのがん抑制遺伝子も含まれる。近年の研究では、白血病ではp15遺伝子とそのアンチセンスncRNAが反対の発現プロファイルを示すことが観察されている。詳細な解析からは、p15アンチセンスncRNA(CDKN2BAS)は未解明の機構でp15のヘテロクロマチン化状態やDNAメチル化状態の変化を誘導し、p15の発現を調節することが示されている。このように、がん抑制遺伝子と関連したアンチセンスncRNAの誤った発現はがん抑制遺伝子をサイレンシングし、がんに寄与している可能性がある。
インプリンティング
ncRNAによるクロマチン修飾は、インプリンティングの現象の中で初めて明らかになった。インプリンティングは、母親または父親由来の染色体のいずれか一方のアレルからのみ遺伝子が発現する現象である。一般的に、インプリンティング遺伝子は染色体上で密集して位置しており、このことはインプリンティング機構が個々の遺伝子ではなく局所的な染色体ドメインに対して作用することを示唆している。こうしたクラスターはlncRNAと関係していることも多く、ncRNAの発現は同じアレルの関連するタンパク質コーディング遺伝子の抑制状態と相関している。実際に、Kcnq1ot1やIgf2r/AirといったncRNAのインプリンティングにおける重要な役割が詳細な解析により明らかにされている。
Kcnq1遺伝子座のほぼすべての遺伝子は、父親由来で発現するアンチセンスncRNAであるKcnq1ot1を除いて母親由来の遺伝子が発現する。Kcnq1ot1が切り詰められたトランスジェニックマウスは隣接遺伝子をサイレンシングすることができないことから、Kcnq1ot1が父親由来の染色体上の遺伝子のインプリンティングに重要であることが示唆される。Kcnq1ot1は、Kcnq1ot1のプロモーター領域と重複するインプリンティング中心においてヒストンH3のリジン9番と27番のトリメチル化を指示することができ、この領域はKcnq1のセンス鎖のエクソン内に位置している。HOTAIRの場合と同様に、Eed-Ezh2ポリコーム複合体が父親由来のKcnq1遺伝子座へ(おそらくKcnq1ot1によって)リクルートされ、そこで抑制的なヒストンメチル化によって遺伝子サイレンシングを媒介している可能性がある。Igf2r遺伝子座の場合も、メチル化状態の異なるインプリンティング中心は、父親由来の染色体上でIgf2r遺伝子座近傍遺伝子のサイレンシングを担う長鎖アンチセンスncRNAであるAirのプロモーター領域と重なっている。Igf2r遺伝子座におけるアレル特異的なヒストンメチル化の存在は、Airがクロマチン修飾を介したサイレンシングを媒介していることを示唆している。
XistとX染色体不活性化
有胎盤類のメスでみられるX染色体の不活性化は、最も早くそして最もよく特性解析がなされたlncRNAの1つであるXistによって指揮される。将来的に不活性化されるX染色体からのXistの発現とその後の不活性化X染色体のコーティングは、胚性幹細胞の分化の初期に生じる。Xistの発現に続いて、活性型クロマチンと関係するヒストンH3K9のアセチル化やH3K4のメチル化の喪失と、H4の低アセチル化、H3K27のトリメチル化、H3K9の高メチル化、H4K20のモノメチル化、H2AK119のモノユビキチン化などの抑制的なクロマチン修飾の誘導といった不可逆的なクロマチン修飾の積み重ねが行われる。こうした修飾は、X連鎖遺伝子の転写サイレンシングと同時に行われる。また、Xist RNAはヒストンバリアントmacroH2Aを不活性化X染色体へ局在させる。Xist遺伝子座には、アンチセンス転写産物であるTsixなど他のncRNAも存在する。Tsixは将来的に活性化される染色体から発現し、endo-siRNAの形成によってXistの発現を抑制する。これらのncRNAは協働し、メスの哺乳類では1本のX染色体だけが活性化されるよう保証されている。
テロメアのノンコーディングRNA
テロメアは哺乳類の染色体の末端領域に形成され、染色体の安定性と老化に必要不可欠であり、がんなどの疾患で中心的な役割を果たす。テロメアは転写不活性なDNA-タンパク質複合体であると長らく考えられてきたが、2000年代後半にテロメアリピートがテロメアRNA(TelRNA)またはTERRA(telomeric repeat–containing RNA)として転写されている可能性が示された。こうしたncRNAの長さは一定ではなく、テロメア周辺領域のいくつかの遺伝子座から転写され、テロメアに物理的に局在する。これらとクロマチンとの結合は、これらがテロメア特異的なヘテロクロマチン修飾の調節に関与していることを示唆しており、テロメアの喪失から染色体の末端を保護しているSMGタンパク質によって抑制される。さらに、TelRNAはin vitroでテロメラーゼの活性を遮断するため、テロメラーゼの活性を調節している可能性がある。これらの研究は、テロメアのncRNAがテロメアの生物学のさまざまな側面に関与していることを示唆している。
DNA複製のタイミングの調節と染色体安定性
ASAR(asynchronous replication and autosomal RNA)はスプライシングやポリアデニル化を受けない非常に長い(~200 kb)ncRNAであり、正常なDNA複製のタイミングの決定と染色体安定性に必要である。ASAR6、ASAR15、ASAR6-141の遺伝子座のいずれか1つを欠失させると、染色体全体で複製のタイミングの遅れと分裂期の凝縮の遅れ(DRT/DMC)という同じ表現型が引き起こされる。DRT/DMCは染色体分離のエラーを引き起こし、secondary rearrangementの頻度の増加と染色体不安定性をもたらす。Xistと同様、ASARはランダムな単一アレル発現を行い、アレル間でDNA複製が同期していない染色体ドメインに位置する。ASARの機能の機構は現在も研究中であるが、Xist lncRNAと類似した機構で、しかし常染色体内のより小さなドメインにのみ作用することでアレル特異的な遺伝子発現の変化を引き起こしていると予想されている。
また、DNA二本鎖切断(DSB)の不適切な修復は染色体組換えを引き起こし、がんの発生の主要因の1つとなっている。非相同末端結合(NHEJ)や相同配列指向性修復(HDR)など真核生物細胞におけるDSB修復の主要な経路のさまざまな段階において、多数のlncRNAが重要な役割を果たしている。こうしたRNA遺伝子の変異や発現の変化は局所的なDNA修復の欠陥をもたらし、染色体異常の頻度を増加させる。さらに、一部のRNAは長距離間の染色体組換えを刺激する可能性が示されている。
老化と疾患
細胞生物学のさまざまな面におけるlncRNAの機能の発見は、それらの疾患における役割に関する研究へとつながった。マルチオミクス解析に基づくと、数万ものlncRNAが疾患と関係している可能性がある。いくつかの研究はlncRNAがさまざまな病態に関与していることを示唆しており、神経疾患やがんに関与し協働していることを支持している。
老化や神経疾患の過程においてlncRNAの存在量が変化していることが最初に報告されたのは、アルツハイマー病患者と非アルツハイマー型認知症の患者の死亡直後の組織を用いた研究においてである。この研究では、BC200と呼ばれる、霊長類の脳特異的なAluリピートファミリーの細胞質転写産物に関する解析が行われた。
病態におけるlncRNAの発現異常を同定した関連研究は多くあるものの、それらの病因に対する役割はほとんど理解されていない。腫瘍細胞と正常細胞を比較した発現解析により、いくつかの種類のがんでncRNAの発現に変化が生じていることが明らかにされている。例えば、前立腺腫瘍ではPCGEM1(過剰発現している2種類のncRNAのうちの1つ)は増殖とコロニー形成の増加と相関しており、細胞成長の調節に関与していることが示唆されている。MALAT1(NEAT2)はもともと初期段階の非小細胞肺がんの転移時にアップレギュレーションされているncRNAとして同定され、患者の生存率の低さに関する初期の予後マーカーとなっている。また、MALAT1のマウスホモログは肝細胞がんで高度に発現していることが示されている。前立腺がんでは、発現が腫瘍の分化度と相関するイントロン性のアンチセンスncRNAも報告されている。がんでは多くのlncRNAで発現異常がみられるものの、それらの機能や腫瘍形成における役割は比較的不明点が多い。例えば、HIS-1やBICといったncRNAはがんの発生と成長の制御への関与が示唆されているものの、これらの正常細胞における機能は不明である。がん以外の病態でも、ncRNAの発現は異常を示す。HEAT2やKCNQ1OT1などのlncRNAは心不全や冠動脈疾患などの心血管疾患の患者の血液で増加がみられ、心血管疾患イベントの予測因子となる。PRINSの過剰発現は乾癬の感受性と関係しており、乾癬患者の非病変表皮では病変部や健常人の表皮よりもPRINSの発現が上昇している。
ゲノムワイド解析により、超保存領域から転写されるncRNAの多くがヒトのさまざまながんで異なる発現プロファイルを示すことが明らかにされている。慢性リンパ性白血病、大腸がん、肝細胞がんの解析では、これら3種類のがんの全てで正常細胞と比較して超保存ncRNAの発現プロファイルの異常が発見されている。超保存ncRNAの1つに関するさらなる解析からは、大腸がんでアポトーシスを緩和して多数の悪性細胞を増殖し、がん遺伝子のようにふるまっていることが示唆されている。このようにがんにおいて明確な特徴を示す超保存部位の多くは、ゲノムの脆弱部位やがんと関係した領域に存在する。悪性化過程においてこうした超保存ncRNAの発現の異常がみられるのは、それらがヒトの正常な発生過程において重要な機能を果たしているためである可能性が高い。
多くの関連研究において、病態と関係した一塩基多型(SNP)がlncRNAにマッピングされている。例えば、心筋梗塞の感受性座位として同定されたSNPにはMIATと呼ばれるlncRNAがマッピングされている。同様に、ゲノムワイド関連解析により同定された冠動脈疾患と関連した領域にはANRILと呼ばれるlncRNAが含まれている。ANRILはアテローム性動脈硬化の影響を受けた組織や細胞種で発現しており、その発現の変化は冠動脈疾患の高リスクハプロタイプと関連している。
トランスクリプトームの複雑性とその構造に関する我々の理解の進展は、病態と関連した多くの多型の機能的基盤の再解釈につながる可能性がある。特定の病態と関連したSNPの多くはノンコーディング領域に位置し、こうした領域内のノンコーディング転写の複雑なネットワークは多型の機能的影響の解明を特に困難なものにしている。例えば、ZFATのバリアントであるTR-ZFAT(truncated form of ZFAT)の内部とアンチセンス転写産物のプロモーター領域に位置するSNPは、mRNAの安定性を高めるのではなく、アンチセンス転写産物の発現を抑制することでZFATの発現を上昇させている。
lncRNAの誤った発現は臨床的意義を持つタンパク質コーディング遺伝子の調節不全をもたらし、疾患に寄与する可能性がある。アルツハイマー病の病理に重要なBACE1遺伝子の発現を調節するアンチセンスlncRNAは、アルツハイマー病患者の脳のいくつかの領域で発現が上昇している。また、ncRNAの発現の変化は遺伝子発現に影響を与えるエピジェネティックな変化を媒介し、疾患の病理に寄与する可能性もある。遺伝的変異によるアンチセンス転写産物の誘導はセンス遺伝子のDNAメチル化とサイレンシングをもたらし、βサラセミアを引き起こす。
病理学的過程を媒介する役割に加えて、lncRNAはワクチン接種に対する免疫応答にも関与しており、このことはインフルエンザワクチンや黄熱ワクチンで示されている。