Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
リファレンスゲノム
この項目「リファレンスゲノム」は途中まで翻訳されたものです。(原文:英語版 "Reference genome" at 22:42, 5 April 2023 oldid=1148397785) 翻訳作業に協力して下さる方を求めています。ノートページや履歴、翻訳のガイドラインも参照してください。要約欄への翻訳情報の記入をお忘れなく。(2023年5月) |
リファレンスゲノム(参照ゲノム配列などとも呼ばれる)とは、ゲノム解読プロジェクトなどで解読された大量の塩基配列を研究者がアセンブルし、その生物の種の理想的な個体の遺伝子セットの代表例として構築し、各種の情報を整備したデータベースである(広義のデータベースであって、必ずしも実装はリレーショナルデータベース等ではない)。
リファレンスゲノムは、複数のサンプルのDNAシークエンシングデータからアセンブル(組み立て)されるため、アセンブルされた塩基配列は任意の単一の個体の遺伝子セットを正確に表しているわけではない(ただし、各サンプルからの異なるDNA配列がハプロイド配列として提供される場合はある)。例えば、最新の人間のリファレンスゲノム(アセンブリGRCh38 / hg38)は、60人以上のゲノムのクローンライブラリに由来している。
現在、ウイルス、バクテリア、菌類、植物、動物の複数の種に対するリファレンスゲノムが公開されている。リファレンスゲノムは、新しいゲノムをアセンブルする際のガイドとして利用される他、RNA-Seqなどの遺伝子発現解析、GWASなどの遺伝統計解析など、様々の用途に利用される。
初期のヒトゲノムプロジェクトなどでは膨大なコストががかかっていたが、次世代シーケンサーや第3世代シーケンサーなどの登場により、現在はそれよりもはるかに迅速かつ安価に構築することができる。リファレンスゲノムは、EnsemblやUCSC Genome BrowserなどのWebサイト上でWebブラウザを使用してアクセスできる他、IGVなどのアプリケーションを利用して見ることもできる。また、そのようなWebアプリケーションやIGVのようなリファレンスゲノムを表示できるソフトウェアはゲノムブラウザなどと呼ばれる。
リファレンスゲノムの特性
長さの測定
ゲノムの長さは、何通りかの表現方法がある。簡単な方法は、アセンブリ中の塩基数を数えるもので、物理的距離、物理位置などと呼ばれることがある。
ゴールデンパスと呼ばれるUCSCのとった手法では、ハプロタイプ領域やPseudo autosomalなどの冗長領域を除外した長さを用いている。これは通常、物理的なマップ上にハプロタイプのシークエンシング情報を重ねるようにして構築され、スキャフォールド(骨格)の情報とすりあわされている。これはゲノムがどのように見えるかの「最良の推定値」であり、通常はギャップを含むため、典型的な塩基対アセンブリよりも長くなる。
コンティグとスキャフォールド
リファレンスゲノムのアセンブルは、リードを重ね合わせていくことでコンティグを作り、それを適切に並び替え、つなぎ合わせるという作業である。このコンティグと呼ばれる塩基配列はそれらのリードのアライメントによって作られるコンセンサス配列である。もしコンティグ間にギャップがある場合にはスキャフォールディングと呼ばれる組み立て作業でギャップ(コンティグの間)を埋めていく。実際の作業としてはPCRやBacterial Artificial Chromosome (BAC) クローニングなどで配列を増幅してシーケンサーで読むことになる。ギャップの中には埋められないものもあり、そのような場合にはリファレンス中に複数のスキャフォールドが作られることになる。