Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

メタゲノミクス

Подписчиков: 0, рейтинг: 0
露天掘り炭鉱からの酸性排水を受けるこの河川にも、環境に適応した微生物群集が存在している。メタゲノム解析により、このような微生物群集の研究が可能になる。

メタゲノミクス:Metagenomics)は、環境サンプルから直接回収されたゲノムDNAを扱う微生物学ウイルス学の研究分野である。広義には環境ゲノミクスエコゲノミクス群集ゲノミクスとも呼ばれる。メタゲノム解析(Metagenomic analysis)、あるいは単純にメタゲノム(Metagenome)とも呼称される。従来の微生物のゲノム解析では、単一の菌株を環境サンプルから分離培養する過程を経る必要があったが、メタゲノム解析はこの過程を経ることなく、微生物コミュニティ(細菌叢)から直接ゲノムDNAを抽出し、様々な系統由来のDNAがミックスされた状態でDNAシーケンスを行う。そのため、メタゲノム解析では従来の培養を基本とする方法では困難であった難培養・未培養系統に属する微生物のゲノム情報が入手可能である。一説には、地球上に棲息する細菌の99%以上は単独では培養できない系統であると推察されており、メタゲノム解析は環境中に埋没する膨大な数の未知の細菌、未知の遺伝子を解明できる手法として期待されている。DNAシークエンシングのコストは年々安価になってきており、より大規模で詳細なメタゲノム解析研究が行われることも見込まれる。狭義には、メタゲノム解析はショットガンシーケンスにより得られたゲノム全体の配列情報を解析することを指し、ターゲット遺伝子を絞りPCRを経た増幅シーケンス(16S rRNAタグシーケンスなど)とは区別されるが、後者を広義のメタゲノム解析に含めて扱われることもある。

今日では、海水や土壌、腸内や口腔といった様々な常在細菌叢、海底の鯨骨細菌群、鉱山廃水中のバイオフィルム、動植物の共生細菌、下水処理施設、南極氷床温泉、大深層の地殻など、様々な環境を対象としたメタゲノム解析が論文として報告されている。

語源

メタゲノムという用語は、「ゲノム」に高次元を表す「メタ」という言葉を付け加えて命名された。単一生物のゲノムを研究するのと同じように、環境中からゲノムの遺伝子配列を収集し纏めて(メタ的に)解析をすることが可能である、という考えが元にある。この用語はJo Handelsman、Jon Clardy、Robert M. Goodman、Sean F Bradyらにより1998年に初めて論文内で使用された。Kevin ChenとLior Pachterは2005年にメタゲノム解析を「個々の菌を研究室内で単離したり培養したりする必要がない現代ゲノム技術の応用分野」と定義している。

歴史と背景

従来のDNAシーケンスは、単一の細菌株を培養することが最初に必要であった。しかし初期のメタゲノム解析の研究により、多くの環境には培養が不可能でシーケンスが困難な微生物が多く存在することが明らかにされた。これらの初期の研究では16S rRNA遺伝子配列を調べることに焦点が当てられた。この遺伝子配列は比較的短く、原核生物種内において保存性が高い一方で、異なる種間で変化が見られるため、ゲノム全体をシーケンスするよりも簡便に環境中の微生物群集を系統的に調べることが出来る。多くの環境サンプルに対して16S rRNA遺伝子配列のDNAシーケンスが実施され、その結果、培養されている既知の生物種には当てはまらない配列が多数見つかった。このことはすなわち、環境中には極めて多様な未培養系統群の微生物が存在していることを示している。このようにして16S rRNA遺伝子配列を培養を経ず環境中から直接得た研究により、培養を元にした方法で見つけられる試料中の真正細菌古細菌は全体の1%に満たないことが論文で報告された。

PCRを使用してリボソームRNA配列の多様性を調査するという初期の分子生物学的な研究は、ノーマン・R・ペースと同僚によって行われた。これらの先駆的な研究から得られた知見から発展して、環境試料から直接DNAをクローニングするアイデアが1985年に発表された。そして、実際に大西洋の海水という環境サンプルからDNAを抽出してクローニングした最初の報告が、Paceらによって1991年に発表された。これらがPCR偽陽性ではないことが相当な努力により示され、未探索の系統群によって形作られる複雑な微生物コミュニティの存在が示唆された。この方法論は、高度に保存された非タンパク質コード遺伝子の探索に限定されていたが、培養方法で知られていたよりもはるかに複雑な多様性が存在するという、初期の微生物形態ベースの観察結果をサポートしていた。すぐその後、Healyは実験室に置いていた乾燥した草の上で増殖していた環境微生物の複合培養物から構築した「動物園ライブラリ」(zoolibraries)とでも呼ぶべきものから、機能遺伝子をメタゲノム的に単離したと1995年に報告した。その後Edward DeLongらは、海洋サンプルからライブラリー構築と16S rRNAシーケンスを実施し、環境中の原核生物を系統的に解析する研究の基礎を築いた。

2002年、Mya BreitbartとForest Rohwerらは、ショットガンシーケンスを使用して、200リットルの海水に5000種類以上のウイルスが含まれていることを示した。その後の研究により、ヒトの糞便には1000種以上のウイルス種が存在し、また海洋堆積物1キログラムあたりには多くのバクテリオファージを含む百万種ものウイルスが存在する可能性があることが示された。そして、これらの研究で見つかったウイルスは大半が新種であった。2004年には、Gene TysonとJill Banfieldらは、酸性の鉱山排水システムから抽出された細菌叢DNAの配列を決定した。この研究では、培養が試みられつつも成功していなかった少数の細菌および古細菌系統の、完全またはほぼ完全なゲノムが得られている。

2003年からは、ヒトゲノムプロジェクトに並行して進められた民間資金ベースのプロジェクトをリーダーとして率いていたCraig Venterが、グローバル・オーシャン・サンプリング・エクスペディション(GOS)を主導し、世界中を周回する旅を通じてメタゲノムサンプルを蒐集した。得られたサンプルはすべて、新規なゲノム(すなわち新規生物)が特定されることを期待して、ショットガンシーケンスが実施された。これに先駆けて実施されたパイロットプロジェクトでは、サルガッソー海で採取したサンプルの解析を行い、約2000種もの異なるDNAを発見し、内148種は新規な細菌種に由来すると考えられた。ベンターは地球を一周し、米国西海岸を集中的にサンプリングし、さらに2年間をかけてバルト海地中海黒海でサンプリングを行った。この間に収集されたメタゲノムデータの分析により海洋表層の細菌層は、富栄養/貧栄養の環境条件に適応した分類群と、比較的少ないがより豊富で広く分布する主にプランクトンで構成される分類群という、2つのグループによって構成されていることが判明した。

2005年、ペンシルベニア州立大学のStephan C. Schusterらは、ハイスループットシーケンスで生成された環境サンプルの最初のシーケンスを公開した。これは454 Life Sciences社が開発した超並列パイロシーケンスによるものであった。この分野の別の初期の論文は、2006年にサンディエゴ州立大学のRobert EdwardsとForest Rohwerらよって発表された。現在でもシーケンサーの技術開発が進み、いわゆる第3世代シーケンサーの応用等が進められている(後述)。

ゲノムシーケンシング

BACライブラリによる環境ショットガンシーケンス。(A)生息地からのサンプリング。(B)通常、サイズによる粒子のフィルタリングを行う。(C)細胞溶解およびDNA抽出(D)クローニングとライブラリ構築。E)クローンのシーケンス。(F)コンティグとスキャフォールドへの配列アセンブリ。

かつては環境サンプルから数千塩基対よりも長いDNA断片の回収することは困難であったが、分子クローニング用のベクターとしてBAC(bacterial artificial chromosomes)が開発されたことにより、ライブラリーの構築が可能になった。一方で従来行われていたクローニングによるライブラリには網羅性に限界があり、群集の構造を正しく評価することは困難であった。現在では次世代シーケンサーの登場により、BACライブラリを経ることなくより大量の配列情報を取得することが可能である。

ショットガンシーケンシングの登場

バイオインフォマティクスの進歩、DNA増幅(PCR)法の改良、および計算機能力の急増により、環境サンプルから得られるDNA配列の分析能力は飛躍的に向上し、ショットガンシーケンスをメタゲノムサンプルに応用することが可能になった。これは全メタゲノムショットガンシーケンス、または英語(Whole Metagenome Shotgun Sequence)からWMGSと呼ばれることがある。培養微生物からヒトゲノムに至るまで、大半の全ゲノム解読を行う研究においては、DNAをランダムに短く切断し、それらのDNA断片を大量にシーケンスし、得られた配列情報のアセンブリを経てコンセンサス配列を再構築する、というステップを経る。このようなプロセスを経ることで、ショットガンシーケンシングを行ったメタゲノム解析では、環境サンプル中に存在する細菌叢に由来するゲノム配列を系統網羅的に取得することが可能である。歴史的には、このようなショットガンシーケンスを容易にするために、BAC等を利用したクローンライブラリが使用されてきた。ショットガンシーケンスを解析することで、菌叢内でどのような系統群の生物が存在し、どのような代謝プロセスが行われているのか、等について明らかにすることができる。原理的には、環境サンプル中に含まれているそれぞれの微生物系統の細胞量の違いによって回収されるDNA量も変わってくるため、その環境サンプル内で最も多く存在する生物種(優占種)は大量にシーケンスされ、配列情報も多く得ることができる。そのため優占種については完全長のゲノム配列を得ることも可能である。一方で、存在量の少ない生物種(そのサンプルにおける希少種)では解析に十分な量の配列情報が得られない可能性があり、そのような希少生物種のゲノムを完全に決定するためにはより高いカバレッジが必要になり、合わせて非常に多くのサンプルが必要となる。このことは反面、ショットガンシーケンスは原理的には完全ランダムにDNA断片のシーケンスを行うため、従来の培養ベースの手法では見過ごされていた未培養微生物系統であっても、大なり小なりゲノム情報を得ることができる、ということでもある。

次世代シーケンシング技術の活用

今日では次世代シーケンサー(ハイスループットシーケンシング技術)の登場と進歩により、クローニングのステップを省略してシーケンスデータの収量を増やすことが可能である。次世代シーケンスを使用して実施された最初のメタゲノム研究では、454パイロシーケンシングが利用された。その後、Ion Torrent Personal Genome Machineや、Illumina MiSeq、HiSeq、Applied Biosystems SOLiDシステム等が登場し、メタゲノム解析に利用されるようになった。これらの次世代DNAシーケンシング技術で得られるリードはサンガーシーケンスよりも短い。具体的には、サンガー法では750bp程度のリードを得られるのに対し、Ion Torrent PGM Systemや454パイロシーケンシングでは約400bp、Illumina MiSeqでは最大600bp、SOLiDは25-75bp程度である(2008年のカタログスペック値)。一方で、次世代シーケンシングでは圧倒的に多量のDNA配列を読むことができ、具体的には454パイロシーケンスでは200〜500Mb、Illuminaプラットフォームでは20〜50Gbもの配列情報を排出し(2009年のカタログスペック値)、またこの値は年々増加している。

新しい技術の活用

2010年にPacBio RSが発売されたことを皮切りに、次世代シーケンサーよりも更に長いロングリードを読むことができる、いわゆる第3世代シーケンサーが、PacBio社(1分子リアルタイムシーケンシング)やNanopore社から登場している。このような第3世代シーケンシング技術をメタゲノム解析に応用することで、ロングリードのショットガンシーケンスの取得とさらに効率できなゲノムアセンブリが可能になると考えられる。また、ショットガンシーケンスと、染色体コンフォメーションキャプチャ技術を利用したHi-C法とを組み合わせることで、同じ細胞内で近接するDNA断片の情報を得ることができ、この情報を活用して微生物ゲノムのアセンブリを効率化する研究も報告されている。

バイオインフォマティクス解析

典型的なメタゲノム解析プロジェクトのフロー図

ショットガンシーケンスから得られるデータは膨大であり、ノイズが多く、ときには数万を超える生物種に由来するDNA配列がミックスされている。例えば牛のルーメンをサンプルとして実施されたメタゲノム解析では279Gbもの配列データが得られ、またヒト腸内細菌叢を対象とした研究では567.7Gbの配列情報から330万個の遺伝子カタログを作成した研究が報告されている。このようなビッグデータから有用な生物学的情報を収集、管理、抽出することは、本質的に重要なバイオインフォマティクス上の課題となっている。以下に、メタゲノム解析における解析の手順を示す。

シーケンス配列のフィルタリング

メタゲノムデータ分析の最初のステップでは、シーケンシングの後、冗長な配列や低品質な配列、そしてヒトを含む真核生物に由来すると思われる配列の除去などを行う、事前フィルタリングを行うことが多い。混入した真核生物ゲノムDNA配列の除去には、Eu-DetectやDeConseqなどのツールが利用可能である。

ゲノムアセンブリ

アセンブリとは短いDNA配列を繋げ合わせることであり、これによりゲノム配列の部分的な配列を得ることができる。また、得られる元の断片より長い配列のことをコンティグという。ゲノムプロジェクトやメタゲノムプロジェクトにおいては、扱うDNA配列データの基本的構造は同じである。しかしながら、前者では単一種由来の配列データをより高いカバレッジで得ることが容易である一方で、後者は異なる生物種由来の配列がミックスされている分、データの冗長性が非常に低い(データセット中で同じ配列が低頻度でしか現れない)ことが多い。さらに、第2世代のシーケンシング技術はリード長が短く、そのためゲノムアセンブリでエラー(ミスアセンブリ)が頻発し、得られた結果の信頼性が低くなる事がある。特にトランスポゾンなどに代表されるゲノム中の反復配列の存在は、このようなミスアセンブリを誘発しやすい。また、異なる複数種由来の配列を誤ってアセンブリしてしまう、いわゆるキメラコンティグを作り出すようなミスアセンブリも起きうる。

このようなエラーを最小限にし、かつできるだけ長くアセンブリが繋がるように、様々なツール(アセンブラ)が現在も開発されている。多くアセンブラは精度を向上させるためにIlluminaのペアエンドリードの情報を利用する。PhrapやCelera Assemblerなどの一部のプログラムは、単一のゲノムをアセンブルするために設計されているが、それにも関わらずメタゲノムデータセットにおいても良好なアセンブル結果を生み出すことが経験的に知られている。Velvetなどの他のプログラムでは内部でde Bruijnグラフのアルゴリズムを使用しており、第2世代シーケンサーから生成されるショートリード用に最適化されている。リファレンスゲノムを使用することでアセンブリを改善するアプローチも提案されているが、この方法は既にゲノムが読まれている限られた微生物系統にしか適応できない。アセンブリが作成された後、そのコンティグがどの系統に由来しているのかを推定することも、技術上の課題である。

配列からの遺伝子予測

アセンブルされたコンセンサス配列(コンティグ)から遺伝子配列(コーディング領域)をアノテーションする方法としては、大きく分けて2つのアプローチが取られる。1つ目は、BLAST等のツールを用いた配列類似性検索により、配列データベース上で公開されている遺伝子との配列類似性に基づいて遺伝子を識別する方法である。この方法は、例えばMEGAN 4で実装されている。2番目の方法としては、関連する生物種(すなわち、原核生物か真核生物か)に由来した既知の配列情報から、遺伝子配列に関する特徴量を学習し、コンティグ配列から直接遺伝子領域を予測する方法である。例えばGeneMarkGLIMMERといったプログラムで採用されている。このab initio予測方法では、配列データベースに類似したものがない新規性のあるコーディング領域も検出できることができる。その後、予測された遺伝子配列を元に、公共の遺伝子データベースを用いた配列類似性検索をかけることで、その遺伝子が持つ機能を推定することが一般に行われる。

配列の系統推定

2016に提唱された「生命の木」

遺伝子アノテーションにより「それが何なのか(どういう機能を持つ遺伝子なのか)」という情報がわかる一方で、配列の由来系統の推定により「それが誰なのか(どういう微生物系統群に由来した配列なのか)」という情報を得ることも重要になる。すなわち、メタゲノム解析で菌叢の構成と生理学的機能を結び付けるためには、アセンブリされる前のショットガンリードあるいはアセンブリ後に得られるコンティグ配列が、元々どのような生物系統に由来していたのかを推定する、配列の由来系統推定を行う必要がある。配列類似性に基づく方法としては、BLASTなどのツールと既存の公共データベースを利用して、各系統に特異的なマーカー配列や類似したゲノム上の配列を検索することで、その配列やコンティグがどのような系統に由来していたのかを推定する方法がある。このアプローチはMEGANで実装されている。異なる手法としては補間マルコフモデルを使用した方法があり、PhymmBLなどで実装されている。MetaPhlAnおよびAMPHORAでは、より高速に生物の相対存在量を推定するための、マーカー遺伝子をベースとした手法が実装されている。mOTUやMetaPhylerなどのツールでは、ユニバーサルなマーカー遺伝子を使用して原核生物種のプロファイルを作成する。mOTUs profilerを使用すると、参照ゲノムなしで系統をプロファイリングでき、微生物群集の多様性の推定ができる。SLIMMなどの手法では、個々のリファレンスゲノムにおけるリードカバレッジの分布を調べることで、偽陽性を最小限に抑えて信頼性のある相対存在量を計算する。一方、組成に基づく系統推定の手法では、オリゴヌクレオチドの頻度やコドン使用頻度のバイアスなどの情報を利用する。配列の由来系統が推定できることで、はじめて菌叢の系統的多様性が比較分析できるようになる。

メタデータとの統合

今日、メタゲノムを含むあらゆるゲノム配列データは指数関数的に増加しており、膨大な量のデータがデータベースに蓄積されている。特にメタゲノム解析では、個々のメタゲノム解析プロジェクトとそれに関連するメタデータとの関係が複雑であり、データ量が増加することでより一層全体が複雑化することが課題となっている。メタデータには、メタゲノム解析に用いるために採取された環境サンプルの3次元的な地理情報(どのような緯度、経度、深度または標高から採取されたサンプルなのか)、環境特性(海水、淡水、土壌、など)、サンプリングサイトに関する物理学的なデータ(気温や気圧、水圧、溶存化学成分、など)、サンプリングの方法論、などに関する詳細情報が含まれる。これらの情報は、メタゲノム解析の再現可能性を確保し、さらなる発展的な解析を可能にするために必要な情報となる。この重要性のため、Genomes OnLine Database(GOLD)などでは、メタデータと付属するデータはレビューとキュレーションを受け、標準化されたデータ形式としてデータベース化されている。

メタデータとシーケンスデータを統合的に管理し解析するために、いくつかのツールが開発されており、異なるデータセットを様々な生態学的指標を使用して比較解析することが可能になっている。例えば2007年、Folker MeyerとRobert Edwards、およびアルゴンヌ国立研究所シカゴ大学のチームは、メタゲノムデータセット分析のためのコミュニティリソースとしてMetagenomics Rapid Annotation using Subsystem Technology(MG-RAST)サーバをリリースした。このサーバでは2012年6月の時点で8,000人を超えるユーザーが計50,000を超えるメタゲノムプロジェクトの配列を投稿しており、14.8TB(14x1012 bp)を超える配列が分析されている他、10,000を超える公開データセットをMG-RAST内で比較することもできる。また、Integrated Microbial Genomes / Metagenomes(IMG/M)システムは、Integrated Microbial Genomes (IMG)システムおよび Genomic Encyclopedia of Bacteria and Archaea (GEBA)に含まれる単離株のリファレンスゲノムに基づいた、メタゲノム解析による微生物群集機能解析のためのツール群を提供している。

ハイスループットのメタゲノム解析データを分析するために初期に開発されたスタンドアローンなツールの1つはMEGANである。このプログラムは、マンモスの骨から得られたメタゲノム配列を分析するために2005年に使用された。このツールはリファレンスゲノムのデータベースとのBLAST検索の結果に基づき、単純な共通祖先(LCA)探索アルゴリズムを使用してリードをNCBI分類のノードに紐付けたり、あるいはリードをSEEDKEGGの分類ノードに紐付けることにより、系統分類と遺伝子機能の両方を解析することができる。

上述のように今日では、NCBI GenBankのようなゲノム配列データベースは指数関数的に成長している。MG-RASTやMEGANなどのような配列類似性検索ベースのアプローチは、大規模な配列データにアノテーションを付けるには非常に遅く、たとえば中小規模のデータセットに対してでさえ数時間もの実行時間を要してしまうため、より高速で効率的なツールが必要とされており研究が進められている。たとえばCLARKというツールでは、著者らによると「1分あたり3200万のメタゲノムショートリードを分類可能」と宣伝されており、実際に非常に高速に分類アノテーションを実行できる。この速度であれば、10億本のショートリードであっても30分程度で処理できる。

また、古代DNAではそのサンプルの性質上、DNAの損傷に起因する不確実性(シーケンスのエラー等)が大きい。このような不確実性を超えて保守的な配列類似性を推定できるFALCONのようなツールも登場している。著者らによると、メモリと速度のパフォーマンスに影響を与えることなく、緩いしきい値を使用して配列間距離を計算することが可能である。

比較メタゲノム解析

複雑な微生物群集が持つ生理学的な機能やその生息環境との関連を調べる上で、さまざまな異なるメタゲノムデータと比較的に解析することは有用である。メタゲノムデータ間の比較は、配列構成(例えばGC含有量やゲノムサイズの比較)、分類学的多様性(どのような系統の細菌がどのような割合でいるのか)、そして遺伝子機能(どのような機能遺伝子がどのような割合で存在するのか)、といったレベルで行うことができる。群集構造や系統的多様性の比較では、例えば16S rRNAやその他の系統マーカー遺伝子に基づいて行ったり、または多様性の低いコミュニティの場合であればゲノム再構築を経て行うことができる。メタゲノムデータ間の遺伝子機能の比較解析では、例えばCOGやKEGGといった機能遺伝子のリファレンスデータベースを対象に配列類似性検索にかけ、カテゴリ別に相対存在量を集計して統計的に検証することで、データセット間の違いを評価することができる。系統分類類的な解析とは異なり、このような遺伝子ベースの解析では、コミュニティ全体の遺伝子機能の特徴が明らかになる。そして一般には、たとえ別の環境であっても類似した環境条件下であれば、同じような遺伝子機能が分布していることが多い(例えば外洋の海洋表層で取られたサンプルであれば、太平洋でも大西洋でも概ね同じような遺伝子機能の分布を示す)。同時にこのことは、メタゲノムサンプルに付随している環境条件に関するメタデータは、コミュニティの構造と機能に対する生息地の影響を研究する上で、非常に重要である。

さらにいくつかの他の研究では、オリゴヌクレオチドの出現パターンを利用して、微生物群集全体の差を比較している。そのような方法論の例には、Willnerらが提唱したジヌクレオチド相対存在量によるアプローチや、Ghoshらが提唱したHabiSignアプローチがある。後者の研究では、特定のサンプリングサイトを特徴づけるような遺伝子配列(またはメタゲノムリード)を特定するために、テトラヌクレオチドの使用パターンの違いも使用できることを示している。さらにTriageToolsやCompareadsなどの手法では、2つのデータセット間で類似したリードを検出する。この際に使われる類似性の尺度としては、リードのペア間で共有される長さkの配列の数に基づいている。

比較メタゲノム解析の重要な目標の一つは、特定の環境において特定の特性を付与するような、主要な微生物群を特定することである。ただし、これを行う上で、metagenomeSeqというツールで実装されているように、異なるシーケンステクノロジを利用した際のデータバイアスを考慮する必要がある。またいくつかの研究においては、微生物群間の微生物間相互作用を解析している。例えば、Community-Analyzerと呼ばれるGUIベースの比較メタゲノム解析アプリケーションが、Kuntalらによって開発されている。このツールでは相関ベースのグラフアルゴリズムを実装し、系統分類学的な微生物群集構造の違いを視覚化し、さらにそのサンプル固有の微生物間相互作用を推測できる。

発展的・派生的な解析技術

細菌コミュニティにおける代謝

天然の環境や人工的な環境(バイオリアクターなど)下では、多くの細菌のコミュニティで分業的(共生的)な代謝活動を行っており、例えばある生物種が生産する代謝廃棄物が他の生物の代謝産物のベース(餌)になる、というような関係が往々にして見られる。例えばメタン生成バイオリアクターにおいては、その機能的な安定性を確保しつつ原料を完全にメタンに分解するために、いくつかの共生種(SyntrophobacteralesおよびSynergistia)を共存させる必要がある。マイクロアレイなどによる遺伝子研究やプロテオミクスによる遺伝子発現測定を行うことで、種の境界を超えて代謝ネットワークをつなぎ合わせることができる。このような研究では、どのような機能タンパク質がどの系統群、種、株などによって保持されているかについて、詳細な知識が必要となる。そのため、メタゲノム解析から得られるコミュニティのゲノム情報は、メタボロミクスやプロテオミクスによる代謝ネットワーク解析においても、重要な情報となる。

メタトランスクリプトーム解析

メタゲノム解析により、微生物群集の機能的および代謝的な多様性を観測できるが、ゲノム情報からのみでは、どの代謝プロセスが活発に活動しているのか(遺伝子の転写が活発に起きているのか)を示すことはできない。メタゲノム解析と似たような考え方で、細菌コミュニティからmRNAを網羅的に抽出して解析する、いわゆるメタトランスクリプトーム解析(Metatranscriptome)の登場により、コミュニティにおける遺伝子発現のプロファイルを得ることができるようになった。この技術は、最初に土壌中のアンモニア酸化に関する解析に用いられた。一方で、mRNAはDNAに比べて圧倒的に分解されやすいため、環境サンプルからRNAを収集することには様々な技術的困難がある。

ウイルスを対象としたメタゲノム解析(Virome)

メタゲノム解析はバクテリアアーキアといった原核微生物がターゲットになることが多いが、ウイルス(特にDNA2本鎖ウイルス)に対しても応用することができる。ウイルスには系統間で共通の普遍的なマーカー遺伝子(例えば細菌や古細菌における16S RNAや、真核生物における18S RNAなど)がないため、PCRを介した系統解析が難しい。そのため、環境サンプルからウイルスコミュニティの遺伝的多様性にアクセスする方法として、ウイルスをターゲットとしたメタゲノム解析が有力な方法となっている。このようなウイルスのメタゲノム解析はVirome(日本語ではビロームウイロームヴァイローム、などと発音される)と呼ばれ、ウイルスの多様性や進化に関して有力な解析手段となっている。たとえば、Giant Virus Finderと呼ばれる解析パイプラインでは、塩性砂漠や南極に巨大ウイルスが存在する最初の証拠を示した。

メタゲノム解析の応用

メタゲノム解析は、医学工学農業生態学食品科学などの様々な分野に応用されており、課題解決に役立つ可能性がある。

農業への応用

植物が成長しているような一般的な土壌には、1グラムあたり109-1010細胞もの微生物が生息している。土壌に生息する微生物群集は非常に複雑であるため、農業等で経済的に重要であるにもかかわらず、土壌細菌叢の理解は不十分なままである。土壌中の細菌叢は、大気中の窒素の固定や栄養循環、病気の抑制、シデロフォアによるやその他の金属の隔離など、植物の成長を手助けするさまざまな生態系サービスの役割を担っている。メタゲノム解析により、これらの微生物群集の非培養的な研究を通じて、植物と微生物間の相互作用を解析する研究が進められている。メタゲノム解析によるアプローチでは、これまでに培養されていない、あるいは存在量は少ない微生物系統が持つ、栄養循環と植物成長の促進における役割について、有力な情報を提供する可能性がある。このことにより、例えば作物家畜の感染症の検出や農作物の生育改善といった、農作業プロセスの改善に繋がると考えられている。

バイオ燃料への応用

バイオリアクターでは、微生物群集の活動により、バイオマスセルロース系エタノールに変換している。

バイオ燃料とは、トウモロコシの茎やスイッチグラスといったバイオマスに含まれるセルロースを変換し、セルロース系エタノールにして得られる燃料である。この変換プロセスでは、細菌叢の活動によってセルロースがに変換され、その後さらに糖がエタノールへと発酵される。また他にも、メタン水素などのさまざまな生物エネルギー源も微生物が生成することが知られている。

バイオマスを効率的に分解し、産業規模でバイオ燃料を生産するためには、より高い生産性と低コストな新規酵素が必要となる。メタゲノム解析を用いて複雑な微生物群集を解析することで、グリコシド加水分解酵素などのバイオ燃料生産における有用な酵素のスクリーニングが可能になる。また、これらの微生物群集がどのような生態系を営んでいるかを理解することは、その細菌叢を制御するために必要であり、メタゲノム解析は有用な解析手法となり得る。メタゲノム解析によって、バイオガス発酵槽やハキリバチの共生真菌といった環境中に生息する微生物叢の比較解析研究が報告されている。

バイオテクノロジーへの応用

微生物群集は、菌叢の内部で繰り広げられる競争とコミュニケーションで使用される、生理学的に活性な化学物質を生産している。今日使用されている薬物の多くは、もともと微生物で発見されたものが多く存在する。そして、未培養系統の微生物が持つ豊富な遺伝資源の探索することで、新しい酵素天然物及びそれらをコードする遺伝子の発見がなされている。メタゲノム解析の応用により、ファインケミカルの生産や農薬医薬品等に応用可能な新規遺伝子の探索が進められており、また新規な酵素触媒によるキラル合成なども注目を集めている。

メタゲノム解析をバイオテクノロジーへ応用する際には、大きく分けて2種類の方針がとられる。一つは発現形質に基づく機能駆動型スクリーニングであり、もう一つはDNA配列に基づく配列駆動型スクリーニングである。機能駆動のスクリーニングでは、目的の特性や有用な活性を示すような配列をDNAクローニングと遺伝子発現実験から特定し、続いて生化学的特性評価と配列解析を行う。このアプローチでは、適切なスクリーニングの利用可能性や、求めている形質が宿主細胞で発現されるかどうか、といった要件によって制限される。さらに、一般的にこのアプローチは発見率が低く(1,000もの配列をクローニングしてスクリーニングしても、1配列も当たらないことが往々にしてある)、労力を要する作業が必要となる。対照的に配列駆動のアプローチでは、既知のDNA配列を使用してPCRプライマーを設計し、目的配列のPCR増幅を配列決定経てスクリーニングを行う。前者のクローニングベースのアプローチと比較して、後者のシーケンスのみのアプローチでは、必要な実験量が大幅に少ない。また、次世代シーケンサーの適用により、膨大な量の配列データを生み出すこともできるが、得られたデータの解析にはバイオインフォマティクス解析が必要になる。配列駆動型アプローチは、配列データベースに含まれる遺伝子機能の量と精度によって制限される。そのため現実的には、目的の機能やスクリーニングするサンプルの複雑さ、およびその他の要因に基づいて、機能駆動形と配列駆動形の両方アプローチを組み合わせて利用することが多い。メタゲノム解析から得られた有用物質の例としては、マラシジンという抗生物質などが知られている。

生態学研究への応用

メタゲノム解析は、環境コミュニティが持つ機能生態学に関する貴重な洞察を提供する。例えばオーストラリアアシカの排便を対象としたメタゲノム解析では、栄養豊富なアシカの糞が、沿岸生態系の栄養源として重要である可能性を示唆している。これは、排便と同時に排出される細菌が、糞中の栄養素を分解し、食物連鎖に組み込みやすい形に変換しているからである。

バイオレメディエーションへの応用

メタゲノム解析は、生態系に対する汚染物質の影響をモニタリングし、汚染された環境を浄化するための戦略の策定に利用できる。具体的には、汚染環境下に生息する微生物群集がどのようにしてその汚染物質に対処するか(代謝的に分解しているのか、あるいは無力化しているのか、など)を解明することで、汚染環境の評価方法を向上させたり、生物的な汚染物質の除去、すなわちバイオレメディエーションの技術開発に繋がると考えられている。

ヒト常在細菌叢への応用

腸内細菌を含むヒト常在菌は、健康を維持する上で重要な役割を果たしていると考えられているが、その菌叢構造や生態学的メカニズムは十分には分かっておらず様々な人種や体組織において、メタゲノム解析による大規模なシーケンス研究が進められている。例えばHuman Microbiomeプロジェクトでは、250人以上の個人の15〜18の身体部位について解析がなされている。このプロジェクトでは、ヒトの健康と相関する可能性のあるヒトマイクロバイオームを理解し、その目標のために必要となる新しい実験的およびバイオインフォマティクス技術を開発するということを目標としている。

また別のプロジェクトであるMetaHit(Metagenomics of the Human Intestinal Tract、ヒト腸管のメタゲノミクス)の一部として行われた研究は、健常者や肥満者、過敏性腸疾患患者などからなる124人のデンマークとスペインの個人を解析している。この研究は、胃腸に生息する細菌叢がどのような系統的多様性を持つのかに関して調べている。その結果、バクテロイデス(Bacteroidetes)とファーミキューテス(Firmicutes)の2つの細菌門が、腸内細菌叢の90%以上を構成する系統群であるということを実証した。また、メタゲノム解析から得られた遺伝子配列の出現頻度を利用して、腸管の健康にとって重要な可能性がある1,244個の遺伝子クラスターを特定した。このクラスターには、ハウスキーピング遺伝子の他に、腸特有の機能を持つ遺伝子の2タイプが含まれていた。前者はあらゆる細菌に必須なハウスキーピング遺伝子から構成されており、炭素代謝やアミノ酸合成などの主要な代謝経路に関連した機能を持っていた。一方で後者の腸特有の機能には、宿主タンパク質への接着やグロボシリーズ糖脂質からの糖生成に関する機能が見られた。過敏性腸症候群の患者は、健常者と比較して菌叢中の遺伝子と系統多様性が25%低く、腸内細菌叢の多様性の変化がこの疾患状態に関連している可能性が示唆された。この研究では、いくつかの潜在的に価値のある医学的応用が強調されているている。しかしながら、リード全体では31-48.8%程度のリードしか194の既知のヒト腸内細菌ゲノムにマップされず、7.6-21.2%のゲノムしかGenBankで利用可能な細菌ゲノムと整合していなかったため、さらなる未解読の新規細菌ゲノムを明らかにしていく研究を進めていく必要があることが示唆された。

感染症診断への応用

感染症を診断し、その感染の根底にある病因を特定することは、困難であることが多い。例えば脳炎の症例の半数以上は、最先端の臨床検査法を用いた広範な検査であっても病原体の同定ができない。メタゲノム解析では、患者のサンプルに含まれる遺伝物質を、何千もの細菌、ウイルス、その他の病原体のゲノムデータが含まれたデータベースと比較することで、高感度に感染の診断を行うことができるため、診断手法として応用が期待されている。実際に、COVID-19の初期流行時においては、次世代シーケンサーによる網羅的遺伝子検出法によりSARS-CoV-2が検出されている。

脚注

関連項目


Новое сообщение