Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
- 1000人ゲノムプロジェクト
- 罹患率
- バイオバンク
- バイオチップ
- バイオインフォマティクス
- バイオミメティクス
- 生物統計学
- 脳機能マッピング
- タンパク質構造予測精密評価
- 化学ライブラリー
- 計算生物学
- コンセンサス配列
- 機能注釈精密評価
- 距離行列
- DNAマイクロアレイ
- DIYバイオ
- ドッキング (分子)
- ドットプロット (バイオインフォマティクス)
- EC番号 (酵素番号)
- 進化的計算
- ExPASy
- Fastq
- Folding@home
- GenBank
- 遺伝子命名法
- グローバル距離テスト
- ヒートマップ
- 隠れマルコフモデル
- ヒトゲノム計画
- バイオインフォマティクス分野の科学論文雑誌のリスト
- メタボローム
- メタゲノミクス
- マイクロアレイ
- 分子シミュレーション
- 多重整列
- オーミクス
- オープンリーディングフレーム
- 一次構造
- Pfamデータベース
- 系統学
- 確率文脈自由文法
- 蛋白質構造データバンク
- タンパク質ファミリー
- タンパク質構造予測
- DNA結合タンパク質
- リファレンスゲノム
- RNA integrity number
- 原子位置の二乗平均平方根偏差
- スコアリング関数 (分子)
- ドッキングのための配座空間の探索
- 配列アセンブリング
- ショットガン・シークエンシング法
- 1分子リアルタイムシーケンシング
- 構造バイオインフォマティクス
- 構造ゲノミクス
- 合成生物学
- システム生物学
- システム免疫学
- スレッディング (タンパク質)
- バーチャルスクリーニング
バイオインフォマティクス
バイオインフォマティクス(英語:bioinformatics)とは、生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico 解析)ことを目的とした学問分野である。そのためバイオインフォマティクスは広義には、生物学、コンピュータサイエンス、情報工学、数学、統計学といった様々な学問分野が組み合わさった学際分野自体を指す。日本語では生命情報科学や生物情報学、情報生命科学などと表記される。
ゲノミクス研究の初期においては、遺伝子予測等のゲノミクスに関する分野がバイオインフォマティクスの主要な対象であった。近年ではゲノムを超えて、ゲノムからの転写物の総体であるトランスクリプトームや、トランスクリプトーム(の一部)が翻訳されたタンパク質の総体であるプロテオーム、タンパク質の二次産物として合成される糖鎖の総体であるグライコーム、更にはゲノムからの直接的に転写・翻訳された実体だけではなく、代謝ネットワーク(代謝マップ)によって生じた代謝産物をも含めた総体を考えるメタボローム、生物個体の表現形の総体であるフェノームなど、バイオインフォマティクスが対象とする研究分野は生物学全体に拡大・発展しつつある。
概要
ゲノムシーケンシング技術の登場と発展により、多くの生物を対象にゲノム解析プロジェクトが進められ、それに伴い大量のゲノム配列情報が得られるようになった。ところが、得られる大量の配列情報から人力で生物学的な意味を抽出することは極めて困難であり、情報処理による解析の必要性が高まっている。遺伝子情報は(A,T,C,Gという塩基で記述できる)核酸配列というデジタル情報に近い性格を持っているために、コンピュータとの親和性が高い。さらにマイクロアレイなどの網羅的な解析技術の発展に伴って、遺伝子発現のプロファイリングやクラスタリング、アノテーション、大量のデータを視覚的に表現する手法などが重要になってきている。これらの理由により、バイオインフォマティクスはその重要性が注目されるようになり、特に1990年代半ばのヒトゲノムプロジェクトやDNAシーケンステクノロジーの急速な進歩によって爆発的に成長し、発展してきた。
バイオインフォマティクスの主な研究対象としては、遺伝子予測、遺伝子機能予測、遺伝子分類、配列アラインメント、ゲノムアセンブリ、タンパク質構造アラインメント、タンパク質構造予測、遺伝子発現解析、タンパク質間相互作用の予測、進化モデリング、ドラッグデザイン、創薬、等の、様々なコンピュータープログラミングを使用した各種の生物学研究分野が挙げられる。また、特にゲノミクスの分野で繰り返し使用されるような特定の解析パイプラインを開発するといった、方法論の開発に関する研究も含まれる。バイオインフォマティクスを活用した研究の一例として、疾患の遺伝的根拠や生物の環境適応、(特に農業分野における)植物や動物の特性解析、個体群間の差異などをよりよく理解するための候補遺伝子や一塩基多型(SNP)の探索、などがある。 さらに、プロテオミクスと呼ばれるタンパク質を対象としたデータをゲノム配列と組み合わせたバイオインフォマティクス研究も進められている。
データ解析を中心としたバイオインフォマティクスでは、ハイスループットな実験手法によって蓄積された大量のデータを目的に応じて加工・標準化し、データマイニングや可視化、その他統計的手法による分析などを通じて解析する、という流れをとることが多い。いずれの段階でもコンピュータは使用され、その形態はパーソナルコンピュータ (PC) を利用したスクリプトによる小規模なシーケンスデータ加工から、産業技術総合研究所生命情報工学研究センターなどによるIBM Blue Geneのような20TFlopsのスーパーコンピュータや大規模なコンピュータ・クラスター、グリッド・コンピューティング等を用いたタンパク質の立体構造解析(タンパク質構造予測)まで様々である。
今日、バイオインフォマティクスは、生物学の多くの分野で重要な役割を果たしている。例えば分子生物学研究では、画像処理や信号処理などのバイオインフォマティクス技術を利用して、大量の生データから有用な結果を抽出することが行われている。遺伝学の分野では、ゲノム配列や突然変異した配列の決定と注釈付け(アノテーション)に活用される。 生物学的文献のテキストマイニングや、生物学的な遺伝子オントロジーの開発を通じて、膨大に蓄積された生物学的データを利用しやすい形で整理する役割も果たしている。また、遺伝子やタンパク質の発現調節の解析にも、深く関与している。バイオインフォマティクスツールは、遺伝子やゲノムのデータ比較と分析、解釈を支援し、分子生物学の進化的な理解にも貢献している。より統合的なレベルでは、個々の遺伝子やタンパク質の解析から一歩進み、生命を遺伝子やタンパク質のネットワークとして捉え、その総体をシステムとして理解しようとする、システム生物学という分野も生まれている。バイオインフォマティクスは生物学的代謝経路とネットワークの分析やカタログ化に役立ち、システム生物学を支えている。構造生物学の分野においては、生体分子の相互作用だけでなく、DNA、RNA、タンパク質 等のシミュレーションとモデリングにも役立っている。また、機械学習による遺伝子領域予測や、タンパク質構造予測、次世代シーケンサーを利用したゲノム解析など、大きな計算能力を要求される課題が多く存在するため、スーパーコンピュータの重要な応用領域の一つとしても認識されている。
歴史
バイオインフォマティクスという用語は、Paulien HogewegとBen Hesperによって、1970年に生物システムの情報処理の研究に言及するために作られた用語である。この定義では、生化学(生物学的システムにおける化学プロセスの研究)と平行した研究分野の概念としてバイオインフォマティクスを位置づけており、今日使われているものとは意味が異なっている。
1950年代初頭にフレデリック・サンガーがインスリンの配列を最初に決定して以来、タンパク質のアミノ酸配列を研究で利用することが可能になった。しかしながら、複数のシーケンスを手動で比較することは(過去は実際に行われていたが)実用的ではなく、コンピューターを用いた解析が分子生物学にも必要不可欠になった。この分野の先駆者はマーガレット・オークリーデイホフ(Margaret Belle Oakley Dayhoff)である。彼女は最初に、書籍の出版物 としてとして公開された最初のタンパク質配列データベースの1つを編集し、配列整列と分子進化の先駆的な方法を開発した。バイオインフォマティクスへのもう一つの初期の貢献は、1970年にエルウィン・A・カバット(Elvin A. Kabat) が抗体配列を包括的なボリュームで解析し、生物学的な配列解析の分野を開拓したことである。この一連の研究はTai Te Wuと共に1980年から1991年にかけて発表された。
バイオインフォマティクスの目標
生物学におけるバイオインフォマティクスの主な目的は、他の生物学派生分野と同様に、生物学的プロセスの理解をより深めることにある。ただし、他のアプローチとの違いは、より計算集約的な手法の開発と適用に重点を置いている点である。用いられる技術の例としては、パターン認識、データマイニング、機械学習アルゴリズム、などが挙げられる。また、例えば疾患研究の分野において、正常な細胞活動がさまざまな病状でどのように変化するかを明らかにするためには、生物学的データを組み合わせて、これらの活動の包括的な構造を理解する必要がある。そのため、さまざまなタイプのデータを組み合わせた分析と解釈を行えるように、バイオインフォマティクスの分野は進化してきた。これには、塩基およびアミノ酸配列の他、タンパク質ドメインやタンパク質構造が含まれる。
データを分析および解釈する実際のプロセスは、計算生物学と呼ばれる。バイオインフォマティクスおよび計算生物学の重要な研究目標の一つに、大規模なデータセットにおいてメンバー間の関係を評価する新しいアルゴリズムと統計的尺度の開発がある。例えば、ゲノム配列内から遺伝子領域を予測したり、タンパク質の構造や機能を予測したり、タンパク質配列を関連配列のファミリーにクラスター化する方法など、に関する研究が進められている。また、さまざまな種類の生物学的情報リソースを整理し、管理し、効率的なアクセスと利用を可能にするコンピュータプログラムやシステムの開発と実装も、また重要な課題である。すなわちバイオインフォマティクスでは、データベースの作成と進歩、アルゴリズム、計算技術と統計技術、そして生物学的データの管理と分析から生じる形式的で実用的な問題を解決するための理論、が必要とされている。
過去数十年にわたり、ゲノムおよびその他の分子研究技術の急速な発展と情報技術の発展が相まって、分子生物学に関連する膨大な量の情報が生み出されている。バイオインフォマティクスは、生物学的プロセスの理解を深めるために使用されるこれらの数学的および計算機科学的なアプローチを表す言葉でもある。
関連分野との関係性
バイオインフォマティクスは生物計算機学(biological computation)と一見似ているが、これは異なる科学分野である。生物計算機学は生物工学と生物学を使用して生物学的なコンピュータを設計することが主眼であるが、バイオインフォマティクスは逆にコンピュータを用いた計算を使用して生物学をよりよく理解することが主眼である。バイオインフォマティクスと生物計算機学の分野には共に、生物学的データ、特にDNA、RNA、タンパク質配列の分析が含まれる。
生物学的データを分析して意味のある情報を生成するには、グラフ理論、人工知能、ソフトコンピューティング、データマイニング、画像処理、コンピューターシミュレーション、等のアルゴリズムを使用するソフトウェアプログラム実行し、また必要に応じて作成する必要がある。またこのようなアルゴリズムは、離散数学、制御理論、システム理論、情報理論、統計などの理論的基盤に依存する。
配列解析
ファージの一種であるPhage Φ-X174が1977年に配列決定されて以来、数千の生物のDNA配列が解読され、データベースに保存されている。この配列情報は、タンパク質、RNA遺伝子、調節配列、構造モチーフ、反復配列をコードする遺伝子を決定するために分析されている。例えば、種内や種間で遺伝子配列を比較することで、タンパク質機能間の類似性を評価したり、あるいは系統樹を構築することで種間の分子系統学的関係を示すことができる。 データ量の増加に伴い、DNA配列を手作業で分析することはすでに非現実的である。今日ではBLASTなどの相同性検索を行うコンピュータプログラムを用いて、例えばGenBankに登録された1600億以上のヌクレオチドを含む260,000を超える生物から配列を検索することが日常的に行われている(数字は2008年のもの)。これらのプログラムは、DNAシーケンスの変異(塩基の置換、欠失、挿入など)を補正して、類似するが同一ではない配列を検索できる。検索結果は、クローニングした遺伝子の部分情報から遺伝子全体の配列を予測したり、構造が未知のタンパク質の二次構造を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するなどの研究の基盤となる。また配列情報から由来する生物種の系統学的分類を推定するという問題を解くために、Krakenのような最新の k-merベースのソフトウェアも作成されており、アライメント手法では到達できない実行高速性を実現している。
DNAシーケンサーからの出力データの解析
DNAシーケンサーから出力される生データには多量のノイズや弱信号が含まれており、下流の解析に悪影響を与える可能性がある。さまざまな実験プロトコルや環境におけるDNAシーケンシングデータからの塩基決定(ベースコール)を行うアルゴリズムが開発されている。
アセンブリ
多くのDNAシーケンス技術は、短い配列フラグメントを生成する。そのため、完全な遺伝子や全ゲノム配列を取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。ヒトゲノム計画では、ある配列断片から順番に配列を解読する手法が考えられていたが、クレイグ・ベンターらによるショットガン法により遥かに高効率で解読が進められるようになった。いわゆるショットガンシーケンステクニック(たとえば、Institute for Genomic Research (TIGR)による最初の細菌ゲノムHaemophilus influenzaeのゲノム決定でも使用された)は、ゲノム配列をバラバラな短い断片に分断してそれぞれを解読し(シーケンシング技術に応じて、35〜900ヌクレオチド長)、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる(配列アセンブリング)。しかしながら、多くの断片がある中で正しい並び方を決定することはコンピュータの計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度のゲノムの場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。
アノテーション
ゲノミクスの文脈においてアノテーションとは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため、手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。
包括的なゲノムアノテーションシステムは、自由生活生物である細菌Haemophilus influenzaeのゲノムの最初の完全な配列決定と分析を行ったThe Institute for Genomic Researchのチームによって、1995年に初めて報告された。Owen Whiteは、タンパク質をコードするすべての遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した。 現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えばHaemophilus influenzaeでタンパク質をコードする遺伝子を見つけるために使用されたGeneMarkプログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。
ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、アメリカ国立衛生研究所内の国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。このプロジェクトでは、次世代DNAシーケンス技術とゲノムタイリングアレイを使用して、ヒトゲノムの機能的な要素に関するデータを共同でコレクションすることが行われた。次世代シーケンシング技術は、塩基あたりのコストを大幅に削減して大量のデータを生成できる技術であり、しかも従来と同じ誤差精度(ベースコールエラー)と信頼性度(アセンブリエラー)を持っていることが特徴である。
計算進化生物学
進化生物学とは、種の起源と分化、そして系統の経時的な変化を明らかにする学問分野である。バイオインフォマティクスは進化生物学分野においても重要な役割を果たしている。
- 形態に基づく物理的な分類法や生理学的・生態学的観察のみではなく、ゲノム配列の変化を測定することにより、遺伝学的なアプローチから生物の進化を追跡することができる。
- ゲノム全体を比較解析が可能となる。これにより例えば、遺伝子の重複や遺伝子の水平伝達、細菌の種分化に重要な因子の予測など、より複雑な進化的事象の研究が可能になる。
- 複雑な計算集団遺伝学モデルを構築して、経時的なシステムの結果をシミュレーション予測する研究も進められている。
- 従来よりもより多数の生物種や系統において、進化学に関する情報を得ることができ、その結果を研究者間で広く共有することができる。
より複雑な課題としては、生命の木を再構築する研究も進められている。
なお、遺伝的アルゴリズムを使用するコンピューターサイエンスの研究領域は、計算進化生物学と混同されることがあるが、この2つの領域は必ずしも関連しているわけではない。
比較ゲノム解析
比較ゲノム解析の目的の一つは、異なる生物における遺伝子(オルソログ遺伝子)や他のゲノム上の特徴の対応関係を明らかにすることである。また例えば、2つのゲノムが系統上で分岐した際の進化過程は、両ゲノム間の対応関係を取ることで、例えばどのゲノム領域が欠失したり重複したのかを明らかにし、進化過程を追跡することができる。 現実的には、様々な組織レベルで作用する多数の進化イベントが組み合わさって、ゲノム進化が形作られる。最も最小レベルでの変化は、個々のヌクレオチドが影響してくる点変異である。一方でより高いレベルでは、大きな染色体セグメントが複製、移動、逆位、転位、欠失、および挿入を受けることがある。最も大きなレベルでは、ゲノム全体のハイブリダイゼーションや倍数化、そして細胞内共生過程といったイベントに関与し、しばしば急速な種分化を引き起こす。このようなゲノム進化の複雑さは、数学モデルやアルゴリズム開発を行う上でもチャレンジングな課題となっている。そのため、正確なヒューリスティックやパラメーター固定、節約モデルに基づく問題の近似アルゴリズムや、確率モデルに基づくベイズ分析のためのマルコフチェーンモンテカルロアルゴリズムの利用に至るまで、アルゴリズム、統計、および数学的な様々な手法の利用が研究されている。これらの研究の多くにおいては、事前に遺伝子配列を配列相同性に基づいてタンパク質ファミリーに割り当てている。
メタゲノム解析
環境中には多様で大量の原核微生物系統が生息しており、その生理生態を理解することは、地球上の物質循環やその環境における生態系を理解する上で重要である。そのためには、どのような生理学的機能を持つ微生物が、どのような割合でそこに存在するのか、を理解することが必要である。メタゲノム解析は、環境中に存在する細菌叢サンプルからゲノムDNAを直接回収し、主にショットガンシーケンスを行ってバイオインフォマティクス解析を行うことで、それらに関して解析する、微生物学・ウイルス学の研究分野である。
パンゲノム解析
パンゲノム解析(Pac Genomics)は2005年にTettelinとMediniによって導入された概念であり、特定の分類群において保持されている遺伝子の網羅的な遺伝子レパートリーを表す。最初は種レベルの近縁系統に適用されましたが、属や門といったより大きな分類群にも適用できる。パンゲノムはコアゲノムとフレキシブルゲノムの2つの群から構成されている。コアゲノムは全ゲノムに共通した遺伝子セットを指し、多くの場合、これらの遺伝子は生存に不可欠なハウスキーピング遺伝子である。一方でフレキシブルゲノム(Dispensable / Flexible Genome)は、1つ以上のゲノムにおいて存在しない一連の遺伝子を指す。例えばバイオインフォマティクスツールであるBPGAを使用して、細菌種のパンゲノムを特徴付けることができる。
遺伝的疾患
次世代シーケンシングの登場により、不妊症 や乳がん、アルツハイマー病といった複雑な遺伝性疾患の関連遺伝子をマッピングする研究が進められている。ゲノムワイド関連研究(GWAS)は、このような複雑な疾患の原因となる変異を特定するための有用なアプローチである。これらの研究により、類似の疾患や形質に関連する何千ものDNA変異体が特定されている。さらに、遺伝子情報を予後の推定や診断、治療方針の決定に利用するための研究も進められている。そのために、使用する遺伝子を選択する手法や、疾患の存在または予後を予測するために遺伝子を使用することの問題点の両方について、多くの研究において議論がすすめられている。
癌細胞の変異解析
悪性腫瘍(癌)においては、癌細胞のゲノムは非常に複雑(予測不可能)な形で組み換えが起きることが知られている。大規模なシーケンシング研究により、癌細胞に見られるさまざまな遺伝子上の点突然変異の特定が進められてきた。このような研究においては、膨大な量の配列データを管理するための専用の自動化システムや新しいアルゴリズムとソフトウェアの作成を通じて、シーケンシングの結果をヒトゲノム配列や生殖系列多型のコレクションと比較するバイオインフォマティクス解析が進められている。また、染色体の増減を比較するオリゴヌクレオチドマイクロアレイ( 比較ゲノムハイブリダイゼーション)や、既知の点変異を検出する一塩基多型アレイなど、新しい物理的検出技術が採用されています。 これらの検出方法は、ゲノム全体で数十万のサイトを同時に測定することができ、ハイスループットで数千のサンプルを測定する場合、実験ごとに数テラバイトものデータを生成する。そのため、この膨大なデータ量を処理するための新しい手法に関する研究も進められている。また、データにはかなりの変動性またはノイズが含まれているため、実際のコピー数の変化を推測するために、隠れマルコフモデルに基づく変化点分析法が開発されている。また、エクソソームの突然変異の同定では、癌は遺伝子に蓄積された体細胞変異の疾患であり、がんには疾患発症に関係する(ドライバー)変異と無関係な(パッセンジャー)変異の区別される2種類が含まれている、という2つの重要な原則があり、生物情報学的解析を行う上でも重要になっている。
シーケンシング技術のさらなる進歩により、癌のゲノミクスは劇的に変化する可能性がある。新しい方法とソフトウェアにより、より多くの癌ゲノムをより迅速かつ手頃な価格でシーケンスできるようになれば、がんによるゲノム内変異の分析とがんの種類の分類がさらに発展する可能性がある。さらに、癌サンプルのシーケンスからがんの進行状況を追跡できるようになる可能性も指摘されている。
遺伝子とタンパク質の発現
遺伝子発現解析
多くの場合、遺伝子の発現はマイクロアレイ、発現cDNAシーケンスタグ(expressed cDNA sequence tag; EST)シーケンス、遺伝子発現連続分析(serial analysis of gene expression; SAGE)タグシーケンス、超並列シグネチャシーケンス (massively parallel signature sequencing; MPSS)、RNA-Seq(またはWhole Transcriptome Shotgun Sequencing; WTSS)、マルチプレックスin-situハイブリダイゼーション、などの手法でmRNAレベルを測定することで決定する。これらの手法はすべて、ノイズが非常に発生しやすく、生物学的な測定バイアスがかかってくるため、ハイスループットの遺伝子発現研究においてこのようなノイズを除去して信頼できる信号を分離する統計ツールの開発が計算生物学の研究分野で重要になっている。このような遺伝子発現研究は、疾患に関与する遺伝子を特定するためによく使用される。例えば癌性上皮細胞のマイクロアレイデータを非癌性細胞のデータと比較して、特定の癌細胞集団で発現上昇あるいは発現抑制される転写産物を決定することができる。
タンパク質発現解析
タンパク質マイクロアレイとハイスループット(HT)質量分析(mass spectrometry; MS)は、生体サンプルに存在するタンパク質のスナップショットを提供する。得られるタンパク質マイクロアレイとHTMSデータの解析には、バイオインフォマティクスは重要である。前者のアプローチはmRNAをターゲットとするマイクロアレイと同様の問題に直面し、後者は大量の質量データをタンパク質配列データベースからの予測質量と照合し、不完全なペプチドを除くための複雑な統計分析が必要になる。組織における細胞タンパク質の空間局在は、免疫染色や組織マイクロアレイに基づいたアフィニティプロテオミクスによって解析することができる。
転写調節解析
遺伝子転写調節は、ホルモンなどを含む細胞内外のシグナルによって、1つ以上のタンパク質の活性の増加・減少が駆動される、複雑な調節システムである。 このプロセスの各ステップを検証する、様々なバイオインフォマティクス技術が適用されている。たとえば、遺伝子発現は プロモーターのような、ゲノム内で遺伝子に近接した要素によって調節される。プロモーター分析ではまず、遺伝子コード領域に近接しているDNA配列中から、特定の配列モチーフを検出する。 これらのモチーフは、その領域がmRNAに転写される際に影響を与える。一方で、プロモーターから離れたエンハンサー要素は、3次元的な相互作用を通じて遺伝子発現を調節することもある。このような相互作用は、染色体コンフォメーションキャプチャ(Hi-C)法による実験と得られたデータのバイオインフォマティクス解析から決定される。
また、遺伝子発現データから、遺伝子転写調節の要因を推測する研究もある。さまざまな状態の組織から得られたマイクロアレイデータを比較して、各状態に関与する遺伝子の挙動を推測することができる。例えば単細胞生物では、細胞周期の段階におけるストレス条件(熱ショック、飢餓など)を比較できる。 あるいはクラスタリングアルゴリズムを発現データに適用することで、遺伝子の共発現を解析できる。たとえば、共発現する遺伝子の上流領域(プロモーター)を探索することで、過剰発現を引き起こす調節要素を調べることができる。遺伝子クラスタリングに適用されるクラスタリングアルゴリズムの例には、k平均クラスタリング、自己組織化マップ (SOM)、階層的クラスタリング、コンセンサスクラスタリング、などの手法がある。
細胞組織の解析
細胞内のオルガネラや遺伝子、タンパク質、およびその他のコンポーネントの位置を分析するために、様々なアプローチが開発されている。これらのコンポーネントの位置は細胞内のイベントに影響を与えるため、その分布や局在を調べることは生物系の挙動を予測するのに役立つ。遺伝子オントロジーのカテゴリーである「細胞コンパートメント(cellular compartment)」は、細胞内局在を捉えるために考案され、多くの生物学的データベースで採用されている。
顕微鏡イメージング解析
顕微鏡写真から、オルガネラや分子を検出することができる。また、がんなどの異常な細胞と正常細胞を区別することにも利用される。
タンパク質の局在
タンパク質の局在化は、そのタンパク質の役割を評価するのに役立つ。たとえば、タンパク質が核で見つかった場合、それは遺伝子調節やスプライシングに関与している可能性がある。対照的に、タンパク質がミトコンドリアで見つかった場合、それは呼吸や他の代謝プロセスに関与している可能性がある。したがって、タンパク質の局在化は、タンパク質機能を予測する上で重要な情報源となる。タンパク質の細胞内位置に関するデータベースや予測ツールといったリソースが構築されている。
染色体における核酸立体構造
Hi-CやChIA-PETなどのハイスループット染色体コンフォメーションキャプチャー実験からのデータは、DNA遺伝子座の空間的近接性、すなわち核内で安定的に構造化されている立体的な折りたたみ構造によって、ゲノム配列上のどことどこの領域が近接して存在しているのか、に関する情報を提供する。そのためこれらの実験の分析から、クロマチンの三次元構造を決定することができると考えられる。ゲノムを3次元空間でまとめて構成されたトポロジカル関連ドメイン (TAD)といったドメイン分割に関する研究が、この分野のバイオインフォマティクスの課題となっている。
構造生物学
タンパク質のアミノ酸配列からその高次(2次、3次、及び4次)構造を予測することは、バイオインフォマティクスの大きな課題の一つである。タンパク質のアミノ酸配列(一次構造)は、それをコードする遺伝子の配列情報から、比較的簡単に決定できる。そして多くの場合、この1次構造は実際の細胞内における高次構造を一意に決定する。つまり、同じアミノ酸配列を持つタンパク質はずべて同じように細胞内でコンフォメーションをとて折りたたまれ、同じ2次構造や3次構造を立体構造を作り出す、ということである(ただし例外としては、牛海綿状脳症 (狂牛病)を引き起こすプリオンなどがある)。高次構造の知識は、タンパク質の機能を理解する上で不可欠である。しかしながら、一次配列からそのような高次構造を予測する一般的な手法は無く、未解決の問題となっている。現在までの多くのこれに関する研究は、ほとんどの場合、ヒューリスティックに焦点が向けられてきた。
バイオインフォマティクスの重要なアイデアの1つは、「配列類似性」の概念である。バイオインフォマティクスのゲノム解析では、配列の類似性を利用して、その遺伝子の機能を予測する。具体的には、例えば機能がわかっている遺伝子Aの配列が、機能が不明な遺伝子Bの配列とある程度類似している場合、BがAの機能を共有することが予想される。バイオインフォマティクスの構造分野では、この配列類似性を使用して、タンパク質のどの部分が構造を作り、どの部分が他のタンパク質との相互作用に重要であるか、等を推測する。ホモロジーモデリングと呼ばれる手法では、配列的に類似なタンパク質の構造がわかっていれば、その情報を使用して任意のタンパク質の高次構造を予測する。この手法は、タンパク質構造を予測する有用な手法の一つである。この手法が効果的な例の一つは、ヒトのヘモグロビンと豆類のヘモグロビン(レグヘモグロビン)である。これらは同じタンパク質スーパーファミリーではあるが、遠い親戚関係のタンパク質である。どちらも生体内で酸素を輸送するという同じ目的を果たし、両者で完全に異なるアミノ酸配列を持っているが、構造的には実質的に同一であるため、ほぼ同一の目的を持り、かつ同一の祖先を共有していると考えられている。
タンパク質構造を予測するための他の手法としては、タンパク質のスレッディングや、物理学ベースでゼロからモデリングを行うde novoの手法が提案されている。
構造バイオインフォマティクスの別の側面としては、定量的な構造と活性の相関に関するモデルや、タンパク化学モデル(proteochemometric models; PCM)といった、仮想スクリーニングモデルへ利用することが挙げられる。さらに、タンパク質の結晶構造は、例えばリガンド結合研究のシミュレーションやインシリコ変異誘発研究に利用されている。
ネットワークとシステムバイオロジー
ネットワーク分析は、代謝ネットワークやタンパク質間相互作用ネットワークなどの生物学的ネットワークの関係を理解することを目的としている。生物学的ネットワークは単一のタイプの分子またはエンティティ(遺伝子など)から構築される。また、ネットワーク生物学においてはしばしば、タンパク質や小分子、遺伝子発現データなど、物理的・機能的に関連する様々な異なるデータタイプを統合的に解析することがある。
システム生物学では、細胞内における複雑なプロセスの関係性を分析し視覚化するために、代謝プロセスを担う代謝産物や酵素のネットワークやシグナル伝達経路、遺伝子調節ネットワークといった細胞システムをコンピューターシミュレーションを用いて解析する研究が進められている。人工生命や仮想進化といった単純な(人工)生命体のコンピューターシミュレーションを介して、進化の過程を理解する試みもなされている。
分子相互作用ネットワーク
2020年現在、数万を超えるタンパク質について、X線結晶学およびタンパク質核磁気共鳴分光法(タンパク質NMR)によって3次元構造が決定されている。構造バイオインフォマティクスの分野において、タンパク質間相互作用実験を行わずにこの3次元立体構造の情報からタンパク質間相互作用を予測することは、大きな課題となっている。タンパク質ドッキングを推測するさまざまな手法が開発され提唱されている。
また、タンパク質同士の相互作用を超えて、例えばタンパク質-リガンド(薬物を含む)やタンパク質-ペプチドの相互作用を予測することも重要な課題である。原子結合の回転を考慮した分子動力学シミュレーション(Molecular dynamic simulation)も広く行われており、これは分子相互作用を研究するためのドッキングアルゴリズムと呼ばれる計算アルゴリズムが基本原理となっている。
テキスト解析
今日までに、膨大な数の学術論文が発表されてきており、その数はますます増加している。そのため、すべての論文を読むことは事実上不可能であり、研究の領域は細分化されていく傾向がある。計算言語学による文献分析では、計算と統計に基づく言語学的解析を通じて、増大するテキストリソースからマイニングすることを目的としている。例えば、略語認識(生物学用語の正式名称とその略語を特定する)、名前付きエンティティの認識(遺伝子名などの生物学的用語を認識して特定する)、タンパク質間相互作用(どのタンパク質がどのタンパク質と相互作用するかをテキストから特定する)、などに関して研究が進められている。
画像・動画解析
大量の情報量の多い生物医学画像の処理や定量化、分析を加速または完全に自動化するために計算技術を利用する研究も進められている。画像解析システムにおいては、大規模で複雑な画像セットから測定を行うための精度や客観性、そして処理速度の向上が重要になってくる。理想的には、分析システムの発達により、様々なケースにおいて人が画像や動画の判断をする必要がなくなる。このような画像処理システム自体は生物医学分野に固有のものではないが、例えば疾患の診断や研究においてはそれらの分野に特化した画像解析技術が重要になる。具体的な応用分野としては、以下のものが挙げられる。
- ハイスループットで高精度な細胞内局在の定量化(ハイコンテンツスクリーニング、細胞組織病理学、バイオイメージ情報学)
- 形態計測学
- 臨床画像の分析と視覚化
- 生きている動物が呼吸する際、肺のリアルタイムの気流パターンを決定する
- 実験動物の拡張ビデオ録画から行動観察を行う
- 代謝活性測定のための赤外線測定
- DNAマッピングにおけるクローンの重複の推測(たとえばSulstonスコア)
バイオインフォマティクスとコンピュータ
プログラミング言語
バイオインフォマティクス研究には、それぞれの目的に応じたプログラムの作成が欠かせない。プログラミング言語としては一般的な科学分野と同じように、いわゆる「重い」計算(タンパク質の二次構造、三次構造の予測——タンパク質構造予測などはその一例)を行なうときにはC等の比較的低レベルな処理を書ける高級言語も用いられるが、塩基配列と言う巨大な「文字列」を扱う局面が多いため、テキスト処理を得意とする言語であるPerlの利用が盛んである。
Perlは、正規表現等の強力な文字列処理機能を持っているため配列解析に有効なだけでなく、プログラミングのトレーニングを積んでいないことが多い生物学出身の研究者にも比較的容易に習得できるという長所を有する。更に、早い時期から生物学的データの加工に用いることのできるbioperlなどのライブラリが整備されたため、いっそう有用となった。ある配列の公開配列データベース(NCBI GenBank など)からの取得、GenBankフォーマットやEMBLフォーマットで記述されたファイルからの情報抽出、BLASTの自動化等はきわめて容易に行える環境が整っている。
研究用プログラムの開発に使われる言語としては他に以下のようなものがあげられる。これらの殆どにそれぞれバイオインフォマティクス用のライブラリが開発されている。
- C++ - C言語を元に新しいプログラミングパラダイムを取り入れて開発された言語。
- Java - オブジェクト指向および仮想マシンという概念を取り入れた言語である。BioJava というパッケージが存在する。
- Perl - 汎用インタプリタ言語である。BioPerl というパッケージが存在する。
- Python - 汎用インタプリタ言語である。BioPython というパッケージが存在する。
- Ruby - Javaと同じくオブジェクト指向プログラミング言語である。BioRuby というパッケージが存在する。
- R言語 - オブジェクト指向の数値解析言語。行列処理・文字列処理・グラフ機能に優れたフリーソフトウェア。FDA公認。CRANシステムで日々機能強化され、Bioconductor ネットワークにパッケージが集約されている。
データベース
データベースは、バイオインフォマティクスの研究と応用に不可欠である。DNAやタンパク質の配列、分子構造、表現型、生物多様性など、さまざまな情報タイプをカバーする多くのデータベースが構築されている。データベースには、実験的に取得される実験データと、分析から取得される予測データの片方または両方が含まれる。データベースはしばしば、特定の生物や代謝経路、目的分子に特化して構築される。また一方で、他の複数のデータベースからコンパイルされたデータを組み込むこともある。バイオインフォマティクスで扱うデータは、一次元の文字列(シーケンス全般)から、三次元構造のマトリクス (PDB)、計算機科学におけるグラフ(ネットワークデータ全般)、遺伝子オントロジーのような有向非巡回グラフ (DAG; directed acyclic graph) といった非常に多岐にわたるデータ構造を持つ。各種のデータベースは、ファイル形式やアクセスメカニズム、パブリックかどうか、などの様々な点で差異がある。生物学研究に用いられる主なデータベースは、以下のようなものが挙げられる(カッコ内は具体例):
- 配列データベース(DDBJ, EMBL, GenBank[1], Swiss-Prot[2])
- 立体構造データベース(PDB[3])
- パスウェイ・ネットワークデータベース(KEGG[4], BIND)
- マイクロアレイデータベース (ArrayExpress, GEO)
- 文献データベース(MEDLINE/PubMed[5])
- オントロジーデータベース(遺伝子オントロジー)
データはフラットファイル(一般的なテキストファイル)に比較的単純な形で保存されているケースも多いが、研究が本格化してデータ量が増大してくると、より効率的な利用を図るために関係データベース管理システム (RDBMS) やXMLなどを利用したより高度な管理が図られることが多い。生物学の研究においては、複数の公共データベースからのデータを使ったデータマイニングが非常に重要度を増しているため、データの相互利用と言う観点からも、XML、Webサービスなどの標準的技術の利用は今後も進んで行くと思われる。この考えを更に進め、セマンティック・ウェブ関連の技術(RDFやOWLなど)を利用した、コンピュータによるデータの相互利用を模索する動きもあり、BioPax プロジェクトなどはその一例である。
ソフトウェア
バイオインフォマティクス用のソフトウェアツール(英語版:Software tools for bioinformatics)は、単純なコマンドラインツールから、さまざまなバイオインフォマティクス企業や公的機関が提供するより複雑なグラフィカルプログラム、スタンドアロンのWebサービスなど、多岐に渡り、非常に多くのバイオインフォマティクスソフトウェアが開発され公開されている。多くのソフトウェアがオープンソースとされており、研究者は自由に利用することができる場合が多いが、有償のものもある。データベースを基盤とするソフトウェアは、開発元がWebブラウザから利用できるウェブアプリケーションとして公開している場合も多い。
オープンソースのバイオインフォマティクスソフトウェア
1980年代にバイオインフォマティクスが盛り上がって以来、多くのフリーでオープンソースのソフトウェアツールが開発され公開されている。新しいタイプの生物学的な成果を生み出すためには、新しいアルゴリズムを開発することが必要になることも多い。一方で、革新的なin silico実験から新たな知見を得られる可能性もある。そのため、ソフトウェアを自由に利用できるオープンコードで無料で公開することで、あらゆる研究グループがバイオインフォマティクスに貢献する文化が育まれている。オープンソースツールは、アイデアを生み出し育む器として機能し、商業的アプリケーションに組み込まれることもある。また、生体情報統合の課題を支援するための、事実上の標準化や共有オブジェクトモデルを提供することもある。
オープンソース・ソフトウェア・パッケージには、Bioconductor、BioPerl、Biopython、BioJava、BioJS、BioRuby、Bioclipse、EMBOSS、.NET Bio、Orange、Apache Taverna、UGENE、GenoCAD、などのソフトウェア類が挙げられる。また、この伝統を維持し、さらなる機会を創出するために、非営利のOpen Bioinformatics Foundation は、2000年以来毎年開催されるBioinformatics Open Source Conference(BOSC)を支援してきている。
パブリックなバイオインフォマティクスデータベースを構築する方法としては、WikiOpener拡張機能を備えたMediaWikiエンジンを使用する方法もある。このシステムでは、その分野の研究者が各自でデータベースにアクセスして更新することができる。
バイオインフォマティクスのWebサービス
SOAPおよびRESTベースのインターフェースが、さまざまなバイオインフォマティクスアプリケーション向けに開発されている。このようなシステムの元では、サーバー上に保管されているアルゴリズムやデータ、コンピューティングリソースに対して、世界中のコンピューター上からアクセスしてアプリケーションを実行することができる。エンドユーザーがソフトウェアやデータベースのメンテナンスのオーバーヘッドに対処する必要がないという利点がある。
基本的なバイオインフォマティクスサービスは、EBIによる3つのカテゴリに分類できる。シーケンス検索サービス(SSS)、シーケンスアライメント(MSA)、生物学的シーケンス分析(BSA)である。 これらのバイオインフォマティクスリソースの可用性は、Webベースのバイオインフォマティクスソリューションの適用性の広さを示している、このようなWebサービスは、スタンドアロンの各種ツール類から、統合型の分散型で拡張可能なバイオインフォマティクスのワークフロー管理システム(bioinformatics workflow management systems)まで、幅広く存在する。
バイオインフォマティクスワークフロー管理システム
バイオインフォマティクスワークフロー管理システムは、バイオインフォマティクスアプリケーションにおける一連の計算やデータ操作のステップ、つまりワークフローを構成し実行するために設計された、ワークフロー管理システムの特殊な形式である。下記の様な特徴があり、例としてはGalaxy、Kepler、Taverna、UGENE、Anduril、HIVEなどが挙げられる。
- 個々のアプリケーションサイエンティスト自身が独自のワークフローを作成するための、使いやすい環境を提供する。
- 科学者がワークフローを実行して結果をリアルタイムで表示できるようにする、インタラクティブなツールを科学者に提供する
- 科学者間のワークフローの共有と再利用のプロセスを簡素化する
- 科学者がワークフロー実行結果の出所とワークフロー作成ステップを追跡できるようにする。
BioCompute
2014年に米国食品医薬品局は、バイオインフォマティクスの再現性について議論する会議を主催し、国立衛生研究所のベセスダキャンパスで開催された。それから3年間に渡り、政府、業界、および学術団体の代表によるコンソーシアムが定期的に開かれ、BioComputeパラダイムについて話し合いが行われた。セッションリーダーは、FDAとNIHの研究所とセンターの多数の支部、Human Variome ProjectやEuropean Medical Federation for Medical Informaticsなどの非営利団体、Stanford、New York Genome Center、George Washington Universityなどの研究機関の代表であった。
この会議によりBioComputeは、バイオインフォマティクスプロトコルの再現性、複製、レビュー、再利用を可能にするデジタル「ラボノートブック」形式のパラダイムを決定した。これは、グループ間のアイデアの交換を促進しながら、通常の人員流動の過程で研究グループ内のより大きな継続性を可能にするために提案されて。
2016年、グループはベセスダのNIHで再招集し、BioComputeパラダイムの例であるBioComputeオブジェクトの可能性について議論をすすめた。 この成果は、'standard trial use'ドキュメントとbioRxivにアップロードされたプレプリント論文として発表された。BioComputeオブジェクトを使用すると、JSON化されたレコードを従業員、共同編集者、規制当局間で共有することができる。
教育プラットフォーム
バイオインフォマティクスの概念と方法を教育するために、様々なプラットフォームが設計されている。たとえば、スイスのバイオインフォマティクス研究所トレーニングポータルを通じて提供される ROSALIND のオンラインコースが挙げられる。カナダのバイオインフォマティクスワークショップは、クリエイティブ・コモンズライセンスに基づいて、ウェブサイトのトレーニングワークショップのビデオとスライドを提供している。 4273πプロジェクト または4273piプロジェクト も、オープンソースの教育資料を無料で提供している。 このコースは低コストのRaspberry Piコンピュータを利用し、大人や学校の生徒を教えるために使用されている。4273πは、Raspberry Piコンピューターと4273πオペレーティングシステムを使用して、研究レベルのバイオインフォマティクスを利用している研究者や研究スタッフによるコンソーシアムによって積極的に開発されている。
学会・国際会議
バイオインフォマティクス分野の国内学会および国際学会として、日本バイオインフォマティクス学会およびInternational Society for Computational Biologyがある。
また国際会議として、Intelligent Systems for Molecular Biology (ISMB)、European Conference on Computational Biology (ECCB)、Research in Computational Molecular Biology (RECOMB)、International Conference on Genome Informatics (GIW)などがある。
引用文献
関連項目
- 生物学
- システム生物学
- 生物物理学
- ゲノミクス
- メタゲノミクス
- ケモインフォマティクス
- シーケンスアラインメント
- 日本バイオインフォマティクス学会
- バイオインフォマティクス分野の科学論文雑誌のリスト
- バイオインフォマティクスに関連する機関の一覧
- オープンソースのバイオインフォマティックスソフトウェアの一覧
- en:FM-index
外部リンク
日本の関連学会
外部リンク
- ゲノムネット
- DDBJ 日本DNAデータバンク
- PDBj 日本蛋白質構造データバンク
- バイオサイエンスデータベースセンター(NBDC;National Bioscience Database Center)
- 文部科学省開発研究事業「統合データベースプロジェクト」のポータルサイト
- 統合TV
- bioinformatics
- Workshop Data Structures in Bioinformatics
対象生物学 | ||
---|---|---|
生理・生化学 | ||
細胞・組織学 | ||
ゲノム・遺伝学 | ||
進化生物学 | ||
生態学 | ||
応用・学際領域 | ||