Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

AlphaFold

Подписчиков: 0, рейтинг: 0

AlphaFold(アルファフォールド)は、タンパク質の構造予測を実行するGoogleDeepMindによって開発された人工知能プログラムである。このプログラムは、タンパク質の折り畳み構造を原子の幅に合わせて予測する深層学習システムとして設計されている。

AIソフトウェア「AlphaFold」は、2つの主要バージョンで注目されている。研究者チームはAlphaFold 1 (2018年) を使用して、2018年12月に開催された「第13回 タンパク質構造予測精密評価 (CASP)」の総合ランキングで1位を獲得した。このプログラムは、部分的に類似した配列を持つタンパク質から既存のテンプレート構造が利用できない、競技会主催者によって最も難しいと評価されたターゲットの最も正確な構造を予測することに特に成功した。チームは、AlphaFold 2 (2020年) を使用して、2020年11月のCASPコンテストに参加した。チームは、他のどのグループよりもはるかに高い精度を達成した。このプログラムは、CASPのグローバル距離テスト (GDT) において、約3分の2のタンパク質について90以上のスコアを獲得した。これは計算プログラムが予測した構造がラボ実験で決定された構造と類似している度合いを測定するテストで、GDTの計算に使用される距離のカットオフの範囲内で100が完全な一致である。

CASPでのAlphaFold 2の結果は「驚異的」であり、変革的なものであると評された。一部の研究者は、AlphaFoldチームが独立した検証と再実装のためにこの手法を公開していないことを批判し、その成功の理由を理解する必要があると指摘している。それにもかかわらず、この技術的な成果は広く敬意が払われてきた。

2021年6月18日 (2021-06-18)現在、DeepMindのCEOデミス・ハサビスは、AlphaFold 2を説明するために、完全な手法を説明した論文が書き上げられ、公開前のピア・レビューが行われていると発表した。論文にはオープンソースのコードが付属し、「科学コミュニティのためのAlphaFoldへの幅広いフリーアクセス」ができるようになる予定である。

タンパク質の折りたたみ問題

three individual polypeptide chains at different levels of folding and a cluster of chains
ポリペプチドと呼ばれるアミノ酸群は、折りたたまれまれてタンパク質を形成する。

タンパク質アミノ酸の鎖で構成されており、タンパク質の折り畳みと呼ばれる過程で自発的に折り畳まれ、生物学的に重要な天然状態三次元構造を形成している。DNA配列には、これらのアミノ酸の配列に関する基本的な情報が含まれているが、タンパク質の折り畳みや構造に関する情報は、DNA配列から直接予測することのできない物理的なプロセスによって決定される。科学者たちは、タンパク質が折り畳まれる標的構造を決定するために、X線結晶構造解析低温電子顕微鏡核磁気共鳴などの実験技術に注目しているが、これらの技術は高価で時間がかかる。生命体全体では2億以上のタンパク質が知られているが、このような努力により、過去60年間で約17万個のタンパク質の構造が同定された。タンパク質の構造を予測するための計算手法は数多く存在するが、その精度は実験手法には及ばず、その価値は限られている。

アルゴリズム

AlphaFoldの2020年度版についての論文は2021年7月15日にNature誌から発表された。そのアルゴリズムはSupplementary Fileに非常に詳細に記述されている。さらに、その構造推論部分のPythonでの実装コードが同時にGitHubにて公開された。DeepMindは、タンパク質の配列と構造の公開リポジトリから17万以上のタンパク質を対象にプログラムを訓練したことで知られている。このプログラムでは、注意ネットワークの一形態を利用しており、AIアルゴリズムに大きな問題の一部を解かせ、それを部品にして全体的な解決策を得ることに焦点を当てた深層学習手法である。全体的なトレーニングは、100~200 GPUの処理能力で行われた。このハードウェア上でシステムを訓練するのには「数週間」かかり、その後、プログラムが構造ごとに収束するまでには「数日」かかるという。

AlphaFold 1, 2018

AlphaFold 1 (2018) は、2010年代に様々なチームによって開発された研究を基にしたもので、現在利用可能な多くの異なる生物からの関連するDNA配列の大規模なバンク (ほとんどが3次元構造が知られていないもの) を調べ、残基が主鎖の中で連続していなくても、相関関係があると思われる異なる残基の変化を見つけようとした。このような相関関係は、配列上では近接していなくても、残基が物理的に互いに近接している可能性があることを示唆しており、接触マップを推定することができる。AlphaFold 1は、最近の研究を基に、これを拡張して、推論を開発するために以前よりも高度な学習方法を使用して、残基が接触マップを距離マップにどれだけ近づける可能性があるかについての確率分布を推定した。この確率分布に基づくポテンシャル(電位)と、計算による配置の局所的自由エネルギーを組み合わせることで、チームは勾配降下法を使用して両方に最適な解を導き出すことができた。

より技術的には、Torrisiらは、AlphaFoldバージョン1のアプローチを次のように要約した。

AlphaFoldの中心となるのは、2つの64アミノ酸フラグメントから計算された入力特徴に対応する次元64×64×128の表現を処理する220個の残差ブロック(英語: residual blocks)を持つ非常に深い残差ニューラルネットワークとして実装された距離マップ予測器である。各残差ブロックは、3×3の拡張畳み込み層を含む3つの層を持ち、ブロックは値1、2、4、8の拡張を繰り返す。モデルは合計で2100万個のパラメータを持っている。ネットワークは、異なるソースからの進化的プロファイルや共進化特徴(英語: co-evolution features)を含む、1次元と2次元の入力を組み合わせて使用する。距離の非常にきめ細いヒストグラム形式の距離マップとともに、AlphaFoldは、初期の予測3D構造を作成するために使用される各残基のΦとΨ角を予測する。AlphaFoldの著者は、モデルの深さ、その大きなクロップサイズ、約29,000個のタンパク質からなる大規模なトレーニングセット、最新の深層学習技術、そして予測された距離ヒストグラムから得られる情報の豊富さが、AlphaFoldが高い接触マップ予測精度を達成するのに役立っていると結論付けている。

AlphaFold 2, 2020

画像外部リンク
英語版AlphaFold記事のAlphaFold 2の設計ブロック図。この設計の中央には2つの注意ベース変換モジュールが見える。

DeepMindのチームによると、2020年度版(AlphaFold 2, 2020)は、2018年にCASP 13を受賞したオリジナルバージョン(AlphaFold 1)とは大きく異なるという。

チームは、パターン認識から導き出されたガイドポテンシャルと物理学に基づくエネルギーポテンシャルを組み合わせた以前のアプローチでは、主鎖に沿って離れた残基間の相互作用と比較して、配列内で近くにある残基間の相互作用を過剰に考慮する傾向があることを確認していた。その結果、AlphaFold 1では、現実のものよりもわずかに二次構造αヘリックスβシート)が多いモデルを好む傾向があった(過学習の一形態)。

AlphaFold 1で使用されたソフトウェア設計には、それぞれが別々に訓練された多数のモジュールが含まれ、それらはガイドポテンシャルを生成するために使用され、次に、物理学に基づいたエネルギーポテンシャルと結合されていた。AlphaFold 2では、これをパターン認識に完全に基づいた単一の微分可能なエンドツーエンドモデルに結合されたサブネットワークのシステムに置き換え、単一の統合構造として統合された方法で学習された。AMBERモデルに基づくエネルギー精密化の形での局所的物理は、ニューラルネットワークの予測が収束した後、最終的な精密化段階としてのみ適用され、予測された構造をわずかに調整するだけである。

2020システムの重要な部分は2つのモジュールであり、トランスフォーマー設計に基づいていると考えられている。これらのモジュールは、タンパク質のアミノ酸残基間の各関係(グラフ理論用語では「エッジ」) 、および入力配列アラインメントの各アミノ酸位置と各異なる配列との間の各関係について、情報のベクトルを段階的に洗練させるために使用される。内部的には、これらの詳細化変換(英語: refinement transformation)には、訓練データから学習したコンテキスト依存の方法で、関連するデータをまとめて、これらの関係に関連しないデータを除外する効果を持つ層を含んでいる (「注意メカニズム」)。これらの変換が反復され,ある段階で出力された更新情報が次の段階の入力となり,詳細化された残基/残基情報が残基/系列情報の更新に投入され,次に改善された残基/系列情報が残基/残基情報の更新に投入される。ある報告によると、反復が進むにつれて「注意アルゴリズムは、(人がジグソーパズルを組み立てる方法を模倣し)最初に小さな塊(この場合はアミノ酸のクラスター)でピースをつなぎ、その後、より大きな全体の塊に結合する方法を探す」。

これらの反復の出力は、次に最終的な構造予測モジュールに通知され、このモジュールはトランスフォーマを使用し、それ自体が反復される。DeepMindが提示した例では、構造予測モジュールは、最初の反復でターゲットタンパク質の正しいトポロジーを達成し、GDT-TSは78であるとスコア付けされたが、立体化学的な違反(物理的でない結合角や長さなど)が多数(90%)あった。その後の反復で、立体化学的な違反の数は減少した。3回目の反復で予測のGDT-TSは90に近づき、8回目の反復までに立体化学的な違反の数はゼロに近づいた。

2020年11月、AlphaFoldチームは、AlphaFoldは精度をさらに向上させる余地があり、さらなる開発が可能という考えを述べた。

コンテスト

CASP13

2018年12月、DeepMindのAlphaFoldは、第13回「タンパク質構造予測精密評価 (CASP)」の総合ランキングで1位を獲得した。

このプログラムは特に、部分的に類似した配列を持つタンパク質から既存のテンプレート構造が利用できない、競技会主催者から最も難しいと評価されたターゲットに対して、最も正確な構造を予測することに成功した。AlphaFoldは、このクラスの43のタンパク質ターゲットのうち25のターゲットに対して最高の予測を行い、CASPのグローバル距離テスト(GDT)スコアの中央値58.9を達成した。これは、接触距離を推定するための深層学習を同じく使用している2つの次善チームによる52.5と52.4を上回っている。全体的には、すべてのターゲットでGDTスコア68.5を達成した。

2020年1月、AlphaFold 1の実装や図解コードがGitHubオープンソースとして公開された。

CASP14

2020年11月、改良版のAlphaFold 2がCASP14で優勝した。全体的に、AlphaFold 2は97のターゲットのうち88のターゲットに対して最高の予測を行った。

コンテスト推奨のグローバル距離テスト(GDT)で、このプログラムの精度は、中央値92.4 (100点満点中) を達成した。これは、予測の半数以上で、原子がだいたい正しい位置にあることで92.4%以上のスコアを得たことを意味し、X線結晶構造解析のような実験技術に匹敵する精度であると報告されている。2018年のAlphaFold 1では、すべての予測のうち2つでしかこのレベルの精度に達していなかった。2020年のコンペティションでは、予測の88%が80以上のGDT-TSスコアを獲得した。最も難しいと分類されたターゲットのグループで、AlphaFold 2はスコア中央値87を達成した。

タンパク質主鎖におけるα炭素原子の配置の二乗平均平方根偏差(RMS-D) で測定したところ、最悪優先外れ値(英語: worst-fitted outliers)の性能に支配される傾向があり、AlphaFold 2の予測の88%で、重なり合ったα炭素原子のセットのRMS偏差は4Å未満であった。予測の76%は3Åよりも優れており、46%は2Å以上のα炭素原子のRMS精度を示し、重なり合ったα炭素原子のセットのRMS偏差の中央値は2.1Åであった。AlphaFold 2は、表面側鎖のモデリングにおいても「本当に、本当に並外れた」と評される精度を達成した。

AlphaFold 2をさらに検証するために、会議の主催者は、特に困難な構造であると判断し、決定できなかった構造について4つの主要な実験グループにアプローチした。4つのケースすべてで、AlphaFold 2によって生成された3次元モデルはこれらのタンパク質の構造を分子置換によって決定するのに十分正確であった。その中には、10年前から実験者が研究を続けてきた小さな膜タンパク質が含まれていた。

AlphaFold 2が予測に最も成功しなかった3つの構造のうち、2つは水溶液中で直接タンパク質の構造を定義するタンパク質NMR法で得られたものであるのに対し、AlphaFoldは主に結晶中のタンパク質の構造に基づいて訓練されていた。3つ目は、同じドメインの52個の同一コピーで構成されるマルチドメイン複合体として自然界に存在しているものだが、AlphaFoldはこのような状況を考慮するようにプログラムされていなかった。1つの非常に大きなタンパク質とNMRによって決定された2つの構造のみを除く、単一ドメインのすべてのターゲットで、AlphaFold 2は80以上のGDT-TSスコアを達成した。

反響

AlphaFold 2がCASPグローバル距離テスト (GDT) で90点以上を獲得したことは、計算生物学における重要な成果であり、数十年前からの生物学の壮大な挑戦に向けた大きな進歩と考えられている。ノーベル賞受賞者で構造生物学者のヴェンカトラマン・ラマクリシュナンは、この結果を「タンパク質の折り畳み問題における驚異的な進歩」と呼んだ。新たなタンパク質の形状や構造を予測するための計算科学的努力を向上させるために、1994年にこのコンテストを始めた計算生物学者のジョン・ムルト (John Moult) は、「これは大したものだ。ある意味で問題が解決した。」と語った。

CASPとDeepMindのプレスリリースに後押しされ、AlphaFold 2の成功はメディアの注目を集めた。Nature、Science、MIT Technology Review、New Scientistなどの科学専門紙のニュース記事だけでなく、Fortune、The Economist、Bloomberg、Der Spiegel、The Spectatorなどの一般的なニュースサービスや週刊誌のほか、主要な全国紙でも広く取り上げられた。ロンドンのTimes紙では、この記事を一面トップの写真付きで掲載し、さらに2ページの内部報道と社説を掲載した。頻繁に取り上げられていたテーマは、構成アミノ酸配列に基づいてタンパク質の構造を正確に予測する能力は、高度な創薬の加速や病気の理解の向上など、ライフサイエンスの分野で様々なメリットが期待されているというものである。このイベントについての記事を書いたMIT Technology Reviewは、「AIは50年前の生物学の壮大な課題を解決した」と述べている。同じ記事では、AIアルゴリズムは「原子の幅の範囲内でタンパク質の形状を予測できる」と記している。

応用

SARS-CoV-2

AlphaFoldを用いて、COVID-19の原因物質であるSARS-CoV-2のタンパク質の構造を予測した。2020年初頭、これらのタンパク質の構造の実験的な検出が待たれていた。結果は、より大きな研究コミュニティに公開される前に、イギリスのフランシス・クリック研究所の科学者によって検討された。チームはまた、国際的なオープンアクセスデータベースである蛋白質構造データバンク (PDB)で共有されている実験的に決定されたSARS-CoV-2スパイクタンパク質に対する正確な予測を確認した後、計算によって決定された未研究のタンパク質分子の構造を公開した。研究チームは、これらのタンパク質の構造は、現在進行中の治療研究の対象にはならないかもしれないが、SARS-CoV-2ウイルスに対するコミュニティの理解を深めるものであることを認めている。具体的には、AlphaFold 2が予測したOrf3aタンパク質の構造は、カリフォルニア大学バークレー校の研究者が低温電子顕微鏡を用いて決定した構造と非常によく似ていた。この特定のタンパク質は、ウイルスが複製すると、ウイルスが宿主細胞から脱走するのを助けると考えられている。このタンパク質はまた、感染に対する炎症反応を引き起こす役割を果たしていると考えられている。

研究発表

AlphaFold研究

派生研究

推薦文献

外部リンク

AlphaFold 1

AlphaFold 2


Новое сообщение