Language Modeling for Biological Sequencesとは?タンパク質の 理解と設計を変えるAI技術の最前線 Science Aid Portal

Language Modeling for Biological Sequencesとは?タンパク質の理解と設計を変えるAI技術の最前線


Language Modeling for Biological Sequencesとは?タンパク質の理解と設計を変えるAI技術の最前線

1. はじめに:生物配列と言語モデルの交差点

生命の設計図であるタンパク質は、20種類のアミノ酸が連なって形成される複雑な分子です。これらの配列情報は、タンパク質の3次元構造や機能を決定する重要な要素であり、生物学研究や合成生物学において中心的な役割を果たしています。しかし、従来の実験的手法では、タンパク質の構造解析や機能予測に膨大な時間とコストが必要でした。

近年、人工知能(AI)技術の急速な発展により、この状況に革新的な変化がもたらされています。特に注目されているのが、Language Modeling for Biological Sequences(生物配列のための言語モデリング)と呼ばれる技術です[1]。この技術は、自然言語処理で成功を収めた言語モデルの考え方を生物配列に応用することで、タンパク質の理解と設計を根本的に変革しようとする画期的なアプローチです。

言語モデルとは、大量のテキストデータを学習することで文章の構造や意味を理解し、新しい文章を生成できるAI技術です。例えば、GPTやBERTなどの大規模言語モデルは人間の言語を理解し、自然な文章を生成する能力を獲得しています。この技術の成功は生物配列にも同様のアプローチが適用できることを示唆していました。

なぜ言語モデルの考え方を生物配列に応用できるのでしょうか。その理由は、タンパク質の配列と人間の言語の間に類似性があるからです。タンパク質は20種類のアミノ酸という「単語」から構成され、これらの「単語」が特定のルールに従って並ぶことで、機能を持つ「文章」を形成します。また、進化の過程で保存される配列パターンは、言語における文法規則に相当する重要な情報を含んでいます。

この技術が必要とされる背景には、現代の科学が直面する課題があります。ゲノム配列決定技術の進歩により、タンパク質の配列情報は爆発的に増加していますが、その構造や機能を実験的に解明する速度は追いついていません。さらに、合成生物学では、特定の機能を持つタンパク質の設計や、既存タンパク質の改変が求められていますが、従来の手法では効率的な設計が困難でした。

Language Modeling for Biological Sequencesは、これらの課題を解決する有望な技術として注目されています。大量のタンパク質配列データを学習することで、配列から構造や機能を予測し、さらには新しいタンパク質の設計まで可能にする技術です。この技術の発展により、生物学研究の効率化、合成生物学の進歩、そして生命科学の新たな発見が期待されています。

2. タンパク質を対象とした3つの代表モデル:ESM・ProtTrans・ProGen

Language Modeling for Biological Sequencesの対象は、タンパク質だけでなく、DNAやRNAなども含む広範な生物配列に及んでいます。しかし、今回は特にタンパク質を対象とした代表的な3つのモデルを紹介します。これらのモデルは、それぞれ異なるアプローチと特徴を持ち、タンパク質科学の異なる側面に焦点を当てています。

2.1 ESM

ESMシリーズは、Meta AI(旧Facebook AI)が開発したタンパク質言語モデルのファミリーです[2]。最初のESM-1は2019年に発表され、その後改良版のESM-1b(6億5000万パラメータ)が開発されました。その後、ESM-2(2022年)では15億パラメータまでスケールアップし、ESMFoldと呼ばれる構造予測機能を統合しました。

ESMFoldは、AlphaFold2と比較して重要な違いがあります。AlphaFold2は多重配列アライメント(MSA)を必要としますが、ESMFoldは単一の配列のみから構造予測を行うことができます。これにより、計算速度が大幅に向上し、大量のタンパク質の構造予測が効率的に行えるようになりました。

最新のESM-3(2024年)は、980億パラメータを持つマルチモーダル生成モデルとして、タンパク質科学に新たな可能性をもたらしています[3]。ESM-3の特徴は、配列、構造、機能の3つのモダリティを統合的に扱えることです。これにより、より複雑で高度なタンパク質設計が可能になりました。

ESM-3の最も注目すべき成果の一つが、esmGFPと呼ばれる新しい蛍光タンパク質の設計です[3]。このタンパク質は、既知の蛍光タンパク質から58%の配列同一性しか持たないにも関わらず、機能的な蛍光タンパク質として働きます。これは、自然界で発見された最も近いタンパク質から5億年以上の進化に相当する距離を、AIが一気に飛び越えたことを意味します。

ESM-3の仕組みは、マスクされた言語モデリングと呼ばれる手法を基盤としています。タンパク質の配列の一部を隠し、残りの情報から隠された部分を予測する訓練を行うことで、タンパク質の配列パターンや構造的制約を学習します。この学習により、モデルはタンパク質の「言語」を理解し、新しい配列の生成や機能予測が可能になります。

2.2 ProtTrans

ProtTransは、ドイツのミュンヘン大学を中心とした研究チームが開発したタンパク質言語モデルです[4]。最初のモデルが2020年に発表され、多重配列アライメント(MSA)を使わずに、単一の配列から高精度な予測を実現したことで注目を集めました。従来のタンパク質予測手法では、進化的に関連するタンパク質の配列を揃えるMSAが不可欠でしたが、ProtTransは単一の配列のみから予測を行うことができます。

ProtTransの大きな特徴は、その埋め込み(embedding)表現の豊富さにあります。埋め込みとは、タンパク質の配列情報を数値ベクトルに変換した表現で、これにより様々な特徴や情報を効率的に表現できます。この埋め込みにより、タンパク質の二次構造、三次構造、機能注釈など、多様な特性を予測できるようになりました。

実用的な価値は、その計算効率にあります。MSAの構築は計算コストが高く、特に大規模なプロテオーム解析では大きな制約となっていました。ProtTransはこの制約を克服することで、より効率的なタンパク質解析が可能になりました。

2.3 ProGen

ProGenは、Salesforce Researchが開発した生成型タンパク質言語モデルです[5]。2020年に発表され、タンパク質の設計や生成に特化したモデルとして知られています。ProGenの特徴は、条件付き生成能力にあります。モデルはタンパク質の配列だけでなく、分類学的情報や分子機能、細胞内局在などの注釈情報も同時に学習し、特定の機能や特性を持つタンパク質を条件を指定して生成することが可能です。このため、合成生物学やタンパク質工学において有用です。

ProGen2(2023年)では、モデルサイズを64億パラメータまで拡張し、より多様で高品質なタンパク質配列の生成を実現しました[6]。ProGen2の改良点は、より大規模なデータセットでの訓練と、より高度な生成アルゴリズムの採用にあります。これにより、生成されるタンパク質の多様性と機能性が大幅に向上しました。

具体的な成果として、人工抗菌リゾチームタンパク質の合成とその性能評価が挙げられます[7]。リゾチームは、細菌の細胞壁を分解する抗菌タンパク質で、医学や食品産業で広く使用されています。ProGenが生成した人工リゾチームのうち、73%が機能的な抗菌タンパク質として働くことが実験的に確認されました。 この結果は、天然のリゾチーム(59%が機能的)と比較しても優れた性能を示しています。さらに重要なのは、ProGenが生成した人工抗菌タンパク質が、自然界では見られない配列を持つにもかかわらず、天然タンパク質と同等の殺菌効果を発揮することを実験的に実証したことです。

ProGenの成功は、タンパク質設計におけるAI技術の可能性を示しています。従来のタンパク質工学では、既存のタンパク質を基にした変異導入や経験的な設計手法が主流でしたが、ProGenにより完全に新しいタンパク質の設計が可能になりました。これは、合成生物学やタンパク質工学において革新的なアプローチを提供するものです。

3. 今後の展望:Protein LLMが開く未来の生物学

Language Modeling for Biological Sequences技術の発展により、タンパク質科学は新たな段階に入ろうとしていますが、課題も残っています[1]

・タンパク質の動的挙動(Protein Dynamics)

現在のモデルは、主にタンパク質の静的構造に焦点を当てていますが、実際のタンパク質は溶液中で様々な構造状態間を動的に変化しています。この動的挙動は、タンパク質の機能や分子間相互作用に重要な役割を果たします。将来的には、タンパク質の時間的な構造変化を予測できるモデルの開発が期待されています[1]

・単一細胞プロテオミクス技術との統合

近年、単一細胞レベルでのタンパク質発現解析技術が急速に発展しており、細胞の種類や状態に応じたタンパク質プロファイルの詳細な理解が可能になってきています。タンパク質言語モデルとこれらの技術を統合することで、細胞特異的なタンパク質機能の理解や、生命現象の解明が進むことが期待されます[1]

・広く深いドメイン知識を統合した言語モデルの開発

現在は主に配列情報から学習を行っていますが、実際の生物学研究では、構造生物学、生化学、分子生物学、細胞生物学など、多様な分野の知識が必要です。これらの知識を統合したモデルの開発により、より実践的で有用な生物学的応用が可能になるでしょう[1]

・説明可能性の向上

現在のモデルは高い予測精度を達成していますが、その予測の根拠や理由を説明することが困難です。科学的研究においては、モデルの判断根拠を理解することが重要であり、説明可能なAI技術の開発が求められています[1]

これらの発展により、タンパク質言語モデルは、基礎研究から応用研究まで、生物学の幅広い分野での活用が期待されます。Language Modeling for Biological Sequences技術は、まだ発展途上の技術ですが、その可能性は計り知れません。この技術の発展により、生命の設計図を読み解き、新しい生命機能を設計する能力が人類にもたらされるかもしれません。これは、生物学研究の新たなパラダイムを開く、革命的な技術革新と言えるでしょう。


参考文献

  1. Xiao, Y. et al., “Protein Large Language Models: A Comprehensive Survey”, arXiv(2025). https://doi.org/10.48550/arXiv.2502.17504

  2. Lin, Z. et al., “Evolutionary-scale prediction of atomic-level protein structure with a language model”, Science 379(2023):1123-1130. https://www.science.org/doi/10.1126/science.ade2574

  3. Hayes, T. et al., “Simulating 500 million years of evolution with a language model”, Science 387(2025):850-858. https://www.science.org/doi/10.1126/science.ads0018

  4. Elnaggar, A. et al., “ProtTrans: Toward Understanding the Language of Life Through Self-Supervised Learning”, IEEE Transactions on Pattern Analysis and Machine Intelligence 44(2022):7112-7127. https://doi.org/10.1109/TPAMI.2021.3095381

  5. Madani, A. et al., “ProGen: Language Modeling for Protein Generation”, arXiv(2020). https://doi.org/10.48550/arXiv.2004.03497

  6. Nijkamp, E. et al., “ProGen2: Exploring the boundaries of protein language models”, Cell Systems 14(2023):968-978. https://doi.org/10.1016/j.cels.2023.10.002

  7. Salesforce Research, 「Learning from evolution: Using AI language models to design functional artificial proteins」, 2021, Accessed:2025-10-01. https://www.salesforce.com/blog/learning-from-evolution/

Contact

Science Aidは、研究を中心とした幅広い領域をAIによって支援します。システム開発やコンサルティング、共同研究、セミナーのご依頼などお気軽にご相談ください