私たちの体の中では、免疫細胞、幹細胞、そして時にはがん細胞といった、多種多様な細胞たちがまるで個性豊かな役者のように、日々異なる役割を演じています。しかし驚くべきことに、その脚本、つまり設計図であるゲノムは、ほぼ全ての細胞で同じなのです。では、なぜこれほど多様な細胞が生まれるのでしょうか?その答えは、設計図の「使い方」、すなわちどの遺伝子をオンにし、どの遺伝子をオフにするかという「遺伝子発現」の違いにあります。
そして今、AIがその複雑な使い方を解読し、細胞の未来を予測する「仮想細胞モデル」が登場しました。これは、創薬研究に革命をもたらす可能性を秘めた、大きな一歩です。
ヒトの体は細胞のモザイクです。免疫細胞は感染と戦うために炎症を活性化させ、幹細胞は多様な組織に分化し、がん細胞は制御シグナルを回避して無限に分裂します。これらの驚くべき違いにもかかわらず、ヒトの各細胞は(ほぼ)同じゲノムを持っています。細胞の個性は、DNAの違いだけでなく、むしろ各細胞がそのDNAを「どのように」使うかによって生じます。言い換えれば、細胞の特性は、時間とともに遺伝子が「オン」や「オフ」に切り替わる遺伝子発現のバリエーションから生まれるのです。
細胞の遺伝子発現パターンは、ゲノムから転写されるRNA分子によって表され、細胞の種類だけでなく、その「細胞の状態」をも決定します。細胞の遺伝子発現の変化を追うことで、健康な状態から炎症状態、そしてがん化した状態へとどのように移行するかがわかります。化学的または遺伝的な摂動(perturbation: 意図的な変化)を与えた細胞と与えていない細胞のRNA転写産物を測定することで、細胞の状態の鍵を握る遺伝子発現パターンがどのように変化するかを予測できるAIモデルを訓練することが可能です。このようなモデルは、これまで遭遇したことのない摂動に対する応答さえも予測できる可能性があります。
新薬候補のおよそ90%は、効果が不十分であったり、意図しない副作用があったりするために臨床試験で失敗します。研究者が実験室や患者で試す各薬剤は、本質的に、特定の形で細胞に摂動を与えるように設計されたオーダーメイドの探索ツールです。したがって、予測能力の高い仮想細胞モデルは、研究者が臨床での成功率を高めるために、副作用を少なくしつつ細胞の状態を「疾患」から「健康」へと変化させることができる新しい薬剤を発見するのに役立つでしょう。
STATEの紹介
本日(2025年6月23日)、Arcは、その第一世代の仮想細胞モデルであるSTATEを発表しました。このモデルは、様々な幹細胞、がん細胞、免疫細胞が薬剤、サイトカイン、または遺伝的摂動にどのように応答するかを予測するように設計されています。STATEは、Arc Virtual Cell Atlasからのデータを含む、70の細胞株にわたる約1億7000万個の細胞からの観測データと、1億個以上の細胞からの摂動データに基づいて訓練されています。このモデルは非商用目的で利用可能です。詳細はプレプリントおよびGitHubリポジトリでご覧いただけます。
STATEの使い方はシンプルです。開始時のトランスクリプトームと摂動を与えると、STATEは結果として生じるRNA発現の変化を予測します。STATEは、STATE Embedding(SE)モデルとSTATE Transition(ST)モデルと呼ばれる、2つの連結したモジュールから作られています。オプションのSEモデルは、トランスクリプトームデータを、コンピュータがより理解しやすく、技術的なノイズに影響されにくい滑らかな多次元ベクトル空間に変換します。白血病細胞やニューロンのような同じ種類の細胞は、このベクトル空間内でクラスターを形成します。STモデルは、与えられた摂動に応じて、細胞が学習された多様体の異なる部分間をどのように遷移するかを予測します。このモデルは、細胞セットに対する自己注意(self-attention)機構を独自に活用する双方向トランスフォーマーアーキテクチャに基づいており、STが明示的な分布の仮定に頼ることなく、生物学的および技術的な不均一性(細胞周期の状態やRNA-seqデータのバイアスなど)を柔軟に捉えることを可能にしています。
STATEは、これまでどのモデルよりも多い、1億個以上の細胞からのシングルセル摂動データ(Tahoe-100M、Parse-PMBC、Replogle-Nadig)で訓練されています。新しい細胞環境における摂動後のトランスクリプトームの変化を予測する上で、既存の最先端の計算アプローチを大幅に上回ります。Tahoe-100Mでのベンチマークでは、STATEは摂動効果の識別において50%の改善を示し、真の差次性発現遺伝子の特定において既存モデルの2倍の精度を達成しました。私たちの知る限り、STATEは単純な線形ベースラインを一貫して上回った最初のモデルでもあります。
なぜ摂動データが重要なのか?
STATEがまずシングルセルRNAシーケンシングデータのモデル化に焦点を当てているのは、それが現在、研究者が妥当なコストで大規模に生成できる唯一のバイアスのないシングルセル解像度のデータだからです。残念ながら、シーケンシングデータは通常、純粋に観測的なものであるため、細胞生物学における因果関係を推測するには一般的に不十分です。数百万の細胞からの観測データがあっても、仮想細胞モデルは観測された相関が生じる原因となる因果効果を特定することはできません。因果関係を学ぶことは、生物学的メカニズムに基づいた真の「仮想細胞」モデルを構築するために不可欠です。
私たちは、大規模な摂動データを収集することによって、このデータの欠点を補っています。すなわち、特定の遺伝子を意図的に変化させて細胞への影響を観察するために、(例えばCRISPRツールを用いて)実験的に生成されたデータです。観測データとは異なり、摂動データは遺伝子間の因果関係を捉え、根底にある生物学的メカニズムを直接反映します。2つの遺伝子間の直接的な関係を推測するのに何万もの観測が必要かもしれませんが、摂動データは同じ相互作用を一度の測定で捉えることができます。Arcでは、技術開発と機械学習を独自の方法で統合し、データ収集を迅速に拡大し、モデリングアプローチを革新することを可能にしています。
これまで、ほとんどのシングルセルデータは小規模な研究から得られており、技術的およびソースのバッチ効果により、多くのプロジェクト間でデータをシームレスに統合する能力が低下していました。Arcでは、分析上の人為的な影響を最小限に抑えるために、シングルセルデータを均一に収集・分析する、この分野で初のAIエージェントであるscBaseCountを開発・公開しました。scBaseCountは現在、シングルセルデータの最大のオープンソースリポジトリです。STATE自体も、これらの種類の「交絡」因子を直接モデル化することができ、これにより世界中のさまざまな研究室からの多数の異なるデータセットを統合することが可能になります。
STATEは、私たちが期待する着実に改善されていく一連のモデルの、最初のバージョンに過ぎません。仮想細胞のためのトレーニングデータが増えるにつれて、その予測精度も向上します。スケーリング則が他の分野で数年前から観測されていることを考えると、これは当然の結果のように思えるかもしれませんが、これが生物学で確立されたのはごく最近のことです。昨年、私たちは初めてDNAの言語モデリングにおけるスケーリング則を明らかにしました。
今後の展望
STATEのユースケースは、タンパク質フォールディングモデルと同様のパターンをたどるかもしれません。AlphaFoldが有用になったのは、タンパク質の構造を正確に予測できたからだけでなく、研究者がその予測をワークフローに統合する方法を見つけたからです。例えば、タンパク質の構造を迅速に予測することで、科学者はそれらのタンパク質に結合しそうな低分子をより迅速に発見できるようになりました。
同様に、研究者はSTATEや将来のモデルを、細胞が摂動にどのように応答するかをシミュレートするためだけでなく、その予測を利用して実験的に新しい薬剤を推薦し、発見するために使用することができます。
しかし、仮想細胞モデルを作る究極の理由は、科学者がはるかに広大な組み合わせの可能性の空間を探求するのを助けるためです。どんな生細胞も非常に多くの方法で変化させることができ、例えばがん細胞を治療するかもしれないすべての遺伝子変異や薬物治療を試す方法はありません。予測能力の高い仮想細胞モデルは、この問題に対処します。STATEはこの方向への第一歩であり、私たちの目標は、最終的に将来のバージョンの仮想細胞モデルで実験の精度に匹敵することです。これにより、科学者はin silico(インシリコ)で数百万の摂動を実行し、独創的な発見をする過程で仮説を「絞り込む」ことができるようになります。
これを支援するために、私たちはCell_Evalも公開しました。これは、発現量に基づくような分野の従来の指標を超えて、差次性発現予測と摂動強度の推定に焦点を当てた、生物学的に関連性のある解釈可能な一連の指標を含む、仮想細胞モデリングのための包括的な評価フレームワークです。私たちは、LMArenaがテキスト、画像、またはビジョンモデリングにおけるLLM開発の比較で主導的な役割を果たしてきたように、Cell_Evalが現在および将来の世代の仮想細胞モデルの透明な評価に役立つことを願っています。
私たちがこの最初のSTATEモデルを公開するのは、生物学者がそれを使い、自身の研究に組み込む方法を考案し始めてくれることを期待しているからです。私たちは、このモデルを研究コミュニティにとって最大限に有用なものにするために努力しており、すべてのフィードバックを歓迎します。



