1800年代、3つの言語が刻まれた古代の岩板「ロゼッタ・ストーン」は、エジプトの象形文字を解読するのに役立った。今、あるコンピュータープログラムが、遺伝暗号に対して同様のことを行っている。「Codetta」と名付けられたこのプログラムは、あらゆる生物のゲノム配列を読み取って、その遺伝コードを吐き出すことができる。遺伝情報をタンパク質を作るための命令に変換する生物学的な鍵である。生命の木の大部分において、このコードは普遍的である。しかし、一部の生物では、遺伝情報が他の生物とは異なる命令をコードしているという例外が見つかっている。

ハーバード大学の大学院生、Kate Shulgina氏とハワード・ヒューズ・メディカル研究所の研究員、Sean Eddy博士は、これまでにない5つのコードを発見したことを、2021年11月9日付の学術誌eLifeで報告した。「Kateには、彼女の新しいコードがそのまま教科書に載ると伝えた」とEddy博士は語った。このeLife誌に掲載された論文は「25万以上のゲノムにおける代替遺伝暗号の計算機的スクリーニング(A Computational Screen for Alternative Genetic Codes in Over 250,000 Genomes)」と題されている。

ユニバーシティ・カレッジ・ダブリンの進化遺伝学者のKen Wolfe博士(今回の研究には関与していない)は、「今回の研究チームの方法は、これまでの研究に比べて、より速く、より厳密で、より包括的なものだ。研究チームは、バクテリアや古細菌のゲノムをすべて調べた。」と述べている。

この報告書では、あらゆる生物のゲノム配列を読み取って、その遺伝暗号を決定することができる新しいコンピュータプログラムについて詳しく述べられている。このCodettaプログラムは、遺伝暗号がどのように進化するかについての理解を深め、新たに配列が決定された生物の遺伝暗号を正しく解釈するのに役立つ可能性がある。

Eddy博士の研究室で卒業研究を行っているShulgina氏は、「これは、生物学の根幹に関わる問題だ。」と述べた。

遺伝暗号は、ヌクレオチドの3文字の組み合わせをどのように解釈してタンパク質に変換するかを細胞に伝える一連の規則であり、生命の構成要素とも呼ばれている。大腸菌からヒトまで、ほとんどすべての生物が同じ遺伝暗号を使用している。そのため、かつてはこのコードは決まっていると考えられていた。しかし、一握りの例外(代替遺伝子コードを使用する生物)が存在することがわかっている。

Codettaが活躍する場はここだ。このプログラムは、代替遺伝暗号を使用する生物をさらに特定するのに役立ち、そもそも遺伝暗号がどのようにして変化するのかということに新たな光を当てることができる。

Codettaは自由に利用できるので、生物がどのタンパク質を作っているかを正確に予測することができる。しかし、このプログラムは、より広範な生物学的洞察をもたらすかもしれない。

生物の世界で使用されているすべての遺伝コードを解明すれば、生物がどのようにして遺伝コードを変えることができるのかという、長年の生物学上の謎が解けるかもしれない。Eddy博士は、「さまざまな理論があるが、まだ本当の謎だ」と述べた。

 

ルールの例外

Shulgina氏が代替遺伝暗号の存在を知ったのは、2016年のことだ。ハーバード大学の大学院1年生だった彼女は、このアイデアに興味を持った。

学生たちは、分子生物学の基礎となる1つの考え方を学ぶ。DNAは、タンパク質を作るための命令をコード化している。細胞はDNAをRNAメッセージに変換し、RNAの3文字セットをアミノ酸というタンパク質の構成要素に変換する。遺伝暗号は、どの3文字がどのアミノ酸をコードしているかを細胞に伝える「参照テーブル」である。例えば、ハチドリ、大腸菌、パンのカビなど、さまざまな生物では、GGCという文字がアミノ酸のグリシンをコードしている。

1979年までは、ほとんどの科学者がこれは普遍的なことだと思っていた。その年、分子生物学者の Bart Barrell 博士らは、例外的な存在を発見した。細胞のエネルギー工場であるヒトのミトコンドリアがコードに手を加えていたのである。UGAという文字は、タンパク質の終わりを示すストップサインではなく、アミノ酸のトリプトファンをコードしており、また、AUAはイソロイシンではなくメチオニンをコードしていた。これは、遺伝暗号が実は定まったものではないことを示す最初の兆候である。遺伝暗号は進化するものなのだ。

その後、数十年の間に、酵母、バクテリア、原生動物などの生物から、代替遺伝暗号の例が続々と発表された。現在、約30種類の新しいコードが確認されているが、Shulgina氏は「もっと多くのコードがあるのではないか」と考えていた。系統的な調査は誰も行っていない。使用されているすべての遺伝暗号を知らなければ、そのような代替物がどのように進化したのかという大まかな疑問に答えることは難しいと彼女は言う。「私は、新しい遺伝暗号を発見し、その進化を理解する方法を考え始めた」と彼女は言う。

あらゆる生物の遺伝暗号を解読するアルゴリズムの設計に着手した彼女は、Eddy博士に相談した。ゲノムの比較を専門とする生物学者であるEddy博士も、この問題について熟考していた。「私には、やりたいことを書き留めた小さなノートがあり、その中にこの問題があったのだ。」

 

新しい遺伝子コードの探索

Shulgina氏はEddy博士の研究室に加わり、その後5年間で、彼女らのアイデアは "Codetta "と呼ばれるコンピュータープログラムとして形になった。このプログラムの原理は、理論的には単純だとShulgina氏は言う。

Codettaは、ゲノムを読み込んだ後、既知のタンパク質のデータベースを利用して、可能性の高い遺伝暗号を算出する。「私の方法は、タンパク質がどのような形をしているかについて多くのことが知られているという事実を利用している」と彼女は言う。

これまでは、同様のプログラムを使っても、数百のゲノム配列を解析するのが精一杯だった。Codettaは、科学者のコード解読能力を大幅に向上させるもので、研究チームは、既知のバクテリアと古細菌のほぼすべて、つまり25万以上のゲノムを対象に、新しい遺伝コードを系統的にスクリーニングすることができた。

その結果、いくつかの驚きが見つかった。アルギニンというアミノ酸のコードが、別のアミノ酸に変更されている例が5つあったのだ。アルギニンのコードが別のアミノ酸に置き換わった例は、バクテリアでは初めてのことである。Shulgina氏によれば、なぜアルギニンのコードが頻繁に変更されるのかというのが大きな疑問だという。これは、新しいコードを生み出す進化の力を示唆しているのかもしれない。Shulgina氏とEddy博士は現在、さらに多くの新しいコードを探している。新しいコードは小さなゲノムに現れる傾向があるので、チームはCodettaをウイルスや、ミトコンドリアや葉緑体などの細胞のコンパートメントに放ってみるつもりだ。Eddy博士は、「これは豊かな狩りの場になるだろう」と語っている。

BioQuick News:Harvard-Developed “Codetta” Program Deciphers Genetic Code in 250,000 Genomes; Large-Scale Analysis Reveals Five Instances Where Code for Amino Acid Arginine Was Reassigned to Different Amino Acid; More Evidence That Genetic Code Is Not Universal

[HHMI news release] [Harvard news release] [eLife abstract]

この記事の続きは会員限定です