ヒトゲノムプロジェクトによって、DNAに含まれる30億対にも上る、ヒトの遺伝子をコードする塩基対のシーケンスがほぼ完了したが、それらがどのように働くのかは未だ謎が多い。ようやく現在、世界32ラボ440人の研究者による弛まぬ努力の結果、より詳しい動力学的な様相が判明してきた事により、ヒトゲノムが実際にどのように働いているのかの全体像が見えてきたのだ。

 

この新規的研究において、ヒトゲノム配列の80%以上が、特定の生物学的な機能と関連付けられ、タンパクがDNAと相互作用を持つ制御領域の400万か所以上のマッピングが完成した。これらの発見によって、細胞内の遺伝子情報の発現を、正確に木目細かく制御するシステムを理解することに、著しい進展が成されたと言える。この発見は、継続的に活性を呈する遺伝子に焦点を当てる事になったが、その活性は通常はタンパクが制御領域にアクセスして遺伝子をオン・オフしているのだが、時にはそのタンパクはその遺伝子領域から随分離れた個所に位置することもある。更に研究チームは、DNAの化学修飾の箇所を同定したが、その修飾によって遺伝子の発現は影響を受け、DNAの状態に関連してRNAの形態が様々に変化することによって、全体のシステムが制御されているのだ。


「ヒトゲノムプロジェクト初期の議論では、ゲノムの内ほんの数パーセントだけが細胞の働きを司るタンパクをコードし、それ以外はジャンクであると予測していました。現在では、その予測は間違いであったことが判っています。ENCODEのおかげで、遺伝情報を生細胞や生命体に転換させるのに必要な生体分子の振る舞いに、ほとんどのヒトゲノムが関与している事が判ったのです。」とNIHに所属する国立ヒトゲノム研究所(NHGRI)の所長を務めるエリック・D・グリーン博士(M.D.)は語る。NHGRIは「Encyclopedia of DNA Elements or ENCODE」と命名された研究プロジェクトを立ち上げ、今回の成果を得た。2003年に開始され、ENCODEの目標は、ゲノムの構成要素で活性を有する全てを同定する事であったが、最初にヒトゲノム配列を決定するのと同じように、困難な作業であると考えられていた。

ENCODEはパイロットプロジェクトとして開始され、結果を出すために解析方法の開発と戦略との構築が目的であったので、ヒトゲノムのたったの1%を対象として研究が行われた。2007年には、NHGRIはフルスケールのプロジェクトを遂行する為に十分な技術を獲得したとして、5年で1億2300万ドルの研究開発予算を計上した。更には、4000万ドルをENCODEパイロットプロジェクトに充て、2003年以降およそ1億2500万ドルの予算で、ENCODEに関連する技術開発とモデル生物の研究を行なっている。この研究規模は壮大であり、米国、英国、スペイン、シンガポール、日本各国から何百人もの研究者が同研究に集い、147種の組織サンプルを用いた1600ユニットの実験系が進行している。これらの実験には次世代DNAシーケンサーが採用され、この技術が可能になったのはこの5年であるが、これによってNHGRIのDNAシーケンシング技術開発が大幅に進んだ。合計でENCODEは15兆バイトを超える生データを有し、300年コンピュータ時間に相当する解析を実施している。

「我々は驚くほど膨大な種類のデータを注意深く解析することで、ヒトゲノムの作用とは、どの箇所でそのタイミングで遺伝子のスイッチのオン・オフを行ってタンパクを生産するかという、単純明快なことである事を明らかにしました。ENCODEのおかげで、私たちの知識はゲノムから次の段階に移りました。そして全ての知見は公開されるようになったのです。」と語るのは英国にある欧州バイオインフォマティックス研究所でENCODEプロジェクトの解析コーディネーターを務めるエワン・バーニー博士である。ENCODEコンソーシアムはデータの精度を立証できた段階で、論文発表を待たずにデータをいくつかのデータベースに公開し、インターネットを通して誰でもアクセスできるようにされる。これらのデータセットは、ENCODEプロジェクトポータルカルフォルニア大学サンタ・クルツゲノムブラウザーバイオテクノロジー情報国立研究所、そして欧州バイオインフォマティックス研究所、などからアクセスすることができる。

「ENCODEは丁度ヒトゲノムのグーグル・マップのようなものです。グーグル・マップでは、拡大タブによって国、州、市、道路から個々の交差点までを見る事が出来ますし、別の検索タグを用いれば通りの名前や写真、交通渋滞の情報から天候の状況まで知る事が出来ます。ENCODEマップを使用すれば、ヒトゲノムの染色体、遺伝子、機能分子、そして個々のヌクレオチドについてもグーグル・マップと同じように検索していけるのです。」とENCODEプロジェクトの立ち上げを行なったNHGRIプログラム代表のエリス・ファインゴールド博士は説明する。1報の主論文と5報の関連論文が2012年9月5日付けのネイチャー誌に、18報がGenome Research誌に、6報がGenome Biology誌に発表された。ENCODEデータは極めて複雑であり、3誌は「スレッド」と呼ばれるデータインテグレーション形式で情報を提供する先駆的な試みを実施している。

「ENCODEでは大変多くのデータが作成されますから、私達はENCODEコンソーシアムを協力して、研究者の皆様にデータを活用できるような新しい方法を提供しているのです。」と、インターネット上で自由に投稿できるプラットフォームをプロデュースしたNature誌の上級編集者である、マグダレナ・スキッパー博士は語る。同様の話題が別の学術誌にも発表されているので、Nature ENCODEエクスプローラーのページから関連スレッドをクリックするだけで、誰でもENCODE論文に関する全論文にアクセスすることが可能である。例えば、スレッドその1には、いくつかの論文からの遺伝子変異や疾患に関する、図、表、説明文などが1ページ内にまとめられている。ENCODE研究者は、多くの生物学的課題に光を当てるものであると考えている。スレッド化された論文以外に、6報のレビュー記事がJournal of Biological Chemistryに発表され、2報がサイエンス誌に、1報がCell誌に発表されている。

ENCODEデータはヒトの生物学と疾患を理解するために基本となる情報を提供するものだ。ENCODEプロジェクトに関わっていないがそのデータを疾患研究でENCODEを活用しているケースが100報以上の論文で見受けられる。たとえば、ヒトゲノムの多くの領域ではタンパクをコードしないが、疾患に関与している事が明らかになっている。それとは逆に、疾患関連の遺伝子変化は、多くの遺伝子同士で見受けられ、これらはENCODEによって多くの領域が同定されている。ゲノム領域のどの部分の特異な変異が疾患に関与しているかは、更なる研究が必要である。

「疾患関連ゲノム変異がタンパクコード領域以外にある事は驚きでした。疾患の原因となるゲノム変異の多くは制御領域かスイッチに起こり、その影響はタンパク産生量と産生タイミングに関与しており、タンパク自体の構造変化には関与していないのです。医学的な症状が形質化するのは、遺伝子のオン・オフが以上に昂進したり、タンパク産生量に異常を来すからです。ジャンクDNAではなく、このDNA制御領域の異常は人間の健康と病気に大きくかかわります。」と語るのは、ENCODEで研究するNHGRIのプログラムディレクターのマイク・パジン博士である。
制御領域の同定ができれば、何故異なるタイプの細胞が異なる機能を有するのかを解明する研究に役に立つ。たとえば、筋肉細胞が力を出せるのに何故肝臓細胞は食物を消化できるのかという研究である。筋肉細胞はいくつかの遺伝子のスイッチオンを行うが、それは筋肉内に限られることはよく知られている。しかし以前は、そのプロセスを動かす制御分子を調べる方法はなかったのである。

ENCODEは人間の体内にある何百種類もの細胞タイプの中から、140種以上の細胞タイプに着目して、多くの細胞タイプ特異的な制御分子を同定する研究プログラムを立ち上げた。過去の論文集で報告されてきた多くのデータに関わらず、異なる全てのタイプの人体細胞の機能ゲノム分子を、総合的に明らかにすることは課題であろう。
NHGRIでは、ENCODEに関連する研究について、最低でも更に4年間の延長を計画している。次の段階では、機能分子と細胞タイプに関する情報の解明に更に深く関与できるように、ENCODEを進化させていく予定である。それによって更なる有用なバイオインフォマティックスの構築が期待できるであろう。

■原著へのリンクは英語版をご覧ください:Landmark Advances in Understanding Regulation and Organization of Human Genome

この記事の続きは会員限定です