概要 |
ヒトゲノム情報についてシークエンス技術の開発により爆発的に出力される情報が増えてきている。我々は、複数拠点間にわたる計算資源、ストレージを効率的に運用するにおいて出てくる課題に対し上の一部の情報についての試験的な解析を円滑に行うことを「ハイブリッドクラウド構築とゲノム情報解析の効率的な運用に関した研究 (令和2-3年度 jh200047-NWH,jh210018-NWH)」において進めまた論文として成果を報告した (Tanjo et al Journal of Human Genetics 2021, Nagasaki et al Human Genome Ver 2023)。一方、近年、長鎖型法 (1つのDNA断片の読み取り長が15,000塩基以上)により全ゲノムデータの取得が進められている。申請者も令和4年度においては50検体、令和5年度においては100検体の長鎖型シークエンサの情報(低深度)を取得し、これらの情報を鋳型として用いることで、ハイブリッドクラウド内において、短鎖型法(1つのDNA断片の読み取り長が約300塩基)で取得された約5,000人の全ゲノム情報との統合解析を進め構造多型のパネルの構築を進めた(「ハイブリッドクラウドを用いたゲノム情報に基づく構造多型パネルの構築とアノテーション(jh220014, jh230016)」)。令和4、5年度においては、鋳型とする長鎖型シークエンスの情報取得コストが高額であることから、ヒトゲノム全長の被覆深度は平均して10x程度(低深度)であり、特に長い遺伝子等については扱いが難しいという課題があった。そこで、本研究課題では、独自に取得した高深度の日本人の長鎖型シークエンス情報と海外の長鎖型シークエンス情報を統合して鋳型として用いることで、国内外の集団における遺伝子全長の配列をより高精度で取得整備することを目的とする。また、これらの情報は公開可能なヒトゲノム情報であることから、いままで構築をすすめてきているCPUとGPU電算資源双方を必要とするハイブリッドクラウドについて課題であった複数のパブリッククラウドを横断的に電算機資源としてシームレスに利用することを目指す。これにより日本人の遺伝子の集団としての特性、また、疾患研究に資する遺伝子のより精密なハプロタイプパターン理解、さらに、ゲノムサイエンスにおける解析環境構築のリファレンス実装を進めていく。
|