概要
マテリアルズインフォマティクスとは
材料研究のパラメータ空間は広大です.例えば,有機低分子化合物のケミカルスペースには,およそ1060個の候補分子が存在するといわれています.さらにエッジに近い領域の研究では,添加剤の選択や微細組織の制御,試料作製のプロセス変数などが設計変数に加わり,パラメータ空間は爆発的に増大します.マテリアルズインフォマティクス(MI: materials informatics)の目的は,このような広大な探索空間から所望の材料特性を有するパラメータを同定することです.
MIの基本的なワークフローは順問題と逆問題からなります.順問題では,材料の組成や構造,プロセス変数などが与えられたもとで材料特性を予測します.逆問題では,順問題の予測器の逆写像を求めて所望の特性を持つ設計変数を予測します.マテリアルズインフォマティクス研究推進センターの研究者らは,データ科学のユニークな視点から材料研究における順問題・逆問題の新たな切り口を発見し,データ科学の方法論やアルゴリズムの研究を推進してきました [1-7].また,材料研究の実践では高分子材料や準周期系物質を含む様々な新しい物質を発見してきました [8-14]
データ駆動型材料研究に資するデータ資源の不足
画像認識や自然言語処理などのデータ科学の一般的な応用分野に比べると,材料研究のデータ資源は極めて乏しい.その要因として,次の三点が挙げられます:(1) データ取得の高コスト性,(2) パラメータ空間が広大かつ多様であるため,“共通基盤データ”を構築するのが難しい,(3) 情報秘匿の意識が高く,データを他者に開示するインセンティブが働きにい.このような背景から体系的なオープンデータを共創しようという動きは極めて低調になっています.特にこれらの問題解決には文化的転換が必要になるため,短中期的にはデータ資源の不足を解決することは困難です.また,革新的な材料の周辺にはデータは存在しません.したがって単純なデータ科学の内挿的予測では,真に革新的な材料の発見には至りません.このようにMIの多くの問題はデータ資源の不足から生じます.
ミッション定義
データ駆動型研究における最も重要な資源はデータです.これまでにイノベーションを実現したデータ駆動型研究やテクノロジーの背景には,必ず巨大なデータが存在します.昨今の生成AIや大規模言語モデルがその代表例です.また,タンパク質の立体構造予測の世界を刷新したAlphaFoldも半世紀以上に渡る生命科学分野の基盤データ整備の努力なしに実現することはなかったでしょう.
図1は,当センターが掲げるビジョンを示したものです.クローズド領域の多くの研究者は(例えば大学のラボ),データ駆動型研究に資するデータを単独で得ることは難しいと予想されます.この問題を解決するために,第一原理や分子動力学等に基づく計算機実験やロボットを用いたハイスループット実験を用いて,様々な材料系を対象に包括的なオープンデータベースを整備していく必要があります.その上で個々の研究者は,研究室の限られたデータとオープン領域の基盤データを統合的に解析することで,データ資源の壁を乗り越えていきます.我々のミッションは,オープン領域において基盤データを整備し,さらに,オープン領域・クローズド領域のデータを統合解析するためのデータ科学の方法論・アルゴリズム群を構築していくことです.
データは無限に湧き出る石油です.データの量と多様性は決して減少することなく単調に増加し続けます.したがってデータ科学の可能性も無限に広がっていきます.それと同時に,データを持つものと持たないものの間に格差が生じることになります.データ駆動型研究の本質はパワーゲームです.ビッグデータとスモールデータが混在する複合的な領域でMIの在るべき姿をデモンストレーションしていきたいと考えています.特にデータ駆動型研究のような超学際領域では,小規模なグループによる競争型研究では到達可能な領域は限定的になります.この限界を突破するには,広範な専門性を持つ多数の研究者が分野・組織・国境の垣根を越えて資源・知識・技術を共有し,集合知を活用した「共創」を図っていく必要があります.マテリアルズインフォマティクス研究推進センターは,産学の多くの研究者らと共に共創型研究による学理融合とデータ駆動型研究の新分野創成のハブ機能を担っていきます.
図1: センターのビジョン:データ駆動型材料研究における共通基盤データ創出とオープン・クローズド領域のデータを統合する機械学習の方法論・アルゴリズム構築
参考文献
[1] Ikebata et al., J Comput Aided Mol Des 31, 379–391 (2017).
[2] Yamada et al., ACS Cent Sci 5, 1717–1730 (2019).
[3] Aoki et al., Macromolecules 56, 5446–5456 (2023).
[4] Minami et al., Adv Neural Inf Process Syst 30 (2023).
[5] Hayashi et al., npj Comput Mater 8, 222 (2022).
[6] Kusaba et al., Comput Mater Sci 211, 111496 (2022).
[7] Noda et al., arXiv, arXiv:2404.08657 (2024).
[8] Wu et al., npj Comput Mater 5, 66 (2019).
[9] Liu et al., Adv Mater 33, 2102507 (2021).
[10] Liu et al., Phys Rev Mater 7, 093805 (2023).
[11] Uryu et al., Adv Sci 11, 2304546 (2024).
[12] Ju et al.. Phys Rev Mater 5, 053801 (2021).
[13] Maeda et al., ChemRxiv 10.26434/chemrxiv-2024-tj786 (2024).
[14] Nanjo et al.. arXiv, arXiv:2408.05135 (2024).
設置時期
令和6年3月1日