Transformer をベースとする大規模言語モデルは、化学の宇宙をリアルタイムで探索する可能性を新たに生み出しています。BioNeMo は、NeMo Megatron 上に構築された、スーパーコンピューティング規模で生体分子の LLM をトレーニングおよびデプロイするための領域特化型のフレームワークです。これには Transformer モデルの MegaMolBART、ESM-1b、ProtT5 が含まれます。
MegaMolBART は 14 億個の分子 (SMILES 文字列) でトレーニングされた、生成化学モデルであり、反応予測、分子最適化、小分子の de novo 分子生成など、創薬におけるさまざまなケモインフォマティクス用途に利用できます。
ProtT5 と ESM-1b は、教師なし事前学習を利用して、タンパク質の構造、機能、細胞部位、水溶性、膜結合性、保存領域、可変領域などを予測するための特性を含む学習済み埋め込みを生成できることを実証しています。