트랜스포머 기반 대규모 언어 모델은 화학 세계를 실시간으로 탐구할 수 있는 새로운 가능성을 만들고 있습니다. BioNeMo는 NeMo Megatron에 구축되어 슈퍼컴퓨팅 규모로 생체 분자 LLM을 훈련하고 배포하기 위한 도메인별 프레임워크입니다. MegaMolBART, ESM-1b, ProtT5 트랜스포머 모델이 포함됩니다.
MegaMolBART는 14억 개의 분자에 대해 훈련된 생성 화학 모델(SMILES 스트링)이며, 소분자에 대한 반응 예측, 분자 최적화, 데노보 분자 생성과 같은 신약 개발의 다양한 화학정보학 응용 분야에 사용될 수 있습니다.
ProtT5와 ESM-1b는 비지도 사전 훈련을 사용하여 단백질 구조, 기능, 세포 위치, 수용성, 세포막 경계, 보존 및 가변 영역 등을 예측하는 특성을 포함하는 학습된 임베딩을 생성할 수 있음을 보여주었습니다.