Большие языковые модели на основе трансформеров открывают новые возможности для исследования химической вселенной в реальном времени BioNeMo — это предметно-ориентированный фреймворк для обучения и развертывания биомолекулярных LLM в масштабе суперкомпьютеров, построенный на базе NeMo Megatron. Он содержит модели трансформеров MegaMolBART, ESM-1b и ProtT5.
MegaMolBART представляет собой генеративную химическую модель, обученную на 1,4 миллиарда молекул (строк SMILES), которую можно использоваться для различных химико-информационных приложений при разработке лекарств, например для предсказания реакций, молекулярной оптимизации и генерации молекул de novo для малых молекул.
ProtT5 и ESM-1b продемонстрировали, что неконтролируемое предварительное обучение можно использовать для создания изученных вложений, содержащих свойства для предсказания структуры белка, его функции, расположения в клетке, растворимости в воде, мембраносвязанности, консервативных и вариабельных областей и т. д.