gflownet-tlm: Программа реализации алгоритмов обучения обратной политики в GFlowNets в задачах генерации молекул и бинарных последовательностей

Наименование РИД	gflownet-tlm: Программа реализации алгоритмов обучения обратной политики в GFlowNets в задачах генерации молекул и бинарных последовательностей
Реферат	Репозиторий реализует Trajectory Likelihood Maximization (TLM) – алгоритм для оптимизации обратной политики в генеративных потоковых сетях (GFlowNets). Система устраняет ключевое ограничение недавних работ, связывающих GFlowNets и soft RL, которые требовали фиксированной обратной политики, и предлагает метод для одновременного обучения политик. Метод выведен как минимизация KL-дивергенции между распределениями траекторий, порожденных прямым и обратными политиками. На первом шаге обратная политика обновляется градиентным шагом для максимизации правдоподобия траекторий, сгенерированных из текущей прямой политики. На втором шаге прямая политика оптимизируется, используя обновленную обратную политику. Оптимизация прямой политики поддерживает любой GFlowNet или soft RL-алгоритм. Код реализован на PyTorch и включает реализации DB (Detailed Balance), TB (Trajectory Balance), SubTB (Subtrajectory Balance), SoftDQN и MunchausenDQN. Для стабильного обучения алгоритм TLM использует target-сети для предсказания обратной политики (обновляемую через алгоритм EMA), аккуратную работу со скоростью обучения обратной политики и равномерную инициализацию. Валидация проводится на классических в области задачах: Hypergrid, Bit Sequences, sEH и QM9. TLM сравнивается с другими видами стратегий обучения обратной политики 'uniform', 'naive' и ‘maximum entropy'. В результате, TLM улучшает скорость сходимость и обнаружение мод, особенно в сложных, менее структурированных задачах, таких как QM9.
Возможные направления использования	Код может быть использован для генерации многоразмерных композитных объектов. В качестве примера, реализована генерация молекул с заданными свойствами.
Количество опытных образцов	0
Количество просмотров	3
Наличие дополнительных файлов	False
Использование РИД правообладателем	False
Внешнее использование РИД	False
НИОКТР (JSON)	{}
ИКСИ (JSON)	[]
ИКСПО (JSON)	[{"last_status": {"created_date": "2026-01-05T15:37:03.558076+00:00", "registration_number": "826010500115-3", "status": {"name": "Подтверждена"}}, "copyright_protections": [{"protection_way": {"name": "Осуществлена государственная регистрация"}}]}]
ОЭСР (JSON)	[]
Дата первого статуса	2025-11-11T09:49:12.476196+00:00
Предполагаемый тип результата	Программа для ЭВМ
Ожидаемая роль	Исполнитель
Заказчик	Правительство Российской Федерации
Руководитель работы	Аланов Айбек
Руководитель организации	Соколов Игорь Владимирович
Регистрационный номер НИОКТР	125022002690-9
Последний статус	Подтверждена, 625121500255-2, 2025-12-15 12:09:27 UTC
ОКПД	Работы оригинальные научных исследований и экспериментальных разработок в области естественных и технических наук, кроме биотехнологии
Ключевые слова	Машинное обучение; Алгоритмы обучения; Генеративные потоковые сети
Исполнители	ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ "ВЫСШАЯ ШКОЛА ЭКОНОМИКИ"
Авторы	Самсонов Сергей Владимирович; Тяпкин Даниил Николаевич; Морозов Никита Витальевич; Грицаев Тимофей Григорьевич
Коды тематических рубрик	28.23.25 - Модели и системы обучения
OESR	Компьютерные, информационные науки и биоинформатика (разработка аппаратного обеспечения относится к разделу 2.2, социальный аспект относится к разделу 5.8)
Приоритеты научно-технического развития	а) переход к передовым технологиям проектирования и создания высокотехнологичной продукции, основанным на применении интеллектуальных производственных решений, роботизированных и высокопроизводительных вычислительных систем, новых материалов и химических соединений, результатов обработки больших объемов данных, технологий машинного обучения и искусственного интеллекта;