Ускоряем обучения LLM более, чем на 45%: увеличиваем реальную утилизацию GPU при помощи оптимизации использования памяти, коммуникаций и здравого смысла

Нейронные сети и искусственный интеллект (data science)

Python

Machine Learning

2 декабря, 12:25, Зал «05. Мумбаи (2 этаж)»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Доклад будет ценен всем тем, кто ставит обучения больших моделей и/или учит свои модели на кластерах с несколькими хостами.

Тезисы

Скачать презентацию Все презентации конференции

У нас получилось ускорить наши претрейны в полтора раза, а соседние сценарии Alignment/DPO в 5-10 раз! Как и за счет чего можно достичь такой скорости?

В докладе я расскажу про: * особенности обучения на больших кластерах и узкие места в современных претрейнах; * библиотеку YaFSDP как способ побороть неэффективности в коммуникациях; * оптимизации памяти; * ценность 3d-4d-параллелизма для обучения реально больших моделей; * о том, как мы ускорили MoE.

Возможно, будут и другие секретные оптимизации. Мы ускоряем наши обучения постоянно, поэтому к моменту выступления доклад может наполниться еще одним-двумя трюками.

Михаил Хрущев

Яндекс

Руководит разработкой претрейна YandexGPT.

Яндекс

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.