Описание и условия предоставления услуги «ML Inference». Приложение № 1.EVO.11.1.
Версия 250324
Последнее обновление: 24 марта 2025 г.
Вступление в силу: 3 апреля 2025 г.
1. Общая информация и описание Услуги
1.1. Evolution ML Inference (далее – Услуга) – это облачное решение для развертывания ML-моделей, которое поддерживает динамическое масштабирование и взаимодействие с разными источниками событий, такими как HTTP-запросы.
1.2. Услуга реализована на оборудовании, принадлежащем Исполнителю, и средствами системы виртуализации собственной разработки (в т. ч. на базе компонентов с открытым исходным кодом). Ресурсом Услуги является ML-модель.
1.3. Функциональные возможности:
1.3.1. развертывание ML-моделей для обработки запросов или событий;
1.3.2. развертывание контейнеров для обработки запросов или событий;
1.3.3. загрузка моделей из HuggingFace публичных и приватных репозиториев;
1.3.4. автоматическое масштабирование модели в зависимости от нагрузки;
1.3.5. управление и контроль доступа к модели;
1.3.6. мониторинг и сбор статистики по потреблению ресурсов модели;
1.3.7. управление конфигурацией модели.
1.4. Услуга состоит из следующих компонентов:
1.4.1. сервис-контроллер для управления Услугой из личного кабинета Облачной Платформы;
1.4.2. компонент сбора данных мониторинга;
1.4.3. компонент, отвечающий за управление жизненным циклом продукта;
1.4.4. компонент, отвечающий за сбор тарификационных данных;
1.4.5. интеграция с сервисом Evolution Artifact Registry;
1.4.6. Платформа Evolution, обеспечивающая выбор виртуальных машин (ВМ) для разворачивания программного обеспечения.
1.5. Обеспечение защиты Инфраструктуры.
Защита инфраструктуры Облачной Платформы обеспечивается на следующих уровнях:
на физическом уровне;
на сетевом уровне;
на инфраструктурном уровне;
обеспечение защиты от несанкционированного доступа к виртуальным машинам (ВМ), на которых функционирует сервис;
антивирусная защита виртуальных машин, на которых функционирует сервис;
периодическая проверка на соответствие требованиям информационной безопасности (в том числе с использованием сканеров безопасности) и обновление образов виртуальных машин, используемых сервисом, и установленной на них операционной системой;
мониторинг и реагирование на инциденты информационной безопасности, возникающие при функционировании сервиса;
межсетевое экранирование сетевых потоков сервиса средствами Платформы Evolution.
1.6. Квоты и ограничения, которые накладываются на запуск моделей Заказчика в рамках одной Организации, описаны в Таблице 1.
Объекты | Единицы | Ограничения |
---|---|---|
Видео память GPU H100 PCIe | Гб | 0 |
Видео память GPU A100 PCIe | Гб | 0 |
Видео память GPU V100 NVLink | Гб | 12 |
Видео память GPU H100 NVLink | Гб | 0 |
GPU | Шт | 0 |
2. Базовая функциональность и Ресурсы Услуги
2.1. Параметры Услуги:
Услуга | Тарифицируемые единицы | Характеристики и метрики | Допустимые значения |
---|---|---|---|
Shared GPU1 | Видео память GPU H100 PCIe | Объем vRAM GPU (ГБ) | 1 |
Время работы (минуты) | 1 | ||
Видео память GPU A100 PCIe | Объем vRAM GPU (ГБ) | 1 | |
Время работы (минуты) | 1 | ||
Видео память GPU V100 NVLink | Объем vRAM GPU (ГБ) | 1 | |
Время работы (минуты) | 1 | ||
Видео память GPU H100 NVLink | Объем vRAM GPU (ГБ) | 1 | |
Время работы (минуты) | 1 | ||
Вычислительные ресурсы | Инстанс тип 1xH100 NVLink /20vCPU/190Gb RAM | Количество vСPU (шт.) | 20 |
Объём RAM (ГБ) | 190 | ||
Количество GPU (шт.) | 1 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 2xH100 NVLink /40vCPU/380Gb RAM | Количество vСPU (шт.) | 40 | |
Объём RAM (ГБ) | 380 | ||
Количество GPU (шт.) | 2 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 4xH100 NVLink /80vCPU/760Gb RAM | Количество vСPU (шт.) | 80 | |
Объём RAM (ГБ) | 760 | ||
Количество GPU (шт.) | 4 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 6xH100 NVLink /120vCPU/1140Gb RAM | Количество vСPU (шт.) | 120 | |
Объём RAM (ГБ) | 1 140 | ||
Количество GPU (шт.) | 6 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 8xH100 NVLink /160vCPU/1520Gb RAM | Количество vСPU (шт.) | 160 | |
Объём RAM (ГБ) | 1 520 | ||
Количество GPU (шт.) | 8 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 1xV100 NVLink /4vCPU/64Gb RAM | Количество vСPU (шт.) | 4 | |
Объём RAM (ГБ) | 64 | ||
Количество GPU (шт.) | 1 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 2xV100 NVLink /8vCPU/128Gb RAM | Количество vСPU (шт.) | 8 | |
Объём RAM (ГБ) | 128 | ||
Количество GPU (шт.) | 2 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 4xV100 NVLink /16vCPU/256Gb RAM | Количество vСPU (шт.) | 16 | |
Объём RAM (ГБ) | 256 | ||
Количество GPU (шт.) | 4 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 8xV100 NVLink /32vCPU/512Gb RAM | Количество vСPU (шт.) | 32 | |
Объём RAM (ГБ) | 512 | ||
Количество GPU (шт.) | 8 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 16xV100 NVLink/64vCPU/1024Gb RAM | Количество vСPU (шт.) | 64 | |
Объём RAM (ГБ) | 1024 | ||
Количество GPU (шт.) | 16 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 1xA100 PCIe/20vCPU/125Gb RAM | Количество vСPU (шт.) | 20 | |
Объём RAM (ГБ) | 125 | ||
Количество GPU (шт.) | 1 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 2xA100 PCIe/40vCPU/250Gb RAM | Количество vСPU (шт.) | 40 | |
Объём RAM (ГБ) | 250 | ||
Количество GPU (шт.) | 2 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 4xA100 PCIe/80vCPU/500Gb RAM | Количество vСPU (шт.) | 80 | |
Объём RAM (ГБ) | 500 | ||
Количество GPU (шт.) | 4 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 6xA100 PCIe/120vCPU/750Gb RAM | Количество vСPU (шт.) | 120 | |
Объём RAM (ГБ) | 750 | ||
Количество GPU (шт.) | 6 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 8xA100 PCIe/160vCPU/1000Gb RAM | Количество vСPU (шт.) | 160 | |
Объём RAM (ГБ) | 1 000 | ||
Количество GPU (шт.) | 8 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 1xH100 PCIe/20vCPU/125Gb RAM | Количество vСPU (шт.) | 20 | |
Объём RAM (ГБ) | 125 | ||
Количество GPU (шт.) | 1 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 2xH100 PCIe/40vCPU/250Gb RAM | Количество vСPU (шт.) | 40 | |
Объём RAM (ГБ) | 250 | ||
Количество GPU (шт.) | 2 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 4xH100 PCIe/80vCPU/500Gb RAM | Количество vСPU (шт.) | 80 | |
Объём RAM (ГБ) | 500 | ||
Количество GPU (шт.) | 4 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 6xH100 PCIe/120vCPU/750Gb RAM | Количество vСPU (шт.) | 120 | |
Объём RAM (ГБ) | 750 | ||
Количество GPU (шт.) | 6 | ||
Время работы (минуты) | 1 | ||
Инстанс тип 8xH100 PCIe/160vCPU/1000Gb RAM | Количество vСPU (шт.) | 160 | |
Объём RAM (ГБ) | 1 000 | ||
Количество GPU (шт.) | 8 | ||
Время работы (минуты) | 1 | ||
Кэш ML-моделей2 | Хранение модели | Объем модели (Гб) | 1 |
Время работы (минуты) | 1 | ||
Запросы к ML-моделям | Запросы в запущенный инстанс | Запросы (шт) | 1 000 000 |
Примечания
[1] : Shared GPU – Заказчику предоставляется возможность частичного потребления GPU-ресурса (в пределах его физического объёма памяти), что позволяет гибко утилизировать ресурсы, а также эффективно (с т.з. цены) размещать ML-модели.
[2] : Кэш ML-моделей: временные файлы, формируемые запущенной ML-Моделью, необходимые для ее работы. Указанное пространство не является хранилищем Заказчика (в т.ч. для долгосрочного хранения информации), очищается автоматически в момент, когда ML-Модель не используется Заказчиком.
3. Тарификация Услуги
3.1. Для данной Услуги используется Динамическая тарификация (Pay-as-you-go). Клиент начинает платить за запущенную модель после переход ее в статус «Запущено», и плата начисляется за потребляемые вычислительные Ресурсы, хранения модели и количеству обращений в модель.
3.2. Динамическая тарификация предполагает оплату пула ресурсов (см. п. 2.1. Приложения) по факту их потребления Заказчиков в течение Отчетного периода.
3.3. Окончательная стоимость Услуги в Отчетном периоде формируется в соответствии с тарифами, установленными в Приложении № 7.EVO.11.1. к Договору.
3.4. Объекты тарификации:
Тарифицируются вычислительне ресурсы
Тарифицируется хранение модели в кэше
Тарифицируются запросы к модели
3.5. Величина ежемесячного платежа за пользование Услугой определяется в соответствии с фактическим потреблением Ресурсов. Доступные Ресурсы и методика расчета перечислены в примере ниже:
3.6. Пример расчета
3.6.1. Для Shared GPU1
Общая формула расчета:
Где:
vRAM Гб — Объем выделенной видеопамяти GPU в гигабайтах;
цена 1Гб vRAM GPU — Стоимость 1Гб видео памяти GPU карты, указана в Тарифах Услуги;
Запросы — Количество обработанных запросов (в миллионах).;
Кеш ML-модели(Гб) — Объем модели в кэше в гигабайтах;
Время в часах — Продолжительность работы в часах.
Пример расчета (Цена 1Гб H100: 5,625 руб; Запросы: 5 млн; Объем модели: 4 ГБ; Время: 1 час;):
3.6.2. Для Инстанс типов:
Общая формула расчета:
Где:
Стоимость Инстанса — Фиксированная стоимость выделенного оборудования указана в Тарифах Услуги;
Запросы — Количество обработанных запросов (в миллионах).;
Кеш ML-модели(Гб) — Объем модели в кэше в гигабайтах;
Время в часах — Продолжительность работы в часах.
Пример расчета (Стоимость инстанса: 450 ₽/час; Запросы: 5 млн; Объем модели: 20 ГБ; Время: 1 час.):
4. Иные условия, применимые к Услуге
4.1. Возможные виды подключения / изменения / отключения Услуги:
4.1.1. Посредством совершения действий в Личном кабинете.
4.1.2. В отношении с GPU — в порядке, установленном в пункте п.5.5 Приложения.
4.2. Возможный порядок расчётов по Услуге:
4.3. Возможные способы оплаты / порядок пополнения Баланса:
4.3.1. В безналичном порядке на основании выставленного Исполнителем счёта;
4.3.2. оплата посредством электронных средств платежа.
4.4. Требования к инфраструктуре Заказчика:
4.4.1. Наличие доступа в Интернет.
4.5. Стороны установили следующий порядок Заказа GPU/Увеличиения объема памяти GPU по Приложению:
4.5.1. Подключение Услуги осуществляется Исполнителем на основании Запроса на изменение (ЗНИ) через службу технической поддержки Исполнителя. Запрос должен быть направлен не позднее, чем за 6 (шесть) рабочих дней до желаемой даты начала потребления Услуги;
4.5.2. В течение 3 (трех) рабочих дней Исполнитель обязуется рассмотреть ЗНИ на подключение Услуги и направить ответ (информацию о подключении Услуги или отказ в её предоставлении Услуги);
4.5.3. В случае согласования Сторонами Заказа Услуги она предоставляется в дату начала её оказания (в соответствии с информацией в ЗНИ) с 10:00 по московскому времени.
Примечания
5. Особенности уровня предоставления Услуги
5.1. В соответствии с пп. 1.1.4. вносятся следующие уточнения в уровень предоставления Услуги, действующий в отношении услуг Evolution по умолчанию (Приложения № 2.EVO.0. к Договору).5.2. Для Услуги устанавливаются следующие особенности определения уровня Доступности:
5.2.1. Доступность рассчитывается отдельно для каждого Ресурса Услуги (п. 1.2. Приложения);
5.2.2. Недоступностью Услуги является ситуация, при которой ML-моделей была развернута и, находясь в статусе «Запущена», не принимает запросы/события и не дает ответа в течение 5 (пяти) и более минут по причинам, зависящим от Cloud.ru
5.2.3. Компенсация выплачивается пропорционально объёму недоступных Ресурсов Услуги, т.е. Компенсация за нарушение целевых показателей Доступности Услуги рассчитывается согласно количеству недоступных Ресурсов.
5.3. Во всём остальном в части уровня предоставления Услуги применимы положения Приложения № 2.EVO.0. к Договору.