Описание и условия предоставления услуги «ML Inference». Приложение № 1.EVO.11.1.

Версия 250324

Последнее обновление: 24 марта 2025 г.

Вступление в силу: 3 апреля 2025 г.

1. Общая информация и описание Услуги

1.1. Evolution ML Inference (далее – Услуга) – это облачное решение для развертывания ML-моделей, которое поддерживает динамическое масштабирование и взаимодействие с разными источниками событий, такими как HTTP-запросы.

1.2. Услуга реализована на оборудовании, принадлежащем Исполнителю, и средствами системы виртуализации собственной разработки (в т. ч. на базе компонентов с открытым исходным кодом). Ресурсом Услуги является ML-модель.

1.3. Функциональные возможности:

1.3.1. развертывание ML-моделей для обработки запросов или событий;

1.3.2. развертывание контейнеров для обработки запросов или событий;

1.3.3. загрузка моделей из HuggingFace публичных и приватных репозиториев;

1.3.4. автоматическое масштабирование модели в зависимости от нагрузки;

1.3.5. управление и контроль доступа к модели;

1.3.6. мониторинг и сбор статистики по потреблению ресурсов модели;

1.3.7. управление конфигурацией модели.

1.4. Услуга состоит из следующих компонентов:

1.4.1. сервис-контроллер для управления Услугой из личного кабинета Облачной Платформы;

1.4.2. компонент сбора данных мониторинга;

1.4.3. компонент, отвечающий за управление жизненным циклом продукта;

1.4.4. компонент, отвечающий за сбор тарификационных данных;

1.4.5. интеграция с сервисом Evolution Artifact Registry;

1.4.6. Платформа Evolution, обеспечивающая выбор виртуальных машин (ВМ) для разворачивания программного обеспечения.

1.5. Обеспечение защиты Инфраструктуры.

Защита инфраструктуры Облачной Платформы обеспечивается на следующих уровнях:

на физическом уровне;
на сетевом уровне;
на инфраструктурном уровне;
обеспечение защиты от несанкционированного доступа к виртуальным машинам (ВМ), на которых функционирует сервис;
антивирусная защита виртуальных машин, на которых функционирует сервис;
периодическая проверка на соответствие требованиям информационной безопасности (в том числе с использованием сканеров безопасности) и обновление образов виртуальных машин, используемых сервисом, и установленной на них операционной системой;
мониторинг и реагирование на инциденты информационной безопасности, возникающие при функционировании сервиса;
межсетевое экранирование сетевых потоков сервиса средствами Платформы Evolution.

1.6. Квоты и ограничения, которые накладываются на запуск моделей Заказчика в рамках одной Организации, описаны в Таблице 1.

Таблица 1. Ограничения по доступным объёмам услуг в рамках Организации
Объекты	Единицы	Ограничения
Видео память GPU H100 PCIe	Гб	0
Видео память GPU A100 PCIe	Гб	0
Видео память GPU V100 NVLink	Гб	12
Видео память GPU H100 NVLink	Гб	0
GPU	Шт	0

2. Базовая функциональность и Ресурсы Услуги

2.1. Параметры Услуги:

Таблица 2. Параметры предоставляемых услуг
Услуга	Тарифицируемые единицы	Характеристики и метрики	Допустимые значения
Shared GPU¹	Видео память GPU H100 PCIe	Объем vRAM GPU (ГБ)	1
	Видео память GPU H100 PCIe	Время работы (минуты)	1
	Видео память GPU A100 PCIe	Объем vRAM GPU (ГБ)	1
	Видео память GPU A100 PCIe	Время работы (минуты)	1
	Видео память GPU V100 NVLink	Объем vRAM GPU (ГБ)	1
	Видео память GPU V100 NVLink	Время работы (минуты)	1
	Видео память GPU H100 NVLink	Объем vRAM GPU (ГБ)	1
	Видео память GPU H100 NVLink	Время работы (минуты)	1
Вычислительные ресурсы	Инстанс тип 1xH100 NVLink /20vCPU/190Gb RAM	Количество vСPU (шт.)	20
		Объём RAM (ГБ)	190
		Количество GPU (шт.)	1
		Время работы (минуты)	1
	Инстанс тип 2xH100 NVLink /40vCPU/380Gb RAM	Количество vСPU (шт.)	40
		Объём RAM (ГБ)	380
		Количество GPU (шт.)	2
		Время работы (минуты)	1
	Инстанс тип 4xH100 NVLink /80vCPU/760Gb RAM	Количество vСPU (шт.)	80
		Объём RAM (ГБ)	760
		Количество GPU (шт.)	4
		Время работы (минуты)	1
	Инстанс тип 6xH100 NVLink /120vCPU/1140Gb RAM	Количество vСPU (шт.)	120
		Объём RAM (ГБ)	1 140
		Количество GPU (шт.)	6
		Время работы (минуты)	1
	Инстанс тип 8xH100 NVLink /160vCPU/1520Gb RAM	Количество vСPU (шт.)	160
		Объём RAM (ГБ)	1 520
		Количество GPU (шт.)	8
		Время работы (минуты)	1
	Инстанс тип 1xV100 NVLink /4vCPU/64Gb RAM	Количество vСPU (шт.)	4
		Объём RAM (ГБ)	64
		Количество GPU (шт.)	1
		Время работы (минуты)	1
	Инстанс тип 2xV100 NVLink /8vCPU/128Gb RAM	Количество vСPU (шт.)	8
		Объём RAM (ГБ)	128
		Количество GPU (шт.)	2
		Время работы (минуты)	1
	Инстанс тип 4xV100 NVLink /16vCPU/256Gb RAM	Количество vСPU (шт.)	16
		Объём RAM (ГБ)	256
		Количество GPU (шт.)	4
		Время работы (минуты)	1
	Инстанс тип 8xV100 NVLink /32vCPU/512Gb RAM	Количество vСPU (шт.)	32
		Объём RAM (ГБ)	512
		Количество GPU (шт.)	8
		Время работы (минуты)	1
	Инстанс тип 16xV100 NVLink/64vCPU/1024Gb RAM	Количество vСPU (шт.)	64
		Объём RAM (ГБ)	1024
		Количество GPU (шт.)	16
		Время работы (минуты)	1
	Инстанс тип 1xA100 PCIe/20vCPU/125Gb RAM	Количество vСPU (шт.)	20
		Объём RAM (ГБ)	125
		Количество GPU (шт.)	1
		Время работы (минуты)	1
	Инстанс тип 2xA100 PCIe/40vCPU/250Gb RAM	Количество vСPU (шт.)	40
		Объём RAM (ГБ)	250
		Количество GPU (шт.)	2
		Время работы (минуты)	1
	Инстанс тип 4xA100 PCIe/80vCPU/500Gb RAM	Количество vСPU (шт.)	80
		Объём RAM (ГБ)	500
		Количество GPU (шт.)	4
		Время работы (минуты)	1
	Инстанс тип 6xA100 PCIe/120vCPU/750Gb RAM	Количество vСPU (шт.)	120
		Объём RAM (ГБ)	750
		Количество GPU (шт.)	6
		Время работы (минуты)	1
	Инстанс тип 8xA100 PCIe/160vCPU/1000Gb RAM	Количество vСPU (шт.)	160
		Объём RAM (ГБ)	1 000
		Количество GPU (шт.)	8
		Время работы (минуты)	1
	Инстанс тип 1xH100 PCIe/20vCPU/125Gb RAM	Количество vСPU (шт.)	20
		Объём RAM (ГБ)	125
		Количество GPU (шт.)	1
		Время работы (минуты)	1
Инстанс тип 2xH100 PCIe/40vCPU/250Gb RAM	Количество vСPU (шт.)	40
	Объём RAM (ГБ)	250
	Количество GPU (шт.)	2
	Время работы (минуты)	1
Инстанс тип 4xH100 PCIe/80vCPU/500Gb RAM	Количество vСPU (шт.)	80
	Объём RAM (ГБ)	500
	Количество GPU (шт.)	4
	Время работы (минуты)	1
Инстанс тип 6xH100 PCIe/120vCPU/750Gb RAM	Количество vСPU (шт.)	120
	Объём RAM (ГБ)	750
	Количество GPU (шт.)	6
	Время работы (минуты)	1
Инстанс тип 8xH100 PCIe/160vCPU/1000Gb RAM	Количество vСPU (шт.)	160
	Объём RAM (ГБ)	1 000
	Количество GPU (шт.)	8
	Время работы (минуты)	1
Кэш ML-моделей²	Хранение модели	Объем модели (Гб)	1
Кэш ML-моделей²	Хранение модели	Время работы (минуты)	1
Запросы к ML-моделям	Запросы в запущенный инстанс	Запросы (шт)	1 000 000

Примечания

[1] : Shared GPU – Заказчику предоставляется возможность частичного потребления GPU-ресурса (в пределах его физического объёма памяти), что позволяет гибко утилизировать ресурсы, а также эффективно (с т.з. цены) размещать ML-модели.

[2] : Кэш ML-моделей: временные файлы, формируемые запущенной ML-Моделью, необходимые для ее работы. Указанное пространство не является хранилищем Заказчика (в т.ч. для долгосрочного хранения информации), очищается автоматически в момент, когда ML-Модель не используется Заказчиком.

3. Тарификация Услуги

3.1. Для данной Услуги используется Динамическая тарификация (Pay-as-you-go). Клиент начинает платить за запущенную модель после переход ее в статус «Запущено», и плата начисляется за потребляемые вычислительные Ресурсы, хранения модели и количеству обращений в модель.

3.2. Динамическая тарификация предполагает оплату пула ресурсов (см. п. 2.1. Приложения) по факту их потребления Заказчиков в течение Отчетного периода.

3.3. Окончательная стоимость Услуги в Отчетном периоде формируется в соответствии с тарифами, установленными в Приложении № 7.EVO.11.1. к Договору.

3.4. Объекты тарификации:

Тарифицируются вычислительне ресурсы
Тарифицируется хранение модели в кэше
Тарифицируются запросы к модели

3.5. Величина ежемесячного платежа за пользование Услугой определяется в соответствии с фактическим потреблением Ресурсов. Доступные Ресурсы и методика расчета перечислены в примере ниже:

3.6. Пример расчета

3.6.1. Для Shared GPU¹

Общая формула расчета:

\[\begin{split}\begin{align} \text{Стоимость} &= (\text{vRAM Гб} \times \text{цена 1Гб vRAM GPU} + (\text{Запросы (в млн.)} \times 12.8 \text{₽/миллион запросов}) \\ & + \text{Кеш ML-модели(Гб)} \times 0.013 \text{₽/Гб}) \times \text{Время в часах} \end{align}\end{split}\]

Где:

vRAM Гб — Объем выделенной видеопамяти GPU в гигабайтах;
цена 1Гб vRAM GPU — Стоимость 1Гб видео памяти GPU карты, указана в Тарифах Услуги;
Запросы — Количество обработанных запросов (в миллионах).;
Кеш ML-модели(Гб) — Объем модели в кэше в гигабайтах;
Время в часах — Продолжительность работы в часах.

Пример расчета (Цена 1Гб H100: 5,625 руб; Запросы: 5 млн; Объем модели: 4 ГБ; Время: 1 час;):

\[\text{Стоимость} = (8 \times 5.625 + (5 \times 12.8) + 4 \times 0.013) \times 1 = 109.052\]

3.6.2. Для Инстанс типов:

Общая формула расчета:

\[\begin{split}\begin{align} \text{Стоимость} &= \text{Стоимость Инстанса в час} + \text{Запросы (в млн.)} \times 12.8 \text{₽/миллион запросов} \\ & + \text{Кеш ML-модели(Гб)} \times 0.013 \text{₽/гб} \times \text{Время в часах} \end{align}\end{split}\]

Где:

Стоимость Инстанса — Фиксированная стоимость выделенного оборудования указана в Тарифах Услуги;
Запросы — Количество обработанных запросов (в миллионах).;
Кеш ML-модели(Гб) — Объем модели в кэше в гигабайтах;
Время в часах — Продолжительность работы в часах.

Пример расчета (Стоимость инстанса: 450 ₽/час; Запросы: 5 млн; Объем модели: 20 ГБ; Время: 1 час.):

\[\text{Стоимость} = 450 + 5 \times 12.8 + 20 \times 0.013 \times 1 = 514.26 \text{₽}\]

4. Иные условия, применимые к Услуге

4.1. Возможные виды подключения / изменения / отключения Услуги:

4.1.1. Посредством совершения действий в Личном кабинете.

4.1.2. В отношении с GPU — в порядке, установленном в пункте п.5.5 Приложения.

4.2. Возможный порядок расчётов по Услуге:

Предоплата 3;
Постоплата 4;

4.3. Возможные способы оплаты / порядок пополнения Баланса:

4.3.1. В безналичном порядке на основании выставленного Исполнителем счёта;

4.3.2. оплата посредством электронных средств платежа.

4.4. Требования к инфраструктуре Заказчика:

4.4.1. Наличие доступа в Интернет.

4.5. Стороны установили следующий порядок Заказа GPU/Увеличиения объема памяти GPU по Приложению:

4.5.1. Подключение Услуги осуществляется Исполнителем на основании Запроса на изменение (ЗНИ) через службу технической поддержки Исполнителя. Запрос должен быть направлен не позднее, чем за 6 (шесть) рабочих дней до желаемой даты начала потребления Услуги;

4.5.2. В течение 3 (трех) рабочих дней Исполнитель обязуется рассмотреть ЗНИ на подключение Услуги и направить ответ (информацию о подключении Услуги или отказ в её предоставлении Услуги);

4.5.3. В случае согласования Сторонами Заказа Услуги она предоставляется в дату начала её оказания (в соответствии с информацией в ЗНИ) с 10:00 по московскому времени.

Примечания

3: Является способом по умолчанию для физически лиц, присоединившихся к условиям Договора/Оферте путём акцепта (п. 1.5. Договора/Оферты).
4: Является способом по умолчанию для юридических лиц.

5. Особенности уровня предоставления Услуги

5.1. В соответствии с пп. 1.1.4. вносятся следующие уточнения в уровень предоставления Услуги, действующий в отношении услуг Evolution по умолчанию (Приложения № 2.EVO.0. к Договору).5.2. Для Услуги устанавливаются следующие особенности определения уровня Доступности:

5.2.1. Доступность рассчитывается отдельно для каждого Ресурса Услуги (п. 1.2. Приложения);

5.2.2. Недоступностью Услуги является ситуация, при которой ML-моделей была развернута и, находясь в статусе «Запущена», не принимает запросы/события и не дает ответа в течение 5 (пяти) и более минут по причинам, зависящим от Cloud.ru

5.2.3. Компенсация выплачивается пропорционально объёму недоступных Ресурсов Услуги, т.е. Компенсация за нарушение целевых показателей Доступности Услуги рассчитывается согласно количеству недоступных Ресурсов.

5.3. Во всём остальном в части уровня предоставления Услуги применимы положения Приложения № 2.EVO.0. к Договору.