ИИ-сервер для видеоаналитики в 2026: GPU, декодирование, сеть и запас по развитию

Что изменилось к середине 2026 года

NVIDIA развивает сразу несколько классов GPU для AI-инференса. RTX PRO 6000 Blackwell Server Edition (GB202, 5 нм, 92 млрд транзисторов) дает 96 GB GDDR7 и современные NVENC/NVDEC - оптимально для смешанных нагрузок: computer vision, декодирование видео, графика и LLM-инференс на одной платформе. H200 (141 GB HBM3e, 4.8 TB/s пропускная способность) остается сильным выбором для тяжелых моделей. B200 (192 GB HBM3e, ~8 TB/s) выходит на уровень AI Factory, но для обычной видеоаналитики его нужно обосновывать.

AMD продолжает конкурировать в сегменте high-memory: MI300X (192 GB HBM3), а анонсированный MI350X (288 GB HBM3E) обещает до 4x прироста AI-производительности. Реальные показатели зависят от software maturity: NVIDIA достигает 50-55% Model FLOPS Utilization на成熟ом стеке TensorRT/Triton, AMD - около 45% на ROCm. Для видеоаналитики это означает что выбор GPU должен подтверждаться не паспортными TFLOPS, а тестом на конкретном pipeline.

На edge-уровне NVIDIA Jetson Thor (JetPack 7, CUDA 13, TensorRT 10) поддерживает multi-camera 3D perception и 8K-декодирование. При $3,499 и 130W это платформа для локального inference рядом с оборудованием. Jetson Orin ($1,999, 64GB) остается рабочим выбором для камер с простыми моделями детекции.

Четыре потока нагрузки - и все важны

Голая производительность TFLOPS не отвечает на главный вопрос: сколько камер система стабильно обработает 24/7 при заданной задержке. Нужно считать четыре независимых потока.

Прием и декодирование видео

RTSP/GigE Vision/USB, битрейт, потери пакетов, буферизация. H.264/H.265/H.266, число аппаратных NVDEC, нагрузка CPU. Сервер не получает «готовые картинки из воздуха».

Инференс

Размер модели, FPS анализа, разрешение, batch, precision (FP16/INT8/FP4). TensorRT, Triton или DeepStream. Dynamic batching, model pipelining, concurrent execution.

Постобработка и интеграция

Трекинг, OCR, правила зон, запись JPEG/видео, MQTT/OPC UA/REST. CPU-нагрузка от Python/C++ сервисов, брокеров сообщений и базы данных.

Мониторинг и журнал

Prometheus + Grafana, FPS по камерам, задержка, температура GPU/CPU/NVMe, потери кадров, reconnect RTSP, версия модели. Без этого сервер работает «пока кто-то не пожалуется».

Декодирование важно не меньше GPU

Если NVDEC или CPU не успевают декодировать потоки, GPU может простаивать на 40% а задержка будет расти. Для серверов видеоаналитики мы отдельно проверяем: число аппаратных декодеров, поддерживаемые кодеки, запас сетевого интерфейса (1/10/25 GbE), CPU под RTSP и сервисы, RAM под буферы, NVMe под события и кэш. Видеокарта - это только половина сервера.

GPU для видеоаналитики: что когда выбирать

Серверные GPU: от RTX до H200

RTX PRO 6000 Blackwell Server Edition - универсальный выбор для смешанных нагрузок. 96 GB GDDR7, аппаратное декодирование, серверный форм-фактор с нормальным охлаждением. Подходит для 16-64 камер с несколькими моделями, журналом событий и локальным RAG. Две такие карты в одном сервере часто дают более разумный TCO чем один H200.

H200 (141 GB HBM3e) - для тяжелых моделей: high-resolution segmentation, крупные базы биометрии, multi-model ensembles. Оправдан когда действительно нужна пропускная способность памяти 4.8 TB/s, а не «на всякий случай».

B200 (192 GB HBM3e) - уровень AI Factory. Для обычной видеоаналитики избыточен, но уместен если на том же сервере планируются крупные LLM/RAG-нагрузки или кластерный inference.

L40S - бюджетный вариант для легких моделей детекции на 8-16 камерах. 48 GB GDDR6, хорошее декодирование, но ограничен по памяти для больших моделей.

Edge: Jetson Thor и Orin

Jetson Thor ($3,499, 130W): multi-camera, 8K decode, TensorRT 10, CUDA 13. Для участков где нужна низкая задержка и автономность.
Jetson Orin ($1,999, 64GB): 4-8 камер с простой детекцией, контроль СИЗ, учет людей. Рабочий выбор для edge.

AMD альтернатива

MI300X (192 GB HBM3) конкурентоспособен для high-memory inference, но требует проверки совместимости ROCm с конкретными моделями и фреймворками. Для стандартной видеоаналитики на DeepStream/TensorRT экосистема NVIDIA пока зрелее.

Три класса конфигураций

Класс	Камеры	GPU	Сценарий	Ключевые риски
Edge-узел на участке	4-16 камер	Jetson Orin/Thor	Простая детекция, локальный журнал, одна линия	Пыль, температура, удаленное сопровождение
Площадочный сервер	16-64 камеры	1-2x RTX PRO 6000 / L40S	Несколько моделей, DeepStream/Triton, Grafana, СКУД/SCADA	Охлаждение в стойке, сеть, пиковая нагрузка
Центральная AI-платформа	Сотни потоков	H200/B200/MI300X, кластер	Архив, RAG, LLM-ассистенты, аналитика	MLOps, resource limits, разделение контуров

Почему расчет «камеры × FPS» почти всегда ошибочен

На бумаге 32 камеры по 25 FPS = 800 кадров/с. На практике: для СИЗ достаточно 5 FPS, для конвейера нужен каждый кадр, для архива - только по событию. Одна камера контроля качества с trigger, segmentation и задержкой <100 мс может быть тяжелее десяти обзорных камер охраны труда. Расчет начинается не с числа камер, а с матрицы сценариев: разрешение, кодек, FPS анализа, тип модели, задержка.

Методика подбора: пример расчета

Что мы считаем для каждой камеры

разрешение и кодек (H.264/H.265);
битрейт и стабильность RTSP;
FPS анализа, а не только FPS потока;
тип модели: detection, segmentation, OCR, face recognition, tracking;
размер входа модели;
требования к задержке;
нужно ли хранить видео, кадры событий или только метаданные;
нужны ли LLM/RAG-нагрузки на той же платформе.

Пример: площадка хочет

24 камеры СИЗ 1080p, анализ 5 FPS;
6 камер распознавания лиц на проходах;
4 камеры контроля качества с trigger и 12 MP кадрами;
хранение JPEG событий 90 дней;
локальный RAG по регламентам и журналам инцидентов.

Это уже не «одна мощная видеокарта». Нужен сервер где отдельно проверены: декодирование 24 потоков, latency для 4 trigger-камер, отдельный сервис биометрии, журнал событий, база метаданных, RAG-сервис и мониторинг. Если посадить все в один docker-compose без resource limits - ночью при переиндексации документов просядет видеоаналитика.

Edge, центр или гибрид

Edge на участке: низкая задержка, автономность. Риск: сложнее обновлять парк устройств.
Центральный сервер: единый журнал, централизованное сопровождение. Риск: сеть - критичное звено.
Гибрид: быстрый inference локально, журнал и RAG централизованно. Риск: нужно проектировать синхронизацию и правила отказа.

Для критичных производственных сигналов мы чаще выбираем гибрид: локальный inference на участке, а журнал, отчеты, дообучение и RAG - на центральной платформе.

Методика подбора сервера

Шесть шагов от сценариев до приемки под нагрузкой.

01

Матрица камер и сценариев

Для каждой камеры: разрешение, FPS анализа, кодек, битрейт, тип модели, требуемая задержка, хранение, зона.

02

Расчет декодирования

Суммарный битрейт, число NVDEC, сетевой интерфейс, CPU под RTSP и сервисы, RAM под буферы. Проверяем запас по пиковой нагрузке.

03

Расчет инференса

Размер модели, batch, precision, FPS на камеру. TensorRT engine, Triton model config, dynamic batching, concurrent streams.

04

Подбор GPU и платформы

Выбор GPU под нагрузку. Серверный корпус с airflow, ECC-память где оправдано, NVMe под журнал и кэш, out-of-band management.

05

Интеграция и мониторинг

MQTT/OPC UA/REST, Grafana/Prometheus. FPS по камерам, задержка, температура, потери RTSP, версия модели, алерты.

06

Приемка под нагрузкой

24-72 часа реальных потоков. Reconnect камер, пиковая нагрузка, отказ диска/сети, обновление модели без потери журнала. Отчет с замеренными метриками.

Типовые ошибки при подборе сервера

Эти шесть пунктов превращают сервер в источник проблем вместо платформы для видеоаналитики.

Смотреть только на TFLOPS

Паспортные терафлопсы не учитывают декодирование, CPU, сеть, RAM и реальный pipeline. GPU может быть загружен на 40% при 100% NVDEC и расти задержке.

Собрать сервер как рабочую станцию

В стойке без серверного airflow GPU throttlит через 10 минут. Серверный корпус, охлаждение и питание - не опция, а требование.

Расчет по числу камер без FPS анализа

64 камеры СИЗ по 5 FPS и 4 камеры качества по 25 FPS с segmentation - принципиально разная нагрузка. Без матрицы сценариев расчет бесполезен.

Нет мониторинга

Сервер работает «пока кто-то не пожалуется». Без Grafana/Prometheus деградация после обновления драйвера или загрязнения фильтров обнаруживается через недели.

Все в один docker-compose

Видеоаналитика, биометрия, RAG и база без resource limits. Ночная переиндексация документов роняет FPS на камерах. Нужны очереди, limits и health checks.

Купить «на вырост» без плана развития

Сервер с H200 для 8 камер СИЗ - переплата. Сервер с L40S для будущих LLM - тупик. Платформа должна масштабироваться по GPU, RAM, NVMe и сети.

Связь с другими направлениями

ИИ-сервер для видеоаналитики - это фундамент, на который ложатся все сервисы Smart Video: контроль качества продукции, охрана труда и СИЗ, распознавание лиц, лазерный контроль геометрии.

Через AI Platforms платформа развивается от чистой видеоаналитики к полной локальной ИИ-инфраструктуре: RAG по регламентам, поиск по инцидентам, ассистенты инженера и службы безопасности, автоматические сводки. Сервер не становится тупиковой покупкой - он растет вместе с задачами предприятия.

Инженерная база проектов идет от Аквис-Сервис - питание, стойка, охлаждение и эксплуатация важны не меньше модели. Параллельно полезны наши исследования: контроль качества на производстве и видеоаналитика охраны труда - там разобраны конкретные сценарии нагрузки под разные типы камер и моделей.

Подберем сервер под ваши камеры и сценарии?

Опишите число камер, разрешение, модели и требования к задержке - рассчитаем конфигурацию с запасом по GPU, декодированию, сети и мониторингу.

Все услуги