Edge-инференс в машинном зрении: когда Jetson, а когда сервер

Один вопрос - много ответов

Один и тот же вопрос мы слышим почти на каждом проекте: «Можно просто поставить камеру с обработкой внутри, или нужен отдельный сервер?»

За этим вопросом стоит реальная инженерная дилемма, в которой нет единственного правильного ответа. Всё зависит от задачи, среды, количества камер, требуемой задержки и допустимой цены ложной тревоги.

Мы в Smart Video проектируем системы машинного зрения под конкретное производство, а не продаём коробку. И за несколько лет практики у нас сложился набор критериев, по которым мы выбираем архитектуру инференса. В этом исследовании я разберу их без маркетинга и с цифрами.

По данным Gartner, к 2025 году 75% корпоративных данных начали обрабатывать на edge - против 10% в 2018-м. Это не тренд, а инженерная необходимость: когда решение должно управлять исполнительным механизмом в рамках одного цикла конвейера, сетевой хоп - это лишние 10-50 миллисекунд, которые могут стоить линии.

Три архитектурных уровня

На практике выбор - не бинарный. Это спектр от камеры до серверной.

Умная камера

Инференс в корпусе. DSP или embedded-ускоритель обрабатывает поток локально. Камера шлёт только метаданные и события. Подходит для простых бинарных задач: каска есть - каски нет, в зоне с хорошим освещением и малой вариативностью. Модель обычно лёгкая - YOLO в nano-версии или MobileNet. Дообучение под конкретный цех чаще всего невозможно: прошивка вендора закрыта.

Edge-вычислитель

Отдельный модуль рядом с камерами. NVIDIA Jetson Orin Nano Super - до 67 TOPS при 7-15 Вт. Один модуль обрабатывает 1-4 потока full HD с YOLOv8s при 30 fps и задержке 15-30 мс. TensorRT даёт 5-10x ускорение по сравнению с PyTorch. Требует промышленного корпуса с теплоотводом: без конвертации в TensorRT скорость падает в 3-4 раза, а при 60°C в пыльном шкафу плата уходит в троттлинг.

Центральный сервер

Один GPU на много каналов. RTX 5090 или RTX 6000 Ada обрабатывают 10-30 RTSP-потоков full HD одновременно. Позволяют запускать несколько моделей параллельно: детектор, классификатор, OCR. Централизованный мониторинг через Prometheus/Grafana, удобное обновление. Сервер с GPU стоит дороже, требует серверной с кондиционированием, ИБП и стабильной сети до каждой камеры.

Правило hot path

Если решение должно управлять исполнительным механизмом (отбраковщик, робот-захват) в рамках одного цикла конвейера - инференс должен быть на edge. End-to-end latency для pick-and-place и упаковки - менее 50 мс, сам инференс - менее 20 мс. Сетевой хоп добавляет 10-50 мс джиттера, что выходит за пределы окна срабатывания.

Практические сценарии

Контроль качества на высокоскоростой линии

Линия розлива выдаёт 10 бутылок в секунду. Камера смотрит на горлышко, нужно за 50 мс принять решение «дефект / не дефект» и выдать сигнал на отбраковку. Любой сетевой хоп - лишний. Решение: камера с global shutter, подключённая напрямую к Jetson на линии. Инференс на TensorRT, вывод - сухой контакт на контроллер отбраковки.

Контроль СИЗ на десяти проходных

Десять камер в разных точках завода. Каждая смотрит на вход в цех. Латентность не критична: оператору безопасности достаточно получить алерт в течение одной-двух секунд. Центральный сервер экономичнее, чем десять отдельных edge-устройств. Плюс все алерты собираются в единый журнал с фото, а модель проще дообучать централизованно.

Интеллектуальная сортировка на нескольких линиях

Три конвейера, на каждом по две камеры с разных ракурсов. Нужна классификация продукции по визуальным признакам с выдачей сигнала на исполнительный механизм. Латентность - не более 100 мс. Оправдана гибридная схема: по Jetson на каждую линию для инференса, плюс центральный сервер для накопления датасета, дообучения и мониторинга.

Распознавание лиц на проходной

Одна камера на турникете, локальная база до тысячи лиц. Требуется узнать сотрудника и открыть проход за 300-500 мс. Встроенная камера справится, если база помещается в память. Если база больше, если требуется сверка по нескольким камерам или интеграция с СКУД через нестандартный протокол - Jetson с нашим ПО обеспечивает и инференс, и логику интеграции.

Метрики в цифрах

<50 мс

End-to-end latency для управления исполнительным механизмом

5-10x

Ускорение TensorRT по сравнению с PyTorch на Jetson

10-30

RTSP-потоков full HD на одном серверном GPU

70-90%

Снижение затрат на пропускную способность при edge-обработке

12-24 мес

Срок окупаемости edge-развёртывания для высокоскоростных линий

Сравнение платформ

Платформа	TOPS	Теплопакет	Каналов full HD	Типичное применение
Jetson Orin Nano Super	~67	7-15 Вт	1-4 (YOLOv8s)	Одна линия, простой детектор, СИЗ на проходной
Jetson AGX Orin	275	60 Вт	4-8 (YOLOv8m)	Многоракурсная сортировка, сложные модели
RTX 5090	~2000	300-450 Вт	10-30 (разные модели)	Центральный сервер, много каналов, batch-обработка
RTX 6000 Ada	~3500	300 Вт	15-30	Стабильная 24/7 работа, 48 ГБ VRAM для тяжёлых моделей
NVIDIA T4	260 (INT8)	70 Вт	8-15	Enterprise edge, розничные магазины, микродатцентры

Типовые ошибки при выборе архитектуры

Мы видим одни и те же ошибки на разных объектах. Вот шесть самых costy.

Jetson в пыльном шкафу

Плата не предназначена для 60°C без вентиляции. Мы видели проекты, где Jetson работал два-три месяца и уходил в троттлинг. Edge-вычислитель должен быть в промышленном корпусе с теплоотводом, рассчитанным на реальную температуру в точке установки.

Считаем только железо

Jetson за $500 выглядит дешевле сервера за $8 000. Но обслуживание десяти распределённых устройств дороже одного сервера: обновление, мониторинг SD-карт, физический доступ. Мы всегда закладываем в TCO не только закупку, но и эксплуатацию на три года.

Wi-Fi для видеопотока

Wi-Fi - источник плавающей задержки и потери кадров. Видеопоток для машинного зрения должен идти по проводу. Если кабель к серверу не протянуть, но можно к edge рядом с камерой - это аргумент в пользу edge.

PyTorch вместо TensorRT

Модель на PyTorch без конвертации в TensorRT работает в разы медленнее. Если интегратор показывает прототип на ноутбуке и обещает ту же скорость на Jetson - требуйте продемонстрировать инференс именно на целевом железе.

Edge без MLOps

На линии модель деградирует: меняется освещение, появляются новые дефекты, изнашивается лента. Если edge не подключён к центральному контуру дообучения, через полгода - рост ложных тревог и падение recall. Edge должен быть частью MLOps-пайплайна.

Игнорирование сети

Цеховая сеть часто уже нагружена MES, SCADA и видеонаблюдением. Десять RTSP-потоков по 20 Мбит/с - это 200 Мбит/с постоянной нагрузки. Не всякая сеть это вытянет без модернизации коммутаторов.

Гибридная архитектура - золотая середина

На практике большинство заводов выбирают гибридную схему: детерминированный инференс на edge для hot path, централизованный сервер для аналитики, дообучения и управления флотом.

Edge-рантайм: контейнеризованный сервис инференса, hardware watchdog, локальные метрики и адаптеры PLC/робота. Сервер: реестр моделей, подписанные артефакты, staged rollouts, over-the-air обновления и дашборды флота.

Мы проектируем edge как часть общего MLOps-пайплайна: кадры с низкой уверенностью модели автоматически отправляются на сервер для разметки и пополнения датасета. Модель деградирует со временем - меняется освещение, появляются новые виды дефектов, изнашивается конвейерная лента. Без централизованного контура дообучения через полгода вы получите рост ложных тревог и падение recall.

При этом edge обеспечивает отказоустойчивость: один сервер - одна точка отказа. Десять Jetson на десяти линиях - выход одного из строя останавливает одну линию, а не всё производство.

Обсудим архитектуру вашего проекта?

Пришлите описание задачи и пару кадров с производства на info@smartvideo.su. Мы проведём аудит, протестируем модель на Jetson и сервере, сравним метрики и предложим оптимальную архитектуру.

Все услуги