Один и тот же вопрос мы слышим почти на каждом проекте: «Можно просто поставить камеру с обработкой внутри, или нужен отдельный сервер?» За этим вопросом стоит реальная инженерная дилемма, в которой нет единственного правильного ответа. Всё зависит от задачи, среды, количества камер, требуемой задержки и допустимой цены ложной тревоги.
Мы в Smart Video проектируем системы машинного зрения под конкретное производство, а не продаём коробку. И за несколько лет практики у нас сложился набор критериев, по которым мы выбираем архитектуру инференса. В этом исследовании я разберу их без маркетинга и с цифрами.
Контекст: две крайности, между которыми живёт реальность
Упрощённо выбор выглядит так: либо обрабатываем видеопоток прямо на линии — в умной камере или на edge-вычислителе вроде Jetson, либо гоним RTSP-потоки по сети на центральный GPU-сервер. На бумаге крайние случаи очевидны: если одна камера и простой детектор — берите камеру со встроенным DSP. Если пятьдесят камер и тяжёлая модель на каждом кадре — ставьте сервер с RTX 5090 или A6000.
Но реальное производство не укладывается в крайние случаи. Вот что мы видим на практике:
- Производственная сеть уже нагружена MES, SCADA, видеонаблюдением охраны и технологами, которые смотрят YouTube в обед. Добавление десяти RTSP-потоков full HD по 20 Мбит/с каждый — это 200 Мбит/с постоянной нагрузки на коммутаторы. Не всякая цеховая сеть это вытянет без модернизации.
- В шкафу автоматики на линии уже стоит контроллер, частотник, блоки питания. Место и тепловыделение ограничены. Jetson греется скромнее серверной GPU, но тоже требует отвода тепла.
- На линии возможны перепады напряжения и вибрации. Промышленный сервер в шкафу с кондиционером в серверной — одна история; Jetson в IP65-корпусе над конвейером — другая.
- Иногда задержка в 50 миллисекунд не важна, а иногда критична: детектор дефектов на высокоскоростной линии розлива должен сработать за время, пока бутылка проходит зону контроля. Если задержка сети плюс инференс превышает допустимый интервал — edge-вариант становится не пожеланием, а требованием.
Кому эта тема актуальна: руководителям ОТК и ИТ-отделов, которые проектируют систему контроля качества, сортировки или видеоаналитики безопасности и выбирают между локальной обработкой и серверной. А также интеграторам, которым нужно обосновать архитектуру перед заказчиком.
Три архитектурных варианта
Умная камера: инференс в корпусе камеры
Современные IP-камеры с embedded-процессором способны выполнять детекцию объектов прямо на борту. Производители вроде Hikvision, Dahua, Axis предлагают камеры со встроенными нейросетевыми ускорителями. Типичный сценарий: камера CИЗ на входе в цех, которая локально определяет наличие каски без внешнего вычислителя.
Плюсы: ноль нагрузки на сеть (камера шлёт только метаданные и события), минимальная задержка, простота монтажа. Минусы: модель должна быть лёгкой — YOLO в nano-версии или MobileNet-подобная архитектура. Дообучить модель под конкретные условия вашего цеха чаще всего нельзя: прошивка вендора закрыта. Точность на сложных сценариях (например, несколько типов СИЗ, перекрытие объектов) ограничена.
Когда этого достаточно: если задача сводится к бинарному классификатору «каска есть / каски нет» в зоне с хорошим освещением и малой вариативностью поз. В остальных случаях умная камера — лишь первый фильтр, а не финальное решение.
Edge-вычислитель: Jetson и аналоги
Edge-вычислитель — это отдельный модуль рядом с камерами, который получает видеопоток по локальной сети и выполняет инференс. Наиболее распространённая платформа — NVIDIA Jetson. Актуальное поколение на май 2026 года включает Jetson Orin Nano Super (до 67 TOPS, около 7-15 Вт) и Jetson Thor для более тяжёлых нагрузок.
Что можно запустить на одном Jetson Orin Nano Super:
- Один-два потока YOLOv8s при 30 fps с приемлемой задержкой 15-30 мс
- Лёгкую модель распознавания лиц ArcFace на один-два канала
- Классификатор дефектов по патчам с предварительным детектором
Что нельзя запустить на той же плате:
- Тяжёлую сегментационную модель на четыре потока full HD
- Batch-обработку для высокоскоростной сортировки, где через зону контроля идёт десяток объектов в секунду
- Одновременный инференс нескольких моделей на разных длинах волн (RGB + SWIR + тепловизор)
Практическая рекомендация: если ваша задача помещается в модель размером до YOLOv8m и количество каналов не превышает трёх-четырёх на один Jetson — edge-решение работоспособно. Если модель тяжелее или каналов больше — либо ставим несколько edge-вычислителей, либо переходим на сервер.
Отдельный важный момент: Jetson работает под управлением JetPack с поддержкой TensorRT. Модель нужно конвертировать в TensorRT-движок, а это отдельный этап ML-пайплайна. Без конвертации вы получите скорость в три-четыре раза ниже заявленной. Мы в Smart Video всегда закладываем этот шаг в проект.
Центральный сервер: один GPU на много каналов
Сервер с одной или несколькими GPU — классическая архитектура для объектов с десятками камер. Сервер собирается под задачу: RTX 5090 или A6000 Ada для большинства промышленных сценариев, H100 или B200 — если в системе одновременно работают видеоаналитика и языковые модели (например, для голосовых отчётов оператору или RAG по технической документации).
Что даёт сервер:
- Высокая плотность: один GPU способен обрабатывать от десяти до тридцати RTSP-потоков full HD в зависимости от сложности моделей
- Возможность запуска нескольких моделей параллельно: детектор дефектов, классификатор покрытия, OCR маркировки — на одном GPU
- Централизованное управление, мониторинг через Prometheus/Grafana, удобное обновление моделей
- Большой объём оперативной памяти для batch-обработки и хранения очереди кадров
Цена — в прямом смысле: сервер с GPU стоит дороже нескольких Jetson, требует места в серверной с кондиционированием, бесперебойником и сетевой инфраструктурой. И требует стабильной сети до каждой камеры.
Практические сценарии выбора
Контроль качества на высокоскоростной линии
Предположим, линия розлива выдаёт 10 бутылок в секунду. Камера смотрит на горлышко, нужно за 50 мс принять решение «дефект / не дефект» и выдать сигнал на отбраковку. Здесь любой сетевой хоп — лишний. Решение: камера с global shutter, подключённая напрямую к Jetson на линии. Инференс на TensorRT, вывод — сухой контакт на контроллер отбраковки.
Метрики, которые мы считаем в таком проекте: latency p99 и throughput.
Контроль СИЗ на десяти проходных
Десять камер в разных точках завода. Каждая смотрит на вход в цех. Латентность не критична: оператору безопасности достаточно получить алерт в течение одной-двух секунд. Здесь центральный сервер экономически эффективнее, чем десять отдельных edge-устройств. Плюс все алерты собираются в единый журнал инцидентов с фото, а модель периодически дообучается на новых данных — это проще делать централизованно.
Интеллектуальная сортировка на нескольких линиях
Три конвейера, на каждом по две камеры с разных ракурсов. Нужна классификация продукции по визуальным признакам с выдачей сигнала на исполнительный механизм. Латентность: не более 100 мс. Здесь оправдана гибридная схема: по Jetson на каждую линию для инференса, плюс центральный сервер для накопления датасета, дообучения моделей и мониторинга.
Распознавание лиц на проходной
Одна камера на турникете, локальная база до тысячи лиц. Требуется узнать сотрудника и открыть проход за 300-500 мс. Встроенная камера с распознаванием справится, если база лиц помещается в память камеры. Если база больше, если требуется сверка по нескольким камерам или интеграция с СКУД через нестандартный протокол — Jetson с нашим ПО обеспечивает и инференс, и логику интеграции.
Риски и типичные ошибки
Ошибка: ставить Jetson в неконтролируемой среде
Jetson не предназначен для работы при 60 градусах в пыльном шкафу без вентиляции. Мы видели проекты, где плата работала два-три месяца и уходила в троттлинг. Если edge-вычислитель стоит на линии — он должен быть в промышленном корпусе с теплоотводом, рассчитанным на реальную температуру в точке установки.
Ошибка: считать только стоимость железа
Jetson за 500 долларов выглядит дешевле сервера за 8 000. Но обслуживание десяти распределённых устройств стоит дороже обслуживания одного сервера: обновление прошивок, мониторинг состояния SD-карт (да, они выходят из строя), физический доступ для замены. Мы всегда закладываем в TCO не только закупку, но и эксплуатацию на три года.
Ошибка: рассчитывать на Wi-Fi между камерой и edge
В производственной среде Wi-Fi — источник плавающей задержки и потери кадров. Видеопоток для машинного зрения должен идти по проводу. Если геометрия цеха не позволяет протянуть кабель к серверу, но позволяет к edge-вычислителю рядом с камерой, это аргумент в пользу edge.
Ошибка: игнорировать разницу между TensorRT и PyTorch на edge
Модель, обученная в PyTorch и запущенная на Jetson без конвертации в TensorRT, работает в разы медленнее. Если интегратор показывает вам прототип на ноутбуке с PyTorch и обещает ту же скорость на Jetson — требуйте продемонстрировать инференс именно на целевом железе. Мы в пилоте всегда тестируем на том устройстве, которое поедет на объект.
Ошибка: проектировать edge без учёта MLOps
На линии модель деградирует со временем: меняется освещение, появляются новые виды дефектов, изнашивается конвейерная лента (меняется фон). Если edge-устройство не подключено к центральному контуру дообучения, через полгода вы получите рост ложных тревог и падение recall. Мы проектируем edge как часть общего MLOps-пайплайна: кадры с низкой уверенностью модели автоматически отправляются на сервер для разметки и пополнения датасета.
Метрики для принятия решения
Мы не принимаем архитектурное решение «edge или сервер» на основе мнений. Мы считаем.
Latency p99. От момента попадания кадра в буфер камеры до выдачи результата на исполнительный механизм. Для линии розлива p99 должен быть ниже 30 мс. Для СИЗ на проходной допустимы 500 мс. Если добавить сетевой хоп плюс декодирование на сервере вы даёте плюс 10-50 мс в зависимости от загрузки — это может быть критично.
Throughput. Сколько кадров в секунду способна обработать система на всех каналах. Сервер с RTX 5090 даёт 200-400 fps на YOLOv8m при батче. Jetson Orin Nano Super — около 30-60 fps. Если суммарный fps по всем камерам превышает возможности edge — идём в сервер.
Стоимость на канал. Делим TCO за три года (железо, монтаж, обслуживание, электричество, кондиционирование) на количество каналов. Часто сервер выигрывает при десяти и более каналах, даже с учётом цены GPU. Но прибавляем стоимость апгрейда сети, если текущая не тянет.
Энергопотребление и тепловыделение на точку установки. Jetson потребляет 7-15 Вт. Это можно отвести пассивным радиатором в корпусе. Серверная GPU — 300-450 Вт, требует активного охлаждения и кондиционирования серверной. Если на объекте нет серверной с климат-контролем, это ограничение в пользу edge.
Доступность. Один сервер — одна точка отказа. Десять Jetson на десяти линиях: выход одного из строя останавливает одну линию, а не всё производство. Мы часто применяем edge именно по соображениям отказоустойчивости.
Как Smart Video делает пилот
Мы не начинаем с продажи. Мы начинаем с аудита.
Приезжаем на объект, смотрим сеть, освещение, механику, зону установки. Подключаем тестовую камеру, снимаем реальные кадры в рабочих условиях. Обучаем baseline-модель на ваших данных. Затем тестируем её на двух конфигурациях: на Jetson (TensorRT) и на сервере. Сравниваем latency p99, throughput, энергопотребление и стоимость на канал.
Результат пилота — не презентация, а протокол с цифрами и рекомендацией по архитектуре. На основе этих цифр мы вместе с заказчиком принимаем решение: edge, сервер или гибрид.
Дальше — внедрение: поставка оборудования, монтаж, пусконаладка, интеграция с MES или СКУД, обучение операторов. И сопровождение: мониторинг метрик модели, сбор кадров с низкой уверенностью, дообучение, обновление моделей на устройствах.
Что дальше
Если вы проектируете систему машинного зрения для контроля качества, сортировки, безопасности или распознавания лиц и стоите перед выбором между edge и серверной архитектурой — мы готовы провести аудит и пилот на ваших данных.
Пришлите описание задачи и пару кадров с производства на почту info@smartvideo.su. Или позвоните: мы обсудим, какие метрики важны именно для вашего процесса и на каком железе их реально достичь.