Исследования по PPE detection последних двух лет сходятся в одном: главная сложность не в том чтобы «найти каску», а в том чтобы корректно связать СИЗ с конкретным человеком и производственным контекстом. Каски, очки, перчатки и элементы спецодежды часто являются малыми объектами - они закрываются руками, инструментом, оборудованием или другими людьми.
Первое масштабное сравнение YOLO26 и YOLOv11 для PPE detection (MDPI Electronics, март 2026) охватило три датасета разного масштаба - от 133 до 1620 изображений, от 3 до 17 классов - и пять вариантов моделей от nano до X-Large. Вывод: YOLO26 показывает преимущество в сценариях с малым количеством данных и на малых объектах благодаря STAL (Small-Target-Aware Label Assignment) и NMS-free инференсу, но выбор архитектуры должен определяться конкретными условиями съемки и доступным железом, а не общими бенчмарками.
AE-LFOG-YOLO (Nature Scientific Reports, 2026) решает проблему неравномерного освещения в тоннелях и цехах: адаптивные эволюционные анкеры и illumination-invariant модуль дают 94,83% mAP@0.5 и расширяют эффективную дальность работы на 35,7%. Для производства это означает что модели учатся работать не с идеальным студийным светом, а с реальными перепадами освещенности.
Отдельный тренд - multi-task системы вроде YOLOVisionSafe (январь 2026): одновременная детекция людей, СИЗ и pose estimation. Это позволяет не просто ответить «каска есть/нет», а проверить что каска именно на голове, жилет на корпусе, человек стоит в опасной зоне а не проходит мимо. OAM-YOLO (Process Safety, 2025) показал 35 FPS на Jetson Nano - достаточно для edge-развертывания без облака.
Практический вывод: низкое освещение, окклюзии и малый размер объектов остаются главными врагами точности. Качество картинки влияет на итоговую детекцию не меньше архитектуры модели. В цехах это означает простую вещь: сначала камера, свет и ракурс, потом нейросеть.