Le concept du FAMUC a été imaginé en 2002, suite aux attentats de Moscou.
Il porte sur un système d'arme automatique, un fusil actionné et orienté automatiquement, doté d'une caméra fixe et d'une carte informatique qui détecte seule les cibles en mouvement dans l'image de la caméra associée, les suit, et permet à un opérateur de désigner Amis et Ennemis, et de déclencher une séquence de tir, qui va positionner le fusil en engageant le tir rapidement sur tous les Ennemis. Au lieu de neutraliser otages et preneurs d'otages avec un gaz plus ou moins létal, il n'engage que les terroristes, assez vite pour qu'ils n'aient pas le temps d'activer leurs explosifs. Il sauve les otages.
Le principe consiste à calculer un point de tir au centre des cibles désignées comme Ennemis et à enchaîner ensuite le tir successivement sur ces points de tir, très rapidement, pour jouer sur un effet de surprise. La détection des cibles se fait au moyen de techniques de traitement d'images classique (analyse des pixels), sur simple CPU, qui utilisent globalement le principe de la fixité de la caméra pendant le suivi pour en déduire ce qui bouge significativement dans l'image. Les essais poussés ont démontré une capacité de détection de 100% des mouvements visibles à l'oeil nu à l'image (la référence de comparaison avec un humain attentif ne regardant qu'un seul écran attentivement et sur une courte durée au moment de l'évènement est la seule comparaison disponible). Lorsque la caméra bouge, le système détecte la rupture de la fixité globale de l'image et cesse de désigner des cibles. Il pourrait être utilsé sur une base fixe, en protection de site, ou sur un engin lourd à chenillettes. Le recul de l'arme dans le cas du premier coup de feu du tir est un problème mécanique à gérer (absorption du recul). Il peut être compensé par un tir simultané en direction opposée (canon expulsant des projectiles en même temps devant et derrière), ou absorbé par une pièce mécanique plus lourde que la balle, glissant sur un rail et amortie avec un ressort, pour lisser temporellement le recul et limiter l'impact en terme de mouvement de la plate-forme (donc inutilisable sur un engin volant, il faut de la masse et de l'accroche au sol dans ce cas pour absorber le recul). Dans le cas de tirs consécutifs et temporellement rapprochés (mitraillage), et après le premier coup, le système devient stable pendant la séquence de feu du fait du mouvement cyclique des pièces de l'arme.
Le projet a été financé par la DGA. Suite à la signature de la convention d'OTTAWA par la France (convention interdisant les armes létales automatiques, les SALA), le projet a été réorienté vers un système de détection d'intrusions. La force de ce système est de filtrer les mouvements parasites de l'image, de cerner les cibles, et de les suivre, quelle que soit leur forme. Il peut détecter sur une image thermique une personne qui roule latéralement au sol, tête vers la caméra, présentant une sorte de forme non reconnaissable et de petite taille. Il peut aussi détecter une personne qui progresse cachée derrière un carton ou derrière un parapluie. Les parapluies sont constitués d'un tissu très opaque à l'imagerie thermique, c'est un bon outil de dissimulation, pratique à cause du manche, contrairement au carton, dont il faut ramener les bords par derrière pour cacher ses mains (en thermique). En visible, les combinaisons de camouflage sont assez opérantes, mais des essais avec la DGA ont montré que l'on parvenait à détecter et suivre une personne camouflée sous une tenue de forêt europe du Nord des Forces Spéciales, sur un fond de végétation de la même couleur. La solution consomme entre 5 et 10 W pour traiter une vidéo en temps réel.
Rapidement, Evitech associera un tracking par dôme PTZ au suivi de cible, démontrant de ce fait la capacité de piloter un système mobile sur la cible. La lenteur des couches ethernet/réseau, des protocoles ONVIF, et des logiciels de commande des moteurs des dômes, freinant la mise au point du concept, n'empêchera cependant pas de réaliser un tracking assez fluide, surtout lorsque le pilotage peut intégrer une commande en vitesse. Dans ce cas, le logiciel estime le mouvement de la cible et pilote le dôme en variations sur ce mouvement, ce qui est à la fois plus fluide et plus fin pour suivre la cible.
L'IA qui apparaîtra dans le futur en 2013, puis les LLM/VLM en 2023 ne permettront pas mieux d'appréhender ce problème :
- L'IA de 2013, exploitant des architectures de processeurs parallèles de type GPU, permet surtout de reconnaître et classifier des formes à partir de caractéristiques optiques des objets (bords, couleurs, ...). Cette IA progresse avant tout avec les travaux de la communauté de la recherche autour du véhicule autonome, détectant toutes les formes reconnaissables (voitures, vélos, piétons, ...) qui se trouvent autour du véhicule, ou surveillant le conducteur (vigilance). Elle est donc assez limitée sur la vidéo de mouvements informes. Toutefois des travaux menés par la recherche publique autour de cette génération d'IA ont permis de réaliser des applications de tracking vidéo très performantes, mais très coûteuses (flot optique), et aussi de calculer des différences entre deux photos de la même scène prises dans des contextes et à des moments différents. Cette IA pourrait donc challenger les algorithmes classiques mais des tests en environnement exptérieur pour détecter par exemple des changements dans la nature (IED masqués sur des bords de routes) ont montré des résultats équivalents aux techniques algorithmiques, avec des performances typiques de détection de 60 à 65% (Bourges 2016, Satory 2019). Ce type de solution consomme plutôt autour de 100 W pour traiter une vidéo en temps réel.
- L'IA des VLM, LLM, ... de 2023 est contextuelle, elle permet de caractériser une scène (une photo), mais pas de localiser un mouvement dans une vidéo, et elle est d'un ordre de grandeur encore plus coûteuse que celle de 2013. En 2024, il faut environ 10 cartes GPU consommant ensemble 3500 W pour traiter 25 images par seconde.
En conclusion, le Famuc est un outil dont la puissance du traitement d'images a été démontrée par la qualification d'Evitech pour protéger des sites très sensibles (OTAN, SIMU, Bases, OIV, Nuc), et pour fournir un outil performant sur des scénarios d'intrusions fines, mais qui n'a pas pu être mené à terme sous forme d'arme du fait du contexte légal. En pilotant un dôme en tracking, il a démontré sa capacité à piloter une arme. Sa performance de détection reste au top du fait qu'il détecte tout forme en mouvement, contrairement à l'IA qui ne reconnaît que des exemples des classes et modèles qu'elle a appris. Il n'a pas été supplanté par des technologies modernes exploitables de façon réaliste dans un environnement opérationnel.