Par Guillaume Nicoulaud.
La grande question que nous devrions tous nous poser est : sachant que notre système de surveillance vient de générer une alerte, quelle est la probabilité qu’il ait effectivement repéré un terroriste ?
Pour répondre à cette question, nous allons devoir faire appel au théorème de Bayes et évaluer trois probabilités :
Primo, la fréquence de base ; c’est-à-dire la proportion de terroristes dans la population — le chiffre de 3 000 individus circule ce qui, rapporté à la population française âgée de 20 à 64 ans (37,8 millions d’individus 1) nous donne une fréquence de base de l’ordre de 0,008%.
Deuxio, le taux de précision du système de surveillance ; c’est-à-dire la probabilité qu’un terroriste génère effectivement une alerte — par hypothèse, nous allons retenir un taux extrêmement élevé de 99%.
Tercio et pour finir, nous avons également besoin du taux d’erreur ; c’est-à-dire de la probabilité qu’un innocent soit accusé à tort par le système — prenons, là encore, une hypothèse très optimiste de 1%.
Ce que nous dit le théorème de Bayes c’est qu’avec ces paramètres, la probabilité qu’une alerte ait effectivement identifié un terroriste est de l’ordre de 0,78%. Non, ce n’est qu’une typo : concrètement, notre système va générer 380 940 alertes dont 2 970 vrais positifs (99% des 3 000 terroristes) et 377 970 faux positifs : soit 1% des 37 797 000 citoyens innocents comme vous et moi.
En d’autres termes, même en prenant des hypothèses hautement irréalistes quant au taux de précision et au taux d’erreur d’un hypothétique système de surveillance de masse, on aboutit à rien d’autre qu’une déperdition colossale d’énergie. La surveillance de masse en matière d’antiterrorisme est statistiquement impossible.
Lire aussi : Loi sur le renseignement : le mythe de la surveillance de masse
- Au 1er janvier 2015 selon l’Insee. ↩
Donc nous sommes bien d’accord pour affirmer que le but de cet arsenal est tout autre que la lutte contre le terrorisme !
Par exemple et officiellement, l’atteinte aux intérêts économiques et scientifiques majeurs. Et « majeur » ne signifie pas âgé de plus de 18 ans…
Oui, il s’agit manifestement non pas de repérer des gens qui se cachent, mais de collecter des informations sur des gens qui ne se cachent pas.
Une fois qu’on dispose d’un tel outil, les applications sont nombreuses : politiques et fiscales en premier lieu.
bonjour Fabrice, si c’est bien le cas ,il conviendrait de désigner clairement quels personnes,organisations ou même populations sont considérées comme terroristes .
Heu, il y a un problème de logique : quand il y 380.000 alertes, avec environ 3000 vrais positifs, je ne considère pas que le taux d’efficacité soit de 99%
Pour moi, la première étape consiste a constituer d’immense base de donnée, pour ensuite définir des comportement de type « suspect ».
par exemple ; http://fr.wikipedia.org/wiki/Loi_de_Benford
« pour ensuite définir des comportement de type suspect »
Qui eux-mêmes seront soumis à la loi de Bayes. A moins que ce que l’on cherche ne soit pas une déviance rarissime mais au contraire quelque chose de beaucoup plus commun que l’on veut réprimer.
J’ajoute que sur un plan économique, il n’est pas rentable de cibler 0,1% de « déviants ». Pour amortir le bazar, il faut cibler des pourcentages bien plus élevés – disons 10%.
Mais dans ce pays, on trouve toujours des gens pour applaudir quand on matraque 10% de la population qui « pense mal ». Sans imaginer une seconde que l’on appartient forcément à une des catégories de mal-pensants dont le nombre possible est quasi infini.
L’erreur serait de penser que les terroristes vont avoir un comportement suspect. Les derniers cas relevés montrent qu’ils se comportent de plus en plus suivant la norme, volontairement. Leur objectif est que le comportement normal devienne suspect, et visiblement les gouvernants sont tombés dans le panneau !
« Précision » n’est pas forcément le bon terme… Faudrait plutôt parler d’erreurs de type 2 ou de puissance : combien de positifs on obtient si on teste la chose sur un échantillon 100% terroriste. Et un test ayant une puissance de 99% est effectivement plutôt très balaise (surtout dans le cas qui nous occupe ici et pour lequel un test optimal à la Neyman-Pearson n’est pas possible -l’hypothèse nulle est bien définie : « terroriste » mais l’alternative est, au mieux, très vague « pas terroriste »… ). Dans les faits on pourrait rêver un peu et imaginer un tests de détection de terroristes (pas malins et donc pas bayésiens, et ne s’adaptant pas) avec une puissance de 85%, ça serait déjà énorme (imaginez un peu, vous trouvez 85% des terroristes avant qu’ils aient commis d’actes terroristes… quasiment minority report, là!)
Dans le même temps le taux d’erreur de type I (les faux positif) est irrémédiablement lié à la puissance : si vous voulez détecter beaucoup de terroristes il faut accepter d’avoir dans les filets aussi pas mal de non-terroristes. 1% est en général un taux putôt faible (la plupart des tests sont « pensés » avec 5% ou 10% comme valeur de base (une bonne connaissance de la distribution de l’estimateur de la statistique permet d’avoir des valeurs quelque soit le seuil de significativité voulu). Pensez un peu… Si vous avec moins de 1% de « faux positifs » c’est soit qu’il est très facile de distinguer les deux populations (pas trop le cas ici) soit que vous avez mis le seuil de « déviance par rapport à la norme » à un niveau très élevé… logiquement vous manquerez donc aussi un nombre conséquent de terroriste.
Bref, les nombres donnés ici ne sont pas très réalistes… mais dans le sens contraire de ce que vous pensez.
Bonjour Franz,
Pour « précision » c’est une traduction du terme anglais (« accuracy »)… Pas idéal, je l’admets, mais « erreur de type 2 » vous m’accorderez que ça n’est pas beaucoup plus explicite 🙂
Encore une fois c’est pas un problème de dénomination mais des valeurs farfelues au doigt mouillé que vous allez y associer.
1% de faux positif dans ce cas là c’est ÉNORME et ce serait économiquement stupide pour un service de renseignement aux moyens limités de placer le seuil (« le filet » pour parler simple) si bas, il n’aurait pas la capacité de les traiter, devrait choisir arbitrairement parmi les « suspects » ou sur d’autres critère: l’effet de la boite noire serait nul (ils peuvent déjà le faire).
Alors qu’1% de faux négatif ce serait extraordinaire voire irréaliste: ça voudrait dire être capable de discriminer 99% de tous les paquets de communication de toutes les conversations terroristes parmi les autres ! Si on en chopait 1 sur mille avec certitude, ce serait déjà pas mal.
De plus c’est très difficile de donner des chiffres vagues sans en connaitre plus sur ces boites noires et sans savoir de quoi on parle:
Est-ce que les paquets sont pris indépendamment, est-ce qu’il y a une notion d’état et donc de conversation ? une notion d’individus (les régies de pub le font bien…) ?
Forcément les ordres de grandeurs ne sont pas les mêmes.
On est bien d’accord que le fait que ce serait énorme et inacceptable économiquement. D’un autre côté d’un point de vue statistique c’est énorme dans l’autre sens.
Ce qui constitue un élément de preuve fort en faveur de l’idée qu’ils s’en foutent de choper tous les djihadistes, un ou deux par ci par là suffira pour camoufler le fait que ce qui les intéresse réellement c’est monsieur tout le monde.
Il y a un besoin de surveillance de masse, car l’Etat est probablement convaincu que d’une façon ou d’une autre il faut qu’il monte un capital Big Data et donc qu’il constitue une base d’apprentissage (alors que bon c’est pas forcément la panacée).
La question de la faisabilité est à mon avis dépassée car on est probablement en train de voter la légalisation de pratiques et d’outils qui existent déjà (en tout cas on les vend à l’étranger).
Terroriste, de nos jours, renvoie à salafiste jihadiste, dont c’est plus 37 millions mais beaucoup moins, à partir de là …
» La surveillance de masse en matière d’antiterrorisme est statistiquement impossible. »
Il n’y a pas qu’en matière d’antiterrorisme et de surveillance. Celle-ci n’étant qu’un des aspects de la gouvernance, il est évident que la mesure dans laquelle cette dernière peut s’exercer est inversement proportionnelle au nombre des individus à gouverner, pour s’en rendre compte.
Pour approfondir cette réaction, visiter (sérieusement) : claudec-abominablepyramidesociale.blogspot.com
Ce raisonnement n’est-il pas applicable également aux méthodes dites « classiques » : filature, infiltration, etc… ?
L’investigation est toujours un travail de fourmi, avec ou sans Internet.
Cette loi va être votée, cela ne fait aucun doute maintenant. Il existe pourtant des solutions simples pour se protéger, et protéger sa famille et ses amis des dérives à venir.
Protéger son système d’exploitation Windows avec Esset Nod 32, Malwarebytes Antimalware et Anti-Exploit, Private Firewall 7. Sinon Linux Mint est une distribution gratuite qui permet d’être essayée avant l’installation. Pour une discrétion maximale, Tails est recommandé. Ainsi que Tor.
Au niveau navigateurs, préférer Firefox et Opéra. Avec les extensions suivantes : Adblock (plus pour Firefox), Disconnect, Ghostery, Noscript (Firefox). Un VPN pour ces navigateurs Zenmate ou Dotvpn. Des mots de passes avec un minimum de 15 lettres, chiffres, et des signes tels que $@&* mélangés. Comment les générer et les retenir ? L’extension Lastpass, gratuite, devrait vous y aider.
En ce qui concerne les mails, utiliser dans un premier temps tutanota.de, et s’inscrire pour obtenir une adresse chez protonmail.ch. Double mot de passe, tout est crypté. Même les administrateurs du site ne peuvent pas accéder à vos mails.
Enfin il est possible d’installer un VPN (surtout pas français.. l’accès aux logs se fera trop facilement). Essayer gratuitement CyberGhost (base en Roumanie) qui permet même, en payant, de profiter des torrents. Il résiste aussi aux tests IPleak.
J’espère avoir aidé certains de vous qui ne savent pas trop comment se protéger des intrusions dans votre vie privée.
Merci pour ces infos… Mais les terroristes les connaissent surement déjà et les utilisent aussi.
De même les terroristes savent utiliser des mots « passe partout » dans leurs communications « le cuisinier secoue les nouilles » et bien d’autres systemes. Je savais qu’on avait les moyens de se dissimuler, mais comme dans le jeu des gendarmes et des voleurs il y a toujours un perdant et un gagnant a un moment donné et inversement à un autre, cela non pas en fonction des moyens mais des pouvoirs d’actions qui sont données aux différents protagonistes. Espérons que les moyens et les pouvoirs sauront rester entre de « bonnes » mains… On peut rêver.
Bien, souvent Cest pour l’enquête que ça sert, ça la facilite
Vous n’y êtes pas du tout et soit vous êtes très mal informé soit vous tenter de nous endormir. Les statistiques n’interviennent en rien ! Voilà comment çà marche : toutes les conversations téléphoniques, les mails les SMS _ et plus si affinité _ sont captées ( bien sûr que c’est possible et le volume n’est pas un obstacle ) et les ordinateurs « scannent » toutes ces données à la recherche de « mots clés » _ bombe, djihad, etc _ et lorsqu’il trouvent des occurrences répétées un signalement et fait et là un humain prend le relai. L’ordinateur est capable de lui remonter tout ce qu’il a enregistré sur l’auteur . Et il n’a rien à faire du théorème de Bayes. Il faut vous rencarder avant d’écrire n’importe quoi, Monsieur !
Ben en fait l’auteur a raison et vous n’avez rien compris.
Aucun ordinateur n’a la puissance (et ne l’aura jamais) pour scanner toutes les communications en temps réel. Donc il échantillonne, et pour répérer les bons suspects et les bons mots il (enfin le programme qu’on fait tourner dessus) utilise Bayes.
Et même si on avait un truc supervisant toutes les conversations comment savoir parmi les milliards d’occurrence des mots que vous mentionnez lesquelles viennent de terroristes et lesquelles viennent de gens comme nous qui en parlent ? Comment conter le terroriste qui utilise un code ? Le problème reste le même et le théorème de Bayes reste au centre. Comme il l’est dans toutes les enquêtes policières.
Faut se rencarder encore plus quand on prétend donner la leçon.
Ben un seul ordinateur « non » mais plusieurs ordinateurs « oui » et dès qu’une alerte sera détectée ils seront capables de se focaliser et donc d’affiner le contrôle. Vous n’ignorez surement pas que les systèmes sont capables d’analyser des écrits mais aussi de l’oral… et de se faire passer des informations… sans l’aide de l’humain !
D’un autre côté je penses que les malfaisants parleront plus de gâteau, de friandise ou de festivité plutôt que de bombe… Il faut (dra) dont contrôler aussi les phrases, voir les missives ou les conversations en entier… et là seul un(des) ordinateurs seront compétents et dans un délais infime… Encore une fois selon les moyens et les pouvoirs qu’auront les personnes « autorisées ».
Le seul truc qui paraît très compliqué pour la surveillance de masse est l’utilisation du SSL, sinon en effet il n’y a pas de pb de ressources.
Mais dès qu’on est en HTTPS, sans moyen poussés, à part connaitre l’IP et le PORT sur lequel on se connecte, zéro métadonnées sans décryptage.
Pour le trafic en clair, les data-centers modernes ont largement les capacités. Une boite noire devrait pas consommer plus de puissance de calcul qu’un routage IP.
« […] les ordinateurs « scannent » toutes ces données à la recherche de « mots clés » _ bombe, djihad, etc _ » et là, ils viennent de tomber sur votre commentaire.
lol