Fausses IA, vrais Malwares 💣️💥️

Depuis environ 1 an, sont sorties toute une série d'Intelligences Artificielles (IA) génératives importantes. D'abord dans la création d'images (Midjourney, Dall-E) puis dans les moteurs de conversations (ChatGPT). L'efficacité relative de ces IA a créé un engouement certain : elles sont extrêmement efficaces en mimétismes humains, mais totalement incapable de vraie création complètement originale par leur portions de contenus, si on analyse plus finement les choses. Il est même « logique » statistiquement qu'il en soit ainsi par leur fonctionnement technique (en tout cas actuellement … ?).

Cependant cet engouement, dans le monde du business, a créé de véritables euphories à propos des IA, ou même de paniques, c'est selon, chez Google même. On pourrait peut-être même parler d'hystérie : bon nombre de chefs de projets ou de patrons d'entreprises sont persuadés que leur entreprise va mourir s'ils ne suivent pas la course à l'IA, parfois à raison. Mais s'y lancent sans aucune connaissance technique, ni conscience de toutes les implications que ce sujet engendre, localement et globalement. Ni même d'ailleurs souvent les ingénieurs qui mettent en place ou développement ces systèmes.

Dans un tel état social chaotique, il ne fallait pas attendre longtemps pour que des vrais escrocs en profitent.

Ici le nouveau cas d'un faux site publié sur Google Sites. L'URL est de nouveau reçue par un réseau social, soit Facebook. La page fait croire que l'IA de Google Bard, concurrent de ChatGPT, est ouvertement publiée et accessible au download. Comme il s'agit d'une plate-forme de Google, mais pour les sites clients de Google et non pas leurs sites internes (!!), ceci prête à confusion de par le nom du site (étonnant d'ailleurs que Google ne puisse pas prendre en considération le détournement d'un tel nom de site), mais aussi par la copie du vrai listing des changements de code de Google Bard.

Le printscreen du faux site de download de Google Bard :

Les vrais changements du vrai Google Bard :
https://bard.google.com/updates?hl=en

Malgré la prudence légitime de Google de ne pas trop ouvrir au grand jour les recherches poussées sur l'IA, une trop faible prudence sur un autre de leur service soit « site », finit quand même via des escrocs externes à détériorer leur image, même si le malware n'est pas directement stocké chez eux.

Sur le faux site, le lien de téléchargement ne pointe pas sur Google mais sur un fichier d'attachement stocké sur la plate-forme de gestion de projet Trello. L'archive finale, une archive RAR, contient un vrai installeur de Malware Cheval de Troie 💣️💥️ ! L'URL chez Trello permet de deviner l'exploitation d'un fichier attaché dans un des outils de gestion de Trello, mais utilisé en accès direct. De plus l'analyse par VirusTotal (site appartenant aussi à Google!) montre quelques antivirus qui le détectent, mais comme souvent dans les nouvelles campagnes d'infections efficaces, très peu d'antivirus sur la totalité le détectent (et souvent ce ne sont pas les mêmes antivirus sur la continuité du temps). Il est toujours aussi stupéfiant de voir que Google qui possède les 2 sites de publication de sites clients et d'analyse d'antivirus, ne puisse pas correctement mêler ces 2 outils pour bloquer ses propres sites qui pointent sur des liens infectés … (mais ce n'est pas nouveau, et ils ne sont pas les seuls).

Analyse du malware par VirusTotal :


https://www.virustotal.com/gui/file/dd0730019f4ca61b226f6d6a3f93cb67e260fd83b804a8f9b89abf82714cf8e9/detection

Mais encore, quand on analyse avec Urlscan l'URL pointant vers l'archive du malware, et qu'on affiche les liens similaires déjà analysés par Urlscan et pointant sur des archives RAR, alors on peut voir toute une série d'autres malware IA, tous stockés sur Trello, et ce depuis plusieurs mois … Sans doute que la liste est non exhaustive et que le nombre d'archives de malwares qui ont été stockés sur Trello pour infection via Google (ou autres) sont bien plus nombreuses.

Le printscreen des URL similaires à l'infection de fausse IA :

Un autre article (lien article) expliquant la campagne d'infection usurpant Google Bard & ChatGPT, qui date d'un mois (les malwares indiqués via Urlscan datent au moins de 2-3 mois). Mais de nouveaux malwares récent (celui analysés sur VirusTotal d'il y a quelques heures) sont de nouveaux accessibles, ainsi que les faux sites web IA qui les diffusent, y compris les fausses publicités sur Facebook. Résultat : rien n'a changé !

Conclusion

On peut donc voir que les sites populaires de gestion de projet, sont tout autant incapable de gérer au cours du temps les fichiers infectés qu'ils stockent et transitent via leurs outils … Et l'autre engouement pour les sites de gestion de développement faciles et pratiques d'usages, ne sont pas mieux lotis que les acteurs populaires ayant à faire à l'IA. Toute euphorie numérique humaine mal canalisée et mal gérée, finit inévitablement au même résultat :

la prolifération des escrocs et du chaos global de leurs infections …

BNP, les nouvelles cartes de crédit avec empreinte digital, et le risque de l'étendue des données volées ?

Immo Wegmann "fingerprint on a Labtop surface"La BNP a sorti une nouvelle carte de crédit avec empreinte digitale, et se targue d'être le premier sur sol français à sortir un tel produit. Les publicités par BNP sur le sujet commencent à se diffuser partout. Mais avec la montée dans le commerce de produits sécurité par les empreintes digitales, voir le TouchID d'Apple, ne va-t-on pas voir venir l'extension des données volée sur ce sujet justement … ? Les empreintes digitales pour un moyen de paiement est un peu différent qu'une sécurisation d'un mobile. S'il il y a un souci pour le mobile, cela ne pose pas de problème puisqu'on peut facilement revenir au système d'avant. Ceci est donc plus un test. L'attractivité d'un moyen de paiement et notamment pour les voleurs, engendre donc un effet sur l'empreinte digitale sans doute différent. Mais la démarche commerciale et le fort engouement autour de ces systèmes de protection va de pair avec le fait que c'est un système qui flatte la paresse de l'individu. En effet nul besoin de mémoriser ou créer un mot de passe complexe. Et sans nul doute que les entreprises commerciales, avec les banques, surfent sur cet avantage pour essayer de diminuer l'attention du public sur les problèmes potentiels.

Les problèmes

On parle souvent du problème réel de la vie privée et des dérives potentielles au niveau du contrôle et de la surveillance. Mais le gros problème de l'empreinte digitale, c'est que ce n'est pas un système de sécurité exact, mais « approximatif » dépendant d'une reconnaissance qui par définition est donc sujette à une marge d'erreur. Ceci ajoute un critère problématique dans un système d'authentification. De plus les systèmes biométriques dans leur ensemble on un problème de taille, mis en avant par les personnes dans la sécurité depuis longtemps, et largement sous estimé par les entreprises commerciales : la non révocation possible de celles-ci. (Voir à ce sujet les critique sur Wikipédia) Lorsqu'on vous vole une empreinte digitale, impossible de vous couper le doigt ou de vous en faire greffer un nouveau pour palier au problème de votre donnée voyageant dans les marchés noirs …

Les preuves d'usurpation

Le Chaos Computer Club allemand a montré à plusieurs reprises, notamment il y a 7 ans, que les systèmes à empreinte digitale, notamment le TouchID d'Apple, pouvait être berné. Les empreintes digitales pouvaient vraiment être volées. Soit via des systèmes de reprise des traces et des reconstructions en relief, soit même via la grande qualité des photos trouvées sur les réseaux sociaux. Donc l'empreinte digital, devient une donnée avec une valeur marchande comme une autre (mot de passe, numéro de mobile).

autres articles sur le sujet
L'Express
L'Usine Digitale
VentureBeat

La recherche sur la fiabilité des empreintes digitales est loin d'être unanime sur la sécurité des empreintes.

voir d'autres recherches récentes
Kaspersky
The Guardian
Thread Post
Bank Info Security

L'évolution des « vraies fausses » empreintes

Des nouveaux systèmes via le mix de l'Intelligence Artificielle permettent de créer des « DeepMasterPrints », soit des fausses empreintes extrapolées de vraies, plus efficaces que des images simples. Des grosses collections d'images de mains deviennent alors très utiles.

articles et recherche à ce sujet
Wired
article recherche "DeepMasterPrints: Generating MasterPrints for Dictionary Attacks via Latent Variable Evolution"

La future mutation des vols … ?

Ces derniers temps, après les vols de mots de passe craqués (vols de hash, craqués ensuite en masse dans des « fermes de calculs »), puis des collections toujours plus grandes circulant des résultats en clair, sont arrivé l'utilisation des systèmes à 2 facteurs (2FA puis récemment MFA), d'abord utilisé avec un envoi d'un second mot de passe par SMS. Les vols ont alors migré vers le vol des numéros de mobiles (pour permettre les attaques de SIM swapping, ou autres système basés sur l'interception). Ces toutes dernières années ont commencé à survenir des grosses collections de numéros de mobiles.

Ici, si la démocratisation des systèmes biométriques deviennent chose courante de part la publicité et les pressions commerciales, il y a de grande chance pour que l'écosystème de la fraude et son agilité migre alors une nouvelle fois vers des collections d'empreintes digitales volées ? Voler des empreintes digitales en masse semble beaucoup plus compliqué que pour voler des mots de passe ou des numéros de téléphone. Mais les méthodes pour voler les empreintes digitales notamment sur les mobiles (fausses interface dans le style « phishing ») pourrait se démocratiser en même temps que la démocratisation des empreintes digitales sur les cartes de crédit … Comme souvent, le commerce poussant un système de sécurité, pousse en même temps les évolutions pour voler ces nouvelles types de données.

Dans le domaine de la reconnaissance faciale, on a vu apparaître des entreprises, à la frontière, comme Clearview AI, piller des milliards de photos des réseaux sociaux pour s'en servir comme base de données gigantesque d'identification des personnes. On pourrait voir apparaître de la même manière des groupes malveillants, volant en masse des photos des mains des personnes sur les réseaux sociaux, les utiliser éventuellement avec des systèmes AI d'extrapolation d'empreinstes (DeepMasterPrints) pour tenter d'en faire des bases de données géantes d'empreintes digitales et noms des personnes correspondantes. Un groupe pourrait utiliser ou vendre de telles empreintes digitales de telles personnes lorsque leurs exploitations peuvent être fructueuses. L'engouement commercial sur les empreintes digitales créant alors le terreau de nouvelles grosses dérives de vie privée, encore plus problématiques que les précédentes.

Évolution future : les faux criminels ?

Avec une diffusion de collections de données d'empreintes digitales volées, pour exploiter la démocratisation des cartes de crédit avec empreinte digitales, pourrait alors apparaître un autre problème au niveau des polices scientifiques …? Avec une grande collections d'empreintes digitales volées, il pourrait être plus facile sur des scènes de crime, d'incriminer des faux suspects volontairement par les criminels eux-mêmes. Ce sujet semble encore peu populaire, mais il s'agit d'un vrai danger juridique au niveau des investigation juridique. Donc les entreprises commerciales indirectement seraient alors aussi potentielles les moteurs de problèmes beaucoup plus vastes et beaucoup plus graves …?

un article médico-légal à ce sujet
HG Experts

Conclusion

Les campagnes marketing des nouveaux produits de sécurité avec empreintes digitales notamment dans le système des paiements de carte de crédit, semblent se poser très peu de questions sur les risques éventuels indirects de la mutation des fraudes engendrée. Ni même des nouveaux problèmes sociétaux qui pourraient émerger. Mais ces problèmes concerneront sans nul doute les citoyens très profondément dans leur vie intime.

Roger Federer, cible no2 après Elon Musk des arnaques aux cryptomonnaies ?

Deux articles web récents en français similaires, usurpant l'identité de 2 personnalités ainsi que celle du média « lematin.ch », sont intéressants. L'un concerne Elon Musk, dont le nom est très utilisé dans les arnaques aux cryptomonnaies. Mais le 2e est plus étonnant il s'agit de Roger Federer. Le sujet n'est pas nouveau puisqu'il a été averti par le journal Le Matin, par le Centre National pour la Cybersécurité, ainsi que par la Fédération Romande des Consommateurs. Mais aucun d'eux semble n'avoir fait une analyse un peu plus poussée.

L'analyse des deux scams

Les lieux web d'où viennent ces redirections de scams ne sont pas évidentes à débusquer. Souvent dans des sites légitimes de gaming, téléchargements d'applications même légaux, érotiques etc, mais certainement via des publicités tierces détournées. En effet dans ces sites quand on clique sur une action, qui n'est souvent même pas un lien mais une action JavaScript locale (déroulement d'un onglet, d'une portion de page ou autre) on se retrouve avec une redirection vers un des articles de fraude. Mais lorsque l'on rafraîchît le site en question (et donc que les publicités changent), la redirection frauduleuse n'est parfois plus présente (les publicités ont changées). Certaines analyses de sécurité montrent que la publicité devient un danger comme source d'infections de plus en plus réel, et les blocages de phishing/spam de logiciels de sécurité sont toujours dérisoires, car identifiant le problème souvent que c'est trop tard où qu'il est trop disséminé.

Les noms de domaine internet où on trouve les 2 articles sont différents (« traducingly.info » et « lavacrea.com », mais certainement beaucoup plus nombreux). La myriade de noms de sites temporaires dans la fraude ou le piratage n'est pas une nouveauté. Mais on voit via la construction de ces deux articles de scams, qu'il s'agit bien du même groupe. La séparation de la fraude en 2 ou 3 étapes dans les analyses de sécurité n'est pas nouvelle non plus (la redirection de pub, l'article de scam, puis la nouvelle redirection après le click avec le site final de fraude, parfois même avec des « redirect chains »). Tout ceci rendant les analyses plus complexes, et toute démarche juridique de blocage quasi impossible sur le long terme.

Le contenu des deux articles de scams semblent être similaires. On voit l'en-tête du lematin.ch, bien que sur celui de Federer le nom « lematin.ch » ait disparu (sans doute après les articles sur l'usurpation du journal concernant Fédérer ?), mais ça n'a pas empêché le groupe de garder la même usurpation concernent Elon Musk.

Dans les 2 articles, plusieurs photos, vidéo, avec graphiques des soi-disant gains. Dans celui d'Elon Musk, le personnage est même utilisé comme sauveur des ménages modestes. Dans celui de Roger Federer on voit même dans le titre une traduction approximative sans doute d'un dictionnaire automatique.

Le lien final de site de fraude, n'est plus fonctionnel sur l'arnaque de Elon Musk (lien de redirection sur « roto-offers.com », domaine plus existant), mais fonctionne toujours sur celui de Federer (domaine « dianches-inchor.com »). Pour le 2e, l'analyse via Urlscan donne une erreur, alors que manuellement dans un navigateur le lien fonctionne très bien. Donc les fraudeurs ont des mécanismes poussés de détections des sites de sécurité, pour ne pas afficher ces contenus dans ceux-ci, mais que lorsqu'il s'agit de «pigeons» bien humains … ?

analyse urlscan lien scam
https://urlscan.io/result/78b8955e-452d-41db-9732-aa06cc748ec8/

Voici en impression les 2 articles pour comparaison :

Voici aussi l'impression du site final de la fraude :

Le site du scam Elon Musk n'est même pas indexé par Google :

https://www.google.ch/search?q=site:traducingly.info

Le site du scam de Roger Federer lui est indexé. On peut y voir d'ailleurs d'autres articles de scams similaires :

https://www.google.ch/search?q=site:lavacrea.com

Nombreux scams similaires

Pour le scam de Roger Federer, on peut voir toute une série d'articles sur le même nom de domaine analysés par Urlscan par différentes personnes. On peut voir que toute une série de personnes politiques ou médiatiques sont utilisés pour le même genre de textes et ceci dans les différentes langues, avec d'autres détournement de médias connus des pays en questions. La mécanique est donc une mécanique systématique et bien huilée.

Philippe Geubels, comédien flamant (faux média hollandais)
https://urlscan.io/result/8c008f89-10ce-42c7-a6e0-3be32f165493/

Stefan Persson. homme d'affaire suédois (faux média suédois)
https://urlscan.io/result/55cb6f95-aa95-475b-b7fc-e6ed87dec55f/

on Retrouve Elon Musk, patron de Teslam mais avec un autre média (faux média suédois)
https://urlscan.io/result/808c8319-56d7-4e4a-bf63-10b643f918d3/

Lukas Dhont, réalisateur belge vivant dans la partie néerlandophone, (faux média hollandais)
https://urlscan.io/result/45f9b173-fd14-4ab2-a7cf-981468066965/

autre article dérivé covid (faux Bild, en allemand)
https://urlscan.io/result/3b67d6b2-7f1c-4727-8e9e-6ceff9151977/

Justin Trudeau, 1er ministre Canada (faux Toronto Star, en anglais)
https://urlscan.io/result/6901aa97-86cd-48b7-bf24-63e6e1a47f34/

Certains ont les noms des médias usurpés présents, et d'autres pas.

L'usurpation du « lematin.ch »

Pour l'article de scam d'Elon Musk, le titre « lematin.ch » est une image et non pas un texte, sans doute volontairement. Si on récupère l'en-tête et qu'on l'analyse avec des moteurs de recherches mais via images (Google image, TinEye, Bing) on ne trouve strictement rien. Et c'est sans doute volontaire que les images contenant des noms avec noms de marques usurpées, soient bloqués pour les indexations des moteurs. De cette manière il n'est pas facile de retrouver tous les endroits où il y a eu des usurpations d'identités similaires. Et on le voit avec la différence entre l'article d'Elon Musk et celui de Roger Federer, réussir éventuellement à faire bloquer une usurpation pour un article, ne bloque évidemment pas les autres.

Dans cette image d'en-tête, on trouve encore des tags de meta-données, dont certains intéressants. Notamment le logiciel utilisé pour la création et la date de création avec la zone géographique d'heure (Afrique de l'est et heure de Moscou). Donc cela pourrait indiquer que l'usurpation d'identité du « lematin.ch » date au moins de 2020 … ?

CreateDate : 2020:07:28 11:45:31+03:00
ModifyDate : 2020:08:19 14:40:37
Software : Adobe Photoshop CC 2019 (Windows)

Conclusion

Dans un monde ou l'arnaque devient plus populaire que la publicité, presque plus personne ne prend la peine d'analyser plus à fond ces sujets (à part quelques chercheurs en sécurité). Et pourtant les victimes et les sommes perdues sont sans doute bien réelles.

La fraude d'Elon Musk et de Roger Federer sont de petites anecdotes spécifiques ? Pas autant que cela. On voit quand on creuse le sujet qu'il s'agit d'un système vaste et bien huilé. Les groupes créant ces fraudes (parfois étatiques … ?, voir les articles de médias sur les détournements par la Corée du Nord via des vols de cryptomonnaies), connaissent très bien comment détourner tout le système mondial d'une manière globale : détournement de la publicité pour injecter du JavaScript de redirection (?), détournement des notoriétés des personnes médiatiques et politiques, détournement des cultures linguistiques locales et de leurs médias de prédilection les plus populaires via leurs marques et « codes couleurs », détournement du marché des cryptomonnaies pour en faire un système fructueux de gains financiers qu'on peut efficacement blanchir par de nombreux moyens.

Pour stopper ces fraudes, il faudrait revoir tous les mécanismes impliqués au cœur même de nos économies (sécurité dans la publicité en ligne) et des comportements humains socio-médiatiques (non contrôle des légitimités des identités des personnes populaires). Une bonne partie du public ne fait même plus confiance à la sphère médiatique légitime (i.e. mouvements QAnon, complotismes etc). Ce genre de fraude détournant les médias populaires est sans doute aussi pour beaucoup dans le mouvement global de décrédibilisations de la parole médiatique classique. Donc en ne faisant pas grand-chose, parce que considérant, à tort, l'aspect anecdotique de « scams », les médias classiques et leurs gouvernements contribuent à laisser se détériorer un peu plus l'écosystème à chaque fois. Et toute la confiance en l'économie numérique qui s'érode avec elle aussi un peu plus. La banalisation de la fraude, des usurpations d'identités, de la multiplication de ces « anecdotes », est ce qui peut détruire toute confiance économique et sociale le plus efficacement sur le long terme. Et nos porte-paroles médiatiques locaux, comme Roger Federer, deviennent alors à leur dépend des portes paroles de la fraude … ?

 

SQL Injection sur des fromages de la Coop ? 🤪

Après avoir acheté du fromage au supermarché Coop, j'ai réalisé plus tard que l'étiquette contenait du texte un peu spécial. En effet dans le champ de description du fromage il y avait inclus 2 requêtes de base de donnée en langage SQL, qui n'ont normalement rien à faire là. On peut les voir sur le scan de l'étiquette que j'ai effectué ci-dessous.


Pour ceux qui n'ont pas la lecture « informatique », les requêtes SQL sont celles-ci :

select * from PR_ITEM_CONTENT(8,3068)

select * from PR_ITEM_NUTRITIONAL(1,8,3068,5,'Valeurs nutritives moyennes pour 100 g')

Explication, et suppositions sur les erreurs éventuelles et leur niveau dans la chaîne de production

Le travail dans les failles de sécurité permet de deviner comment cela à pu arriver. À la fin des requêtes, il devrait normalement y avoir un point virgule (;), qui aurait pu être supprimé par des nettoyages de texte lors de l'importation des données depuis la base de donnée. Mais le fait que les données de contenu descriptif et de valeurs nutritionnelles ne soient pas présents, mais à leur place leurs requêtes SQL pour les obtenir, montre que lors de l'insertion du code dans le programme, ou de l'utilisation de celui-ci pour remplir la base de donnée, le programmeur a dû faire une erreur de frappe ou un oubli, Il a dû justement oublié le point virgule de fin, ce qui fait que la requête SQL n'a pas été exécutée, mais a été détectée comme champ texte « normal » à mettre tel quel dans la base de donnée.

Il n'est pas facile de savoir si la base de donnée en question est celle de la Coop, et donc l'étiqueteuse qui s'en sert pour créer les étiquettes, où même si la base de donnée est celle du fabriquant du fromage AOP, et que la Coop n'ajoute dans son descriptif que le descriptif fourni par le producteur. Dans ce 2e cas, il y a eu au moins 2 erreurs humaines, la première du programmeur, et la seconde des employés de la Coop qui ont inséré dans la base de donnée des étiqueteuses, les données fournies par les producteurs et ce sans vérifier s'il y avait des erreurs de contenus. Dans le 1er cas, 2 erreurs sont aussi envisageables, soit la 2e, celle du responsable de rayon, qui fait mettre les étiquettes sans vérifier si les contenus textes sont justes ou même on du sens …

Analyse technique plus détaillée

Les 2 noms après le « from » indique les noms des tables dans la base de données pour stocker les informations du produit (PR_ITEM_CONTENTPR_ITEM_NUTRITIONAL). La recherche sur les moteurs web ne donne pas plus d'informations, mais des personnes travaillant dans le domaine pourraient en identifier un type de base de donnée en relation à une application métier spécifique, et donc préciser la chaîne d'erreur(s).

2 identifiants sont les mêmes dans les 2 requêtes (8,3068), on peut vraisemblablement supposer qu'il s'agit de la clé de produit, une clé double, soit par exemple une clé de catégorie de produit et une clé de produit lui-même, soit 3068, notre fameux fromage « Abondance ».

Il est possible de donner d'autres d'informations techniques sur ces requêtes. Tout d'abord elles ne semblent pas « standard ». En effet il faudrait une clause « WHERE » pour sélectionner l'entrée avec une valeur de clé. Cependant certaines bases de données permettent ces requêtes sans clause « WHERE » où des vecteurs sont données directement entre parenthèses. Donc avec l'analyse plus poussée de la typologie de requête il est possible d'identifier quel type de base de données est utilisé pour le stockage des données où à eu lieu l'erreur.

Voir plus de détails à ce sujet, paragraphe « Conforming Alternatives »
https://modern-sql.com/use-case/select-without-from#conforming-alternatives

Le(s) précédent(s)

Ce genre d'erreur sur les étiquettes de produits, semble ne pas être nouveau, une autre personne a trouvé la même erreur sur un produit de supermarché Suisse (ici nous n'avons pas le nom du super marché), mais le look est identique à l'étiquette de la Coop ci-dessus.

Voir tweet à ce sujet :
https://twitter.com/lesjoiesducode/status/1414970303113990150

Ce qu'on peut retirer

Ici cette étiquette n'est pas vraiment une faille de sécurité. En effet elle ne donne pas vraiment d'information pour pirater un système de la Coop ou du producteur. Donc avertir le vendeur avant de publier un article comme celui-ci n'est vraisemblablement pas nécessaire. Cependant cette anecdote de plus, montre une fois encore le fait que les erreurs de programmation et éventuellement des failles de sécurité, sont partout. Malgré les tests de validations, les systèmes qualités et surveillances, les discours des responsables informatique, la norme est l'erreur humaine. Notre système est un système où tout devient numérique, de plus automatisé, et ce à chaque échelon. Mais la majorité des employés ne sont pas des programmeurs avertis. Et même les programmeurs avertis finissent par devenir en trop petit nombre à devoir tout surveiller à propos de tout. Dans ces circonstances, il y a de grandes chances pour que des erreurs sortent dans le public comme celle-ci de plus en plus souvent, et de plus en plus à propos de tout ce qu'on peut rencontrer comme produits, services, loisirs, dans la vie de tous les jours. Pour éviter ceci, il faudrait déjà que les responsables qualité des chaînes de vente ne deviennent plus des juristes, mais soient des spécialistes de sécurité informatique …

De plus le hasard métaphorique et poétique veut que le nom du fromage soit « Abondance ». Quel meilleur nom de produit pour illustrer l'abondance des failles humaines et informatiques dans la gestion de tout ce qui croise notre vie … 😀

Mega fuite Facebook, 1.5 millions de suisses concernés

Samedi de Pâques, ont été mis en ligne gratuitement les données volées de Facebook sur un forum de hacker. Les données comprennent pas moins de 1/2 milliard de comptes Facebook ! Soit près de 20 % de tous les utilisateurs Facebook … ? Un certain nombre d'articles d'actualité parlent du sujet (BusinessInsider, BleepingComputer). Les archives sont divisées par pays de provenance des utilisateurs. L'archive n'était pas nouvelle, mais elle était uniquement vendue depuis juin 2020, donc réservée à une communauté restreinte. Les données elles-mêmes ont été volées semble-t-il en 2019 suite à une faille du site Facebook. Depuis dimanche, l'archive est aussi distribuée sur BitTorrent, ce qui va évidemment fortement augmenter sa diffusion. La publication en début de période de Pâques n'est pas un hasard. Dans une période de congés, c'est là où l'impact d'attaques qui en découleront sur les individus mais aussi les entreprises, sera le plus grand.

Les données

Les archives publiées comprennent différentes informations, mais la plus importante est le numéro de mobile attaché au compte Facebook. Les autres données permettent de cibler l'attribution de la personne (nom, prénom, genre, statut, lieu de résidence, lieu d'origine, entreprise professionnelle ou occupation, date de naissance, adresse email en quantité limitée). Précédemment les grosses publications de vols de données concernaient surtout les adresses emails et les mots de passe crackés. Mais ces dernières années, les numéros de mobiles commencent à devenir une donnée de choix. En effet de plus en plus de systèmes de protections se basant sur les SMS, le numéro de mobile devient donc une donnée très importante pour lancer des attaques «SIM Swapping» auprès des entreprises Télécoms, ou même utiliser le numéro pour faire de l'usurpation d'identité de l'appelant. De plus la plate-forme mobile étant popularisée de plus en plus par les entreprises commerciales et banques, obtenir des données pour pouvoir mieux attaquer cette plate-forme devient aussi un objet stratégique (campagnes d'influences politiques via des «mobiles farm» par exemple, piratage de comptes financiers etc). De plus en périodes de confinements, de télétravail de plus en plus utilisé, les donnés mobiles deviennent des données d'attaques très importantes.

Les données de la Suisse, et des pays voisins

L'archive de la Suisse comprend 1.5 millions de comptes, soit pas moins de 18.5 % de  toute la population Suisse. Les archives des pays voisins ont une proportion de comptes plus ou moins grande en fonction de l'usage et de la culture d'utilisation de Facebook dans le pays. Certaines archives comme celle de l'Italie couvrent près de 59 % de toute la population du pays … Voici les chiffres des pays proches.

Pays Taille fuite % population totale
Suisse 1'592'039 18.5% pop. 2019
France 19'848'557 29.1% pop. 2020
Italie 35'677'337 59.1% pop. 2019
Allemagne 6'054'422 7.2% pop. 2019
Belgique  3'183'540  27.6% pop. 2021
Autriche 1'249'388 14.1% pop. 2020

Les entreprises suisses concernées

Plus de 468'000 personnes ayant remplis les informations concernant l'occupation professionnelle ou l'entreprise concernée, cette information donne non seulement une bonne idée de la proportion des entreprises importantes de Suisse, mais aussi celles qui pourraient être concernées par des attaques futures, dérivées de ces données. On retrouve les grandes banques de Suisse, mais aussi les institutions importantes du pays. Voici le classement suivant du nombre de comptes volés par entreprise/institution :

(données partiellement modifiées pour regrouper la majeure partie des différentes dénominations des langues nationales, différentes syntaxes des noms etc)

Nombre Occupation, entreprise
26573 Self-Employed
3125 Swiss army
3015 Migros
2814 La Poste suisse
2673 Retired
2406 Student
1872 SBB CFF FFS
1803 Coop
1674 Louis Vuitton
1532 UBS
1365 Real Madrid C.F.
1333 Swisscom
1254 Credit Suisse
1067 Ecole polytechnique fédérale de Lausanne (EPFL)
864 FC Barcelona
840 Swiss International Air Lines
810 ETH Zürich
777 CHUV / Centre hospitalier universitaire vaudois
764 Etat de Vaud
686 Hôpitaux universitaires de Genève
671 Manor
598 Université de Genève
574 Universität Zürich
562 Universitätsspital Zürich
556 Nestlé
555 Université de Lausanne
542 Rolex
518 AXA Switzerland
512 Gucci
510 Landwirt
497 Etat de Genève
436 McDonald's
422 Novartis
... ...

Apercevoir en début de listing, l'armée Suisse, est particulièrement parlant.

Sociologie des victimes

Avec les autres données de l'archive Suisse des fuites Facebook, il est possible de construire une véritable sociologie des victimes. Voici un certain nombre de tableaux de proportions des profils des utilisateurs, et graphique.

Genre

Nombre % Genre
820'815 51.56% male
615'429 38.66% female
155'795 9.79% <VIDE>
1'592'039 100.00%  

 Statuts

Nombre % Statuts
144'463 44.62% Married
88'382 27.30% Single
65'046 20.09% In a relationship
9'432 2.91% Engaged
5'402 1.67% Divorced
3'171 0.98% Separated
2'458 0.76% It's complicated
1'951 0.60% Widowed
1'565 0.48% In a domestic partnership
1'381 0.43% In an open relationship
533 0.16% In a civil union
323'784 100.00%  

Prénom

Prénom par popularité

Nombre Prénom
10871 Daniel
8163 Thomas
7518 Sandra
7323 Marco
7133 Michael
6727 Peter
6681 Patrick
6647 David
6604 Christian
6209 Maria
... ...

Nom

Nom de famille par popularité. On retrouve les noms alémaniques, mais aussi portuguais et espagnols, intégrés depuis longtemps en Suisse.

Nombre Nom
6'164 Müller
4'495 Meier
3'935 Silva
3'581 Schmid
3'245 Santos
3'112 Ferreira
2'843 Pereira
2'715 Keller
2'404 Schneider
2'385 Weber
2'230 Meyer
... ...

Distribution des années de naissance

Dans l'archive Suisse des fuites Facebook, on trouve l'information de date de naissance avec l'année, pour plus de 38'000 personnes. Il est donc possible de regrouper les comptes par année, et de faire un tableau ainsi qu'un graphe de distribution des années de naissance, donc de l'âge de la victime de fuite (en se basant sur l'année 2019 de la fuite). Voici donc le graphe :

L'âge avec le plus grand nombre de comptes est 25 ans. 3/4 des comptes se trouvent dans la tranche d'âge 20 à 44 ans. La moitié des comptes se trouvent dans la tranche d'âge 21 à 34 ans.

Lieu de résidence et lieu d'origine

On trouve aussi 2 autres champs, qui doivent correspondre au lieu de résidence et au lieu d'origine. On voit la forte importance de ces données volées pour Genève notamment (Zürich étant plus facilement utilisé comme "ville par défaut" lors des choix liés aux données informatiques). Pour les villes d'origine on retrouve l'importance des Portugais et Kosovars. Ces 2 données donnent les tableaux suivants :

Nombre Ville de résidence (?)
84266 Zürich
58432 Geneva
29388 Lausanne
22898 Basel
21591 Bern
14076 Luzern
10981 Lugano
9236 Saint Gallen
8807 Fribourg
8104 Winterthur
7806 Neuchâtel
4777 Biel
4330 Sion
4104 La Chaux-de-Fonds
... ...

 

Nombre Ville d'origine (?)
34772 Zürich
23195 Geneva
14504 Bern
13352 Basel
11450 Lausanne
9752 Luzern
5381 Lugano
5246 Saint Gallen
4918 Fribourg
4752 Winterthur
4080 Neuchâtel
3042 Kosovo
2760 Biel
2693 Porto
... ...

Implications

Précédemment, les grosses entreprises GAFAM, pouvaient mener ces études avec leurs données. Mais avec des fuites massives de la sorte, l'ensemble de l'analyse de toutes les données nominales finissent par pouvoir être utilisées par n'importe qui. Si tout finit en publication «libre», le sujet de l'anonymité des données de recherches, finit par n'avoir même plus aucun sens ...

Le pays, le reste du monde

Les citoyens sont de plus en plus conscients que les GAFAM possèdent un grand nombre d'informations les concernant. Mais lorsqu'une grosse entreprise de réseau social voit une quantité massive de ses données volées et publiées, les individus concernés mettent par leurs données inévitablement en danger non seulement leur vie privée, mais aussi les entreprises et institutions du pays dans lesquelles ils travaillent (grande porosité entre la vie privée et la vie professionnelle d'un individu). De plus, une grande quantité de données concernant un grand nombre d'entreprises et d'institutions importantes d'un pays, y compris son armée, finissent par mettre en danger la sécurité globale du pays (porosité entre le privé, le public, et le national) … Et ces dangers qui ici sont mis en avant en rapport à un petit pays comme la Suisse, concernent aussi tous les autres pays du monde impactés par ces fuites. Il y a donc aussi un risque mondial (multinationales, communautés culturelle inter-pays, communautés politiques, religions etc). Les conséquences dépassent donc très largement la seule implication d'une seule entreprise même comme Facebook ...

Compilations de données

Les archives de données devenant de plus en plus nombreuses, mais aussi de plus en plus massives, la compilation de données entre des sources de vol différentes, permettent de construire de profils de personnes de plus en plus précis, couvrant l'ensemble de tout le monde numérique au sens très large, mais des volumes de victimes aussi de plus en plus géants (les grosses archives récentes de mots de passe finissant par couvrir en nombre quasi la moitié de toute l'humanité …?). Il n'est donc plus possible de réfléchir en terme d'une fuite spécifique, mais de la somme de toutes les fuites qui ont eu lieu par le passé … Et donc l'implication de tout le numérique et ses failles sur toute l'évolution économique mondiale (la montée globale massive des fraudes et escroqueries), mais aussi les implications de l'évolution des communautés de cette humanité au sens large ...

Arnaque chinoise et ciblage différencié des pigeons

Ayant pris connaissance d'une page web avec un contenu "suspect", j'ai pu remarquer un comportement plus étrange. Le site était censé être un site de blog ou apparenté, mais la page ne donnait pas du tout le même contenu en fonction de si elle était surfée depuis un mobile (tablette ou mobile) ou un poste fixe (desktop). Donc la page d'arnaque, une alerte que la Chine allait soi-disant utiliser une crypto-monnaie comme monnaie principale, ne s'affichait que sur les mobiles.

L'analyse technique

L'identification du type de navigateur du client, pour afficher un contenu hybride différencié, devait se faire via le paramètre "User Agent" du navigateur. Paramètre qui n'est normalement pas modifiable par l'utilisateur. Mais le navigateur Brave sur Android permet l'option "Version pour ordinateur", qui modifie notamment le paramètre "User Agent" pour se faire passer pour un navigateur desktop. L'utilisation de cette option permet en effet d'afficher les 2 versions de la même page et de voir ce contenu "hybride" différencié. Voici les 2 printscreens, on peut vérifier que l'url de page affichée est bien la même :

Page normale

Page normale

Page arnaque

Page arnaque

De plus, la page d'arnaque usurpe l'identité du media financier Forbes. Dans le texte on trouve aussi sans doute de faux dires du milliardaire Richard Branson (de plus écrit avec une erreur "Bronson", vraisemblablement volontaire ...?).

Ci-dessous le printscreen de l'option de menu du navigateur Brave sur Android, pour obtenir l'un où l'autre des contenus.

Mais l'utilisation forcée du "User Agent" pour récupérer la page depuis une ligne de commande sur un desktop (i.e. par exemple "curl" ou "wget") ne fonctionnait pas. Si on modifiait avec un "User Agent" Android, la page "normale" (non arnaque) était retournée, ou parfois même aucune donnée. Pour cela il fallait récupérer tous les paramètres d'en-tête de requête utilisés par un vrai navigateur Brave Android et modifier toutes les en-têtes du client ligne de commande pour se faire passer quasi à l'identique d'un vrai navigateur Android. Donc le site de blog, avait un code assez poussé pour analyser l'ensemble des paramètres du client et non pas seulement le simple paramètre "User Agent" de la requête reçue par le client pour tenter de l'identifier.

Ceci permettant de récupérer la page finale d'arnaque, celle-ci est une modification du site, avec un simple tage html "iframe" pointant sur un site très différent du site dot-quantum.com de départ. Il n'est pas aisé de savoir d'ailleurs si le site "dot-quantum.com" est un vrai site de blog qui a été piraté pour y insérer un détournement de redirection d'arnaque, où si c'est un vrai site contrôlé par des arnaqueurs, déguisé en faux site de blog, mais créent la redirection d'arnaque que pour certaines victimes mobiles ...?

Ce-dessous voici l'analyse via le site url-scan de l'arnaque :

https://urlscan.io/result/537ea895-42c0-4619-92dd-c35aac75d2a9/

On trouve dans une discussion reddit datant de 22 jours, le même genre de discussion sur la même arnaque avec un contenu différencié. Mais il semble que le niveau d'identification via le simple "User Agent" ait été modifié depuis ...?

https://www.reddit.com/r/JimBrowningOfficial/comments/livcn7/url_leads_to_scam_website_only_when_accessed_from/

Implications sociales

Il s'agit d'une arnaque vue plusieurs fois ces derniers temps, notamment dans de fausses crypto-monnaies pour tenter de voler des investisseurs trop naïfs. Mais le fait de différencier ici l'arnaque affichée que pour les utilisateurs mobiles a un effet pernicieux encore plus grand. Les fraudeurs savent très bien que la majorité des "utilisateurs lambda" surfent de plus en plus sur le net avec des mobiles. Mais les professionnels, administrateurs systèmes, développeurs, responsables sécurité, eux vont préférer et utiliser des ordinateurs desktop. Ceci permet donc de "cacher" l'arnaque, aux professionnels pouvant l'analyser et dévoiler publiquement la supercherie, et de ne cibler au contraire que les utilisateurs avec un faible niveau de connaissance technique, étant de plus en plus majoritaires dans les surfs mobiles. De plus si un utilisateur utilise d'abord son mobile puis son ordinateur de bureau, il ignorera sans doute la seconde page "normale" en croyant que le site a simplement changé. L'arnaque uniquement pour mobile a encore un autre avantage. Sur le mobile il n'est pas aisé d'afficher les code html des pages et d'y faire des analyses. En ne ciblant les arnaques que sur les mobiles, ou autres infections virales du genre, on limite ainsi la trop grande rapidité des professionnels de sécurité de repérer et analyser ces contenus. On augmente ainsi le potentiel de "nuisance impunie" des contenus malveillants.

Concernant la mouvance vers les mobiles, elle est notamment poussée par des grandes entreprises et notamment instituts financiers vantant de plus en plus l'utilisation de la "finance mobile" ou "banque mobile". Les arnaqueurs ont ici très bien compris ce phénomène, et cerné aussi comment l'utiliser à leur avantage. L'écosystème des mobiles devient donc beaucoup plus attractif pour y répandre des arnaques virales. La viralité des diffusions via les mobiles et tous les logiciels de communication qu'on y trouve (skype, whatsapp, telegram, etc...) augment encore la capacité des mobiles à devenir des plates-formes d'harponnage de choix. Et ce choix différencié de contenu pour le mobile est bien là pour montrer ce problème de manière flagrante.

Des débouchés pernicieux pourraient augmenter si cette méthode se répand de plus en plus dans les arnaques ...? En effet on peut imaginer des sites d'arnaques, ou plus méchamment tentant de détourner des jeunes ou mineurs qui sont plus grands utilisateurs des mobiles, et les parents qui surveillent leurs enfants mais en se servant d'ordinateurs desktop familiaux ne verraient pas les arnaques qui ne seraient que ciblées contre les jeunes victimes ...? Ici la différenciation de "contenus hybride" du web peut avoir des impacts dommageables sociaux encore plus nuisibles. Le discours global des entreprises tentant de minimiser l'insécurité sur les mobiles, ne créant qu'un flou qui augmente encore ces dommages potentiels.