Riesci a immaginare un mondo senza polizia o forze dell'ordine? Cosa comporterebbe? Un livello di criminalità più elevato. Più avidità. Più prevaricazione. Meno sicurezza.

Il dark web non ha bisogno di presentazioni. Nascosto nelle profondità di Internet c'è il dark web, dove il crimine non ha limiti e gli utenti non hanno volto. Fino ad ora. DarkBERT potrebbe essere il potenziale salvatore che limita il crimine sul dark web.

Prima di approfondire cos'è DarkBERT, ecco alcune statistiche per farsi un’idea della portata e del numero di attività illegali che vengono svolte sul dark web:

  • Ciò che vediamo oggi costituisce solo il 4% dell'internet totale. Il resto appartiene al deep e dark web.
  • Il 60% dei dati sul dark web (60% di 75.000 TB), se trafugato, può danneggiare le grandi aziende.
  • Quasi 27,48 milioni di credenziali presenti sul dark web appartengono ai dipendenti delle 1000 più importanti al mondo.
  • Quasi il 56.8% dei contenuti del dark web è illegale.
  • Ci sono più di 8 milioni di utenti sui 10 forum di hacking del dark web più attivi e questi numeri, da dopo la pandemia, sono in continuo aumento. Questo grazie al lockdown e, soprattutto, ai complessi strati della rete che mascherano gli indirizzi IP degli utenti.

Ma cosa significa tutto questo? Una sola parola: guai!

"L'eccellenza suprema non sta nel vincere ogni battaglia, ma nello sconfiggere il nemico senza mai combattere", diceva Sun Tzu nell'Arte della guerra.

Sul web “di superficie”, abbiamo degli strumenti, come le soluzioni SIEM integrate con le funzionalità UEBA e SOAR, che possono aiutarci a raggiungere l'eccellenza. Ma cosa succede nel dark web, dove gli utenti anonimi si scambiano dati sensibili in lingue crittografate e vendono PII rubati, dati contraffatti provenienti da grandi aziende, malware, botnet e kit di exploit?

Rilevare e tracciare queste attività sembrava quasi impossibile fino a pochi giorni fa, quando alcuni ricercatori della Corea del Sud si sono riuniti per costruire un'intelligenza artificiale generativa esclusivamente per il dark web chiamata DarkBERT.

Per capire DarkBERT, dobbiamo prima capire il suo predecessore. Per farlo, torniamo un po' indietro e scaviamo un po' più a fondo.

Elaborazione del linguaggio naturale

L'elaborazione del linguaggio naturale (NLP) è la branca dell'informatica che umanizza i computer, cioè aiuta i programmi informatici a comprendere e interpretare il linguaggio umano, compresa la sintassi, la semantica e i lessici. Ci imbattiamo quotidianamente in programmi di NLP: correzione automatica, assistenti vocali e chatbot. Quindi, in che modo la tecnologia NLP comprende, interpreta e comunica con un linguaggio umano?

Per farlo, si avvale dell'aiuto di modelli linguistici. Oggi esistono molte architetture di modelli linguistici: n-grammi, reti neurali feedforward e reti neurali ricorrenti, solo per citarne alcune. Transformer è l'ennesimo esempio di architettura sulla base della quale sono stati creati molti modelli linguistici. Il BERT (Bidirectional Encoder Representation from Transformers) e il GPT (Generative Pre-trained Transformer ) sono due tipi popolari di architettura dei trasformatori.

La famiglia di modelli BERT

BERT è un linguaggio preaddestrato basato sull'architettura del trasformatore. I linguaggi preaddestrati sono linguaggi sottoposti a training su enormi blocchi di dati. BERT è stato introdotto per la prima volta da Google nel 2018 ed è diventato ben presto un modello linguistico rivoluzionario. Questo perché, a differenza dei suoi predecessori, poteva interpretare i dati in modo bidirezionale, cioè aveva una migliore comprensione delle frasi e del contesto in cui venivano utilizzate. BERT utilizza la tecnica del modello linguistico mascherato (MLM) per distinguersi dagli altri modelli linguistici. MLM maschera le parole casuali di una frase e, in base al contesto e alle parole che circondano la frase, BERT completa la frase inserendo la parola giusta.

Approccio BERT ottimizzato in modo robusto

Sulla base del framework BERT, i ricercatori di Facebook hanno creato un modello chiamato Robustly Optimized BERT Approach (RoBERTa). Questo modello era migliore di BERT perché era stato addestrato su un set di dati quasi 10 volte più grande. Inoltre, RoBERTa è stato dotato di una migliore tecnica MLM, poiché la formazione prevedeva la mascheratura del testo più volte anziché una sola. La formazione includeva anche la previsione della frase successiva, che ha permesso a RoBERTa di prevedere se due frasi andavano effettivamente insieme o meno.

Sebbene entrambi questi modelli abbiano funzionato molto bene sul web di superficie, non sono mai stati in grado di decodificare il linguaggio del dark web poiché non sono mai stati addestrati per questo scopo. Mentre le conversazioni sul web di superficie sono in linguaggio umano, il dark web utilizza linguaggi crittografati o in codice per scambiare messaggi anonimi. È stato il modello RoBERTa che è servito come architettura di base durante lo sviluppo di DarkBERT.

Quindi, cos'è DarkBERT?

DarkBERT è un modello linguistico preaddestrato che è stato addestrato su 2,2 TB di dati raccolti da più siti Web su Tor. I siti web da cui sono stati raccolti i dati contenevano informazioni sensibili che potevano essere dannose se esposte. Per evitare qualsiasi esposizione, i dati utilizzati per l'addestramento sono stati filtrati, bilanciati categoricamente (è stata selezionata una quantità uguale di dati dalle diverse categorie), deduplicati (le informazioni ripetitive sono state rimosse) e pre-elaborati (i dati sono stati puliti per evitare che informazioni incomplete o sensibili venissero utilizzate per l'addestramento) dai ricercatori.

Cosa può fare DarkBERT?

DarkBERT può automatizzare il processo di rilevamento delle minacce sul dark web.

Le sue attuali capacità includono:

  1. Classificare le pagine del dark web per decidere su quali pagine concentrarsi di più;

  2. ;Identificare una minaccia dalla comunicazione tra i membri dei gruppi, cioè può rilevare un possibile attacco a un'organizzazione dai messaggi e dai dati scambiati sui vari forum.

  3. Identificare un thread di discussione sulla violazione dei dati con l'aiuto di varie parole chiave;

  4. Rilevare parole chiave correlate alle minacce. DarkBERT utilizza tecniche MLM per identificare la parola giusta contestualmente dove vengono applicate le funzioni della maschera di riempimento. (Il modello della maschera di riempimento si riferisce al mascheramento di determinate parole in una frase per garantire che le IA siano precise nella loro previsione.)

Cosa può significare DarkBERT per le organizzazioni?

Se uno strumento come DarkBERT fosse esistito qualche anno fa, allora il WannaCry ransomware, che ha causato una perdita sbalorditiva di 4 miliardi di dollari, sarebbe stato solo un altro ransomware raccolto da DarkBERT mentre il suo attacco veniva pianificato negli angoli più profondi del web.

Con i dati che vengono sempre più salvati su dispositivi digitali o su piattaforme cloud, c'è una maggiore necessità di sicurezza ora più che mai. L'introduzione di DarkBERT farà sì che le organizzazioni desidereranno incorporare i controlli del dark web per la loro due diligence.

In futuro, i fornitori di analisi della sicurezza e SIEM inizieranno a offrire soluzioni in grado di sfruttare DarkBERT. Di seguito sono riportati alcuni possibili vantaggi di una soluzione SIEM in grado di eseguire questa operazione:

  • La soluzione potrebbe identificare l'esistenza di dati aziendali sensibili sul dark web. Questo potrebbe essere fatto fornendo parole chiave in un'intelligenza artificiale generativa come DarkBERT.
  • È possibile impostare un avviso sullo strumento di sicurezza informatica ogni volta che DarkBERT rileva una minaccia informatica, una violazione dei dati, un ransomware e uno spionaggio aziendale su un forum di hacking.
  • I red team potrebbero utilizzare DarkBERT per raccogliere informazioni associate alla vendita di malware o vulnerabilità di rete e per condurre test di penetrazione.
  • I report mensili potrebbero essere inviati da DarkBERT alla soluzione SIEM per analizzare e rilevare le minacce in modo proattivo.

Sarà difficile determinare cosa riserva il futuro per gli strumenti di sicurezza informatica in un settore così dinamico come quello dell'informatica. Ma se c'è una cosa che rimane costante per gli strumenti di sicurezza informatica, è che devono stare sempre al passo con il loro nemico. Con l'introduzione di un'intelligenza artificiale come DarkBERT, il futuro è pieno di possibilità e ciò che potrebbe venirne fuori sarà solo per il meglio.

Con DarkBERT, le possibilità di vincere senza combattere aumentano a passi da gigante.