DarkBERT : un modèle de langage formé au Dark Web pour les agences de cybersécurité et d’application de la loi
DarkBERT est un nouveau grand modèle de langage (LLM) développé par une équipe de chercheurs sud-coréens pour relever les défis de la compréhension du langage du dark web. L’équipe a développé le modèle en utilisant uniquement des données Web sombres explorées dans le but d’améliorer la compréhension contextuelle de la langue dans le domaine, ce qui pourrait fournir des informations précieuses pour la cybersécurité et l’application de la loi.
Les chercheurs ont ensuite comparé DarkBERT aux modèles existants BERT et RoBERTa et ont constaté qu’il surpassait les deux en termes de connaissance du domaine pour le dark web, bien que légèrement. Ce modèle ne cible pas les cybercriminels, mais plutôt les organismes chargés de l’application de la loi qui surveillent le dark web à la recherche d’activités illégales.
Naviguer sur le dark web pourrait être important non seulement pour les cybercriminels et les pirates, mais aussi pour les journalistes, les personnalités de l’opposition et les personnes soucieuses de leur vie privée. Le navigateur Tor offre aux utilisateurs la possibilité de rester anonymes lorsqu’ils surfent, discutent et envoient des e-mails. Bien qu’un logiciel spécial soit nécessaire pour accéder au Dark Web, il est également utilisé pour accéder au contenu censuré.
Les créateurs de DarkBERT n’ont pas l’intention de rendre le modèle accessible au public. DarkBERT n’est pas librement accessible et il n’est pas prévu de mettre le modèle à la disposition du public, indique la préimpression arXiv. Cependant, des approches similaires pourraient intéresser les autorités de cybersécurité lorsqu’elles sont combinées à une recherche en temps réel pour surveiller les forums pertinents ou les activités illégales.
DarkBERT : Le Sinister Sibling de ChatGPT formé au Darknet a été publié pour la première fois sur Paris Beacon News.