Diario de León

Rastreadores de criminales

Decía Churchill que para esconder una información lo mejor es escribir un libro. Esto es precisamente lo que parecen haber descubierto los ciberdelincuentes. Ya no se amparan en la red profunda ni usan Tor para camuflarse sino que se sirven de redes abiertas para enviar información, compartir archivos o vender contenido ilegal. Un equipo de la Universidad ha descubierto cómo averiguar dónde están

Revsita

Revsita

León

Creado:

Actualizado:

Wesam Al-Nabki es uno de los investigadores del Varp. SECUNDINO PÉREZ

Los cibercriminales han comenzado a salir del mundo oscuro en el que antes se movían. A pesar de que la Red Oscura (del inglés, Darknet) sigue siendo el territorio preferido de la delincuencia, los cibercriminales han comenzado a operar ‘a la luz del día’, en plataformas y aplicaciones cuyo carácter abierto les ayuda a sentirse amparados por el anonimato y pasar desapercibidos. Los expertos certifican que Telegram es un ejemplo, pero hay muchos más, como por ejemplo el servicio de notas online Pastebin.

Pastebin es una herramienta utilizada por programadores para, principalmente, intercambiar códigos en formato de texto. Dicho código se puede a continuación compartir o guardar en la nube, con lo que puede ser guardado en Dropbox o Google Drive y usarlo de manera privada. Un convenio entre Incibe y la Universidad de León ha logrado desarrollar un sistema para detectar automáticamente los contenidos de carácter ilegal que se podrían publicar en Pastebin para intercambiar información. El proyecto lo ha desarrollado el grupo de investigación GVIS (Group for Vision and Intelligent Systems), de la Escuela de Ingenierías de León. Su investigación, iniciada hace más de un año, está a punto de publicarse y ha contado con la colaboración de Sarah Jane Delany, experta del Centro de Investigación de Inteligencia Aplicada de Dublín y directora del Applied Intelligence Research Center.

«El incibe descubrió que Pastebin era utilizado por muchos ciberdelincuentes para compartir contenido ilícito», destaca Alegre

 

Enrique Alegre es el director del VARP. SECUNDINO PÉREZ

«Incibe descubrió que Pastebin había comenzado a ser utilizada por muchos ciberdelincuentes para compartir contenido ilícito» destaca Enrique Alegre, director del proyecto y del grupo GVIS de la Universidad de León. De hecho, en el año 2014, Edward Snowden alertó sobre la privacidad del servicio de Dropbox después de que cientos de presuntos nombres de usuario y contraseñas del servicio de intercambio y almacenamiento de documentos se hicieron públicos en Pastebin. El pirata informático que lo anunció aseguraba entonces haber hackeado cerca de 7 millones de cuentas por las que pedía donaciones bitcoin para financiar la operación. Snowden denunció entonces que había plataformas y redes que no soportaban cifrado, con lo que no podían proteger los archivos privados. Enrique Alegre y su equipo han desarrollado un sistema que permite seleccionar las publicaciones más informativas de Pastebin, con objeto de entrenar un modelo inteligente que permite clasificar el contenido textual en servicios de notas online, como Pastebin. «La investigación resalta cómo se puede solventar el problema de obtener un conjunto de datos etiquetado», explica el ingeniero, que ya ha realizado otras investigaciones junto a Incibe. El equipo científico está formado por el propio Enrique Alegre, Wesam Al-Nabki, Eduardo Fidalgo y Sarah Jane Delany. «Los usuarios de Pastebin se sirven del anonimato para compartir contenido sospechoso, como por ejemplo información sensible o hipervínculos que dirigen, por ejemplo, hacia material de explotación sexual infantil», subraya el investigador. 

Active Learning

Añade Alegre que uno de los retos principales de la investigación fue conseguir un conjunto de datos etiquetado, para lo que decidieron utilizar el Aprendizaje Activo (del inglés, Active Learning) basado en exploración, para seleccionar y etiquetar los ejemplos con más información de Pastebin, con el fin de entrenar un modelo inteligente para realizar una clasificación automática de pastes o publicaciones. «Nuestro diseño implica tres niveles de clasificación, etiquetando cada paste publicado en Pastebin en legible o no, sospechoso o no y, dentro de este, en siete categorías diferentes de contenido sospechoso», explica el investigador, que añade que este trabajo ayudará a bloquear contenido ilegal antes de que se distribuya por la red. «Uno de los retos de este tipo de trabajos consiste en etiquetar los datos para poder entrenar los modelos que posteriormente clasificarán una muestra cualquiera en la clase correspondiente. Para ello utilizamos lo que se denomina Aprendizaje Activo basado en exploración, que es una de las técnicas en las que Sarah Jane Delany es experta», destaca.

 

Eduardo Fidalgo es uno de los investigadores del proyecto. SECUNDINO PÉREZ

 

El equipo descubrió que el 20% de todo el material tenía relación con la cibercriminalidad (pornografía infantil, carting, drogas, hackers...)

Dentro del contenido sospechoso, se crearon las siguientes etiquetas: robo de tarjetas de crédito, hackers, datos personales, drogas y pornografía infantil. Cuando comenzaron a trabajar, los ingenieros descubrieron que la mayoría de la información que circula en Pastebin es no legible. Para los profanos, esto significa que se trataba de códigos cifrados, caracteres irreconocibles, códigos de codificación; en una palabra,  material irreconocible para ser etiquetado. Además, el trabajo también reveló que había mucho código que no se podía clasificar porque no transmitía información. «Cuando el algoritmo descubrió el material legible, comenzamos a clasificar el texto a través de un procedimiento de segregación binaria». Es decir, comenzó el proceso para separar los textos lícitos de los que tenían características compatibles con actividades ilegales. El equipo de investigadores descubrió entonces que el 20% de todo ese material tenía relación con la cibercriminalidad (pornografía infantil, tráfico de tarjetas de crédito, drogas, hackers, etc). «La relación queda de esta manera -precisa Enrique Alegre- de cada cien pastes que se analizaron 59 eran código, y de los 41 restantes, unos pocos más de la mitad estaban formados por caracteres no legibles. Del texto legible, aproximadamente el 9% estaba relacionado con una actividad sospechosa o que podría ser ilícita, lo que supone que algo más de 1,6 de cada 100 pastes pueden ser delictivos», precisa el director del GVIS, que añade que desde el punto de vista técnico el equipo descargó más de cuatro millones de pastes para obtener así, de esta manera un conjunto representativo de muestras y seleccionar las que más información aportan. Con posterioridad, el equipo detectó diferentes patrones en cada uno de las actividades sospechosas analizadas. «Así, descubrimos que con 25.000 pastes teníamos una muestra representativa con la que trabajar», explica Enrique Alegre. A partir de ese momento, el equipo orientó su trabajo a que el algoritmo se centrara en dos mecanismos de trabajo: la explotación y la exploración con el objetivo de descubrir los ejemplos que aportaban más información para construir el modelo.

tracking