La Agencia Tributaria utilizará la minería de datos para buscar indicios de fraude fiscal ante la nueva gran fuente de información que recibirá próximamente gracias a la facturación electrónica. Pymes y empresas deberán emitir a sus proveedores y clientes todas sus facturas en formato digital y compartirlas de forma inmediata con fisco a partir de mediados de 2025. Además, también la usará para conseguir los datos de los pensionistas que aportaron en su día a antiguas mutualidades y facilitar las devoluciones de IRPF en la Renta o solicitudes online.
Grosso modo, la minería de datos son algoritmos que logran sacar respuestas o conclusiones de un conjunto desorbitado y desordenado de información.
Hacienda, ante la gran cantidad de datos que espera obtener de las facturas electrónicas ha sacado a concurso una oferta para buscar a una compañía que desarrolle software y aplicaciones para «sacar el máximo partido de esos datos. El documento que justifica este concurso indica que «la incorporación de nuevas fuentes de información, como las derivadas de la facturación electrónica, la información para la gestión de devoluciones a los mutualistas y la información procedente de intercambios internacionales abre nuevos caminos para esta investigación preventiva». «Con el mismo objetivo, se añade a este esfuerzo la incorporación de novedosas tecnologías como BigData, procesamiento del lenguaje natural y minería de datos», explica.
Mutualistas
El objetivo de la Administración es poder explotar mejor los datos obtenidos de la facturación digital para prevenir el fraude fiscal, así como cualquier otra fuente que facilite información para poder realizar las devoluciones de IRPF a los mutualistas. El fisco se ha retrasado en muchas de las devoluciones ante la dificultad de hacerse con los datos de determinadas mutualidades y conocer las aportaciones reales que los trabajadores realizaron en su día, para calcular el importe del abono. Estas herramientas ayudarán a hacerse con la información.
El contrato, aún en licitación, tiene un valor aproximado de 13,5 millones de euros sin IVA. Será de dos años, prorrogable, y con el objetivo de que ya esté adjudicado antes de final de año para su puesta en marcha a partir del 15 de enero.
Hacienda explica que las técnicas de minería de datos, que rebuscarán entre las distintas fuentes información, ayudará a incorporar modelos predictivos de los contribuyentes. Como ejemplo, expone que al dato del sueldo bruto de un ciudadano, con un mayor nivel de análisis de los datos, se le puede añadir la edad, profesión y otros datos que le clasifiquen dentro de un grupo de personas. «La combinación de los contenidos informativos de todos los datos, permite determinar si el contribuyente puede considerarse singular, por ejemplo, si se detectan datos incoherentes con otros propios o con los de su grupo y, por tanto, candidato a ser investigado por ser sospechoso de fraude», explica la Agencia Tributaria.
Medios digitales, como fuente
El objetivo de la Agencia Tributaria es conseguir una base de datos que integre en un modelo conceptual toda la información de las fuentes y que dé con agilidad la respuesta de la información buscada. La Administración fiscal señala que en la actualidad se nutre de diversas fuentes, de las que las principales son las bases de datos con información estructurada de los sistemas transaccionales.
No obstante, también contempla la incorporación de fuentes semiestructuradas y de texto, como actas de inspección, anuncios publicados en diarios oficiales o noticias de medios electrónicos. «Como nueva fuente de información se destaca, por el alto volumen de datos que supone, la procedente del sistema de Facturación Electrónica previsto para 2026, ya que dicha información se incorporará en el entorno analítico», indica.
Fuente: El Economista