ALL'INTERNO DEL

Menabò n. 215/2024

13 Maggio 2024

In cosa investe l’Unione Europea? Un’analisi di Text Mining sui progetti di coesione

Nicola Caravaggio, Giuseppe Di Renzo, Laura Fanelli, Giuliano Resce e Agapito Emanuele Santangelo utilizzando la tecnica del text mining analizzano la dinamica degli interventi delle Politiche di Coesione in Italia, con un focus sulle dinamiche regionali. L'analisi di 51.971 progetti nel periodo 2000-2022, mostra la netta preponderanza di finanziamenti per tirocini curriculari e non-curriculari, per il servizio civile e in generale per incentivi, seppur non strutturali, al lavoro. Queste inedite informazioni possono essere utili per migliorare l’azione del decisore politico europeo.

Fin dalle origini dell’Unione Europea, le istituzioni sovranazionali hanno adottato una serie di misure per favorire un processo di convergenza tra i Paesi membri e limitare le differenze di reddito pro-capite e di ricchezza dei territori. In questo scenario, le Politiche di Coesione hanno avuto il duplice scopo di favorire una crescita omogenea, inclusiva e di lungo periodo e di ridurre le disuguaglianze economiche e sociali tra le regioni dell’Unione.
Sull’esperienza pluriennale delle Politiche di Coesione le posizioni sono contrapposte (W. Molle, European Cohesion Policy, Routledge, 2007): alcuni sottolineano come le disparità si siano ridotte in maniera modesta ; altri ritengono, invece, che gli interventi di coesione abbiano fatto registrare buoni risultati. Il dibattito è particolarmente acceso in Italia dove, nonostante l’entità della spesa, permane un divario significativo tra le regioni del Nord e del Sud: da oltre un ventennio il PIL pro-capite nel Mezzogiorno si aggira intorno al 55-58% di quello del Centro-Nord (ISTAT, I divari territoriali nel PNRR: dieci obiettivi per il Mezzogiorno, 2023).
Sono state evidenziate diverse criticità che non permettono alle politiche di coesione di esprime pienamente il proprio potenziale, come la diversa qualità del contesto istituzionale negli enti locali, in particolare le Regioni, a cui vengono assegnati fondi basati su una progettazione locale, creando un meccanismo di mediazione all’interno del quale la qualità dell’istituzione locale ha un ruolo determinante (U. Fratesi e F.G. Wishlade, “The impact of European Cohesion Policy in different contexts”, Regional Studies, 2017).
In queste note ci proponiamo di analizzare il contenuto dei progetti finanziati dalle politiche di coesione allo scopo di comprenderne finalità ed eventuali eterogeneità territoriali.
Dati e metodi. I dati utilizzati per condurre questo studio sono stati estratti da OpenCoesione, un portale online coordinato dal Dipartimento per le Politiche di Coesione che raccoglie informazioni sui progetti finanziati dai fondi strutturali dell’Unione Europea in Italia.
Il dataset comprende tutti i progetti di attuazione delle politiche di coesione finanziati dai Fondi strutturali, dal Fondo nazionale per lo sviluppo e la coesione (FSC) e dal Piano d’azione per la coesione (PAC), dal 2000 al 2022. Esclusi i progetti le cui informazioni non sono state considerate sufficienti e adeguate all’analisi del testo, sono stati presi in considerazione complessivamente 50.971 progetti, di cui 44.255 attinenti al Centro-Nord e 6.716 al Mezzogiorno.
Come principale metodo di analisi dei dati è stato utilizzato il text mining che trasforma testi non strutturati come pagine web, articoli di giornale, e-mail, bandi, comunicati stampa, post/commenti sui social media, in dati strutturati e analizzabili con strumenti statistici.
Le variabili utilizzate per questo studio includono il codice del progetto, il titolo, la sintesi, la macroarea di destinazione, l’ammontare del finanziamento e la data d’inizio del progetto. Il testo analizzato è la sintesi di ogni progetto, che descrive le attività da svolgere; l’insieme di tutte le sintesi è stato poi distinto in base all’anno e mese di inizio del progetto. Successivamente, il corpus di analisi è stato preparato utilizzando funzioni del pacchetto R “tm”: dal corpus sono stati rimosse la punteggiatura, le stop words e i numeri. Le parole sono state quindi convertite ad un’unica forma (ad esempio “lavori” e “lavorare” in “lavoro”). Infine, è stata prodotta una Term Document Matrix, che indica il numero di volte che ogni parola appare in ogni progetto.
Per comprendere di cosa tratta un documento, si può guardare alla frequenza dei termini (tf), cioè al numero di occorrenze di una parola in un documento, oppure all’inverso della frequenza (idf), che riduce il peso delle parole comunemente utilizzate e aumenta il peso delle parole rare. I due processi possono essere combinati per calcolare la Term Frequency-Inverse Document Frequency (tf-idf) di una parola (le due quantità moltiplicate insieme), che misura la frequenza di una parola adeguata alla sua limitata utilizzazione (J. Silge e D. Robinson, “Text mining with R: A tidy approach”, O’Reilly Media, Inc. 2017).
La Term Document Matrix e la statistica tf-idf sono state calcolate prima per tutti i progetti, poi distinguendo i progetti destinati al “Centro-Nord” e al “Mezzogiorno” dell’Italia. Le parole-chiave dei progetti sono state inserite nelle cosiddette wordclouds, rappresentazioni visive in cui una parola è proporzionale alla sua frequenza.
Risultati. La Figura 1 mostra come le parole più frequenti, utilizzando la Term Document Matrix e la Term Frequency-Inverse Document Frequency, sono pressoché simili.

Figura 1: Confronto delle parole più frequenti nei progetti con la Term Document Matrix (wordcloud a sinistra) e con il Term Frequency-Inverse Document Frequency (wordcloud a destra)

La gran parte dei progetti sono dedicati ai tirocini e al servizio civile. Tra i primi spiccano i tirocini non curriculari ed extracurriculari finalizzati a formare i giovani nel mondo del lavoro, seguiti dai tirocini curriculari, rivolti agli studenti per integrare la formazione professionale con quella accademica. Similmente, troviamo i progetti dedicati al servizio civile e ciò dimostra come le politiche di coesione abbiano come focus primario le problematiche giovanili.
La Figura 2 mostra l’andamento nel tempo della frequenza delle 10 parole maggiormente presenti nei bandi utilizzando le due statistiche oggetto d’analisi.

Figura 2: Variazione della frequenza delle prime 10 parole nel tempo dal 2011 al 2022 con la Term Document Matrix (grafico a sinistra) e con la Term Frequency-Inverse Document Frequency (grafico a destra)


L’asse delle ascisse rappresenta l’anno d’inizio dei progetti, mentre l’asse delle ordinate la frequenza. Sono evidenti due picchi, il primo nel 2014 e il secondo nel 2018, anni in cui si è data attuazione alla maggior parte dei progetti contenenti le parole più frequenti. Da notare che dal 2019 l’andamento è stato decrescente, fino a mostrare un andamento linearmente prossimo allo zero negli anni 2020-2022, il periodo della pandemia Covid-19 nonché ultimo anno della wave 2014-2020 dei fondi.
La Figura 3 mostra un focus per gli anni 2020-2022 ed illustra come, pur restando predominanti i progetti concernenti il servizio civile, l’attenzione si sia spostata a progetti relativi all’impiego e all’occupazione e ad altri che hanno come oggetto contributi e incentivi. 

Figura 3: Frequenza delle prime 10 parole dal 2020 al 2022 con la Term Document Matrix (grafico a sinistra) e con la Term Frequency-Inverse Document Frequency (grafico a destra)


Le Figure 4 e 5 mostrano i risultati dell’analisi ripetuta dividendo i bandi appartenenti alla macroarea “Centro-Nord” e alla macroarea “Mezzogiorno”.

Figura 4: Confronto delle parole più frequenti nei progetti con la Term Document Matrix tra la macroarea “Centro_Nord” (wordcloud di sinistra) e la macroarea “Sud” (wordcloud di destra)

Figura 5: Confronto delle parole più frequenti nei progetti con la Term Frequency-Inverse Document Frequency tra la macroarea “Centro_Nord” (wordcloud di sinistra) e la macroarea “Sud” (wordcloud di destra)


Mentre le parole più comuni nel Centro-Nord risultano coerenti con quanto illustrato nella Figura 1, nel Mezzogiorno emergono nuovi termini chiave come “ricollocazione”, “contratto”, “benessere” e “assistenziale”. Questi evidenziano la persistente sfida legata alle situazioni di crisi occupazionale nelle regioni meridionali.
Nella Figura 6 è stato messo a confronto l’andamento dal 2011 al 2022 della frequenza delle parole più comuni nei bandi dividendoli per macroarea.


Figura 6: Confronto della variazione della frequenza delle prime 10 parole nel tempo dal 2011 al 2022 con la Term Document Matrix tra la macroarea “Centro_Nord” (grafico a sinistra) e la macroarea “Sud” (grafico a destra)


Nel Centro-Nord, l’avvio dei progetti è iniziato nel 2013, toccando due picchi nel 2014 e nel 2018. Nel Sud, l’inizio dei progetti è ritardato, nel 2014, con un picco nel 2016 e nel 2018. Tuttavia, mentre nel Centro-Nord sono stati avviati progetti anche dopo il 2020, seppur in misura minore, nel Mezzogiorno si è assistito all’interruzione totale di nuovi progetti contenenti parole frequenti.
Cosa succede dal 2020 al 2022? Mentre il grafico a sinistra della Figura 7 conferma quanto detto prima sul Centro-Nord, il grafico a destra mostra le parole più frequenti nei progetti per il Sud. Emerge chiaramente come i finanziamenti siano principalmente rivolti a contributi a persone per l’acquisizione di servizi, compresa la formazione, con un’attenzione particolare a figure specifiche come il “tecnico di trattamenti estetici”.

Figura 7: Frequenza delle prime 10 parole dal 2020 al 2022 con la Term Document Matrix tra la macroarea “Centro_Nord” (grafico a sinistra) e la macroarea “Sud” (grafico a destra)

Conclusioni. Questo studio si interroga sugli obiettivi dei progetti destinati a dare attuazione delle politiche di coesione, attraverso analisi di text mining sui documenti amministrativi prodotti dagli enti locali.
I risultati mostrano che la maggior parte dei progetti finanziati si concentra sul servizio civile e sui tirocini. Tale constatazione solleva una serie di questioni rilevanti per la politica economica e per lo sviluppo a lungo termine. Sebbene tali iniziative possano essere efficaci nel fornire un supporto temporaneo durante periodi di calo occupazionale, è fondamentale riconoscere che esse intervengono principalmente sulle conseguenze immediate della disoccupazione anziché affrontare le cause profonde e strutturali che contribuiscono al calo occupazionale stesso.
Inoltre, la dipendenza eccessiva da progetti di servizio civile e tirocini potrebbe riflettere una mancanza di investimenti strategici nell’innovazione, nell’istruzione e nella formazione professionale. Questi ultimi, infatti, sono cruciali per stimolare una crescita economica sostenibile e inclusiva nel lungo periodo. Senza un’attenzione adeguata a tali settori c’è il rischio che la crescita economica nazionale rimanga limitata e che la società continui a dipendere da misure temporanee e palliative per affrontare le sfide occupazionali.
Infine, è importante considerare il ruolo della qualità dell’occupazione nell’economia. Mentre i tirocini possono offrire esperienza lavorativa o un primo canale d’ingresso nel mondo lavorativo per i giovani, se non vengono accompagnati da opportunità di crescita professionale e salariale, potrebbero non essere in grado di costituire una solida base per il successo a lungo termine dei lavoratori e per la prosperità economica complessiva.
Per stimolare la crescita è importante adottare una prospettiva a lungo termine e investire risorse nella creazione di opportunità di lavoro di qualità, nell’innovazione e nella formazione professionale. Probabilmente per affrontare le esigenze di lungo termine è necessario intervenire sulla governance, in particolare una progettazione bottom-up finanziata attraverso risorse top-down potrebbe non essere la soluzione migliore.

Schede e storico autori