1. Introduzione
Questo contributo analizza il declino del tasso di matrimonio e la crescente popolarità delle relazioni alternative al matrimonio, che rappresentano un cambiamento demografico e sociale in atto nei paesi sviluppati dalla metà del XX secolo. Utilizziamo tecniche di apprendimento automatico (machine-learning) per analizzare due questionari della Generations and Gender Survey (GGS) per Francia, Germania e Italia. Sviluppiamo un modello per prevedere la scelta della relazione (sposato vs convivente) nei tre anni successivi, tenendo conto delle variabili che influenzano la scelta del matrimonio rispetto alla convivenza. Troviamo che l’età, il numero di figli, il paese di nascita, lo stato occupazionale e le opinioni su argomenti legati al matrimonio siano fattori significativi che influenzano la scelta della relazione. Il nostro modello è in grado di prevedere la scelta della relazione con oltre l’85% di precisione per la Francia, l’82% per l’Italia e l’80% per la Germania. L’osservazione e la previsione delle tendenze nella sfera della creazione della famiglia e del bilanciamento famiglia-lavoro potrebbero consentire di adeguare le norme giuridiche e le politiche pro-famiglia ai reali bisogni della società e pertanto nelle prossime edizioni della GGS sarebbe opportuno arricchire le domande e le informazioni raccolte su tali aspetti.
2. Dati
Il programma Generations and Gender è una fonte di dati ad accesso aperto lanciata dalla Commissione Economica per l’Europa delle Nazioni Unite nel 2000 (disponibili all’indirizzo: https://www.ggp-i.org/). Fornisce dati longitudinali sulla vita e le dinamiche familiari degli individui in 20 paesi sviluppati. L’indagine sulle generazioni e sul genere (Generations and Gender Survey, GGS) costituisce la fonte dei dati utilizzati nella nostra analisi e comprende sia informazioni su età, sesso, stato civile o numero di figli, sia informazioni più specifiche, come il tipo di abitazione occupata, la soddisfazione su lavoro o stato civile dei genitori, su pareri relativi a varie questioni familiari/lavorative.
Per costruire i nostri modelli, utilizziamo i questionari GGS disponibili (versioni 1.3 e 4.3) per Francia, Germania e Italia. Ogni persona che ha preso parte alla seconda edizione del questionario ha partecipato anche alla prima. Le indagini sono state condotte dal 2003 al 2005 e poi dal 2007 al 2008. L’edizione GGS 2020 è attualmente in preparazione e dovrebbe essere pubblicata nel 2022, anche se non esiste una data di pubblicazione ufficiale.
I cambiamenti nella sfera del matrimonio e nella fertilità nell’ultimo mezzo secolo hanno attirato l’attenzione di una ricca area di ricerca. Ad esempio, Toulemon (1996), Nazio e Blossfeld (2003), Bradatan e Kulcsar (2008), Kalmijn (2011) e Pereiro, et al. (2014) hanno esaminato l’influenza dei seguenti fattori sulla scelta del tipo di relazione dei cittadini europei: età, coorte e genere; istruzione, situazione del mercato del lavoro e ricchezza; stato civile precedente e numero di figli; situazione del domicilio familiare e del luogo di residenza.
Sulla base di una rassegna della letteratura esistente, e considerando la disponibilità di dati nella GGS, abbiamo selezionato i seguenti fattori che possono influenzare la scelta del tipo di relazione: i) età, ii) sesso, iii) tipo di nucleo familiare (single, genitore single, convivente con i genitori, coppia senza figli, coppia con figli, altro), iv) dimensione della famiglia, v) stato occupazionale (disoccupato, studente o in formazione, occupato o in congedo parentale/di cura, pensionato, ammalato/disabile/altro), vi) numero di bambini, vii) numero totale di partner co-residenti, viii) essere nato nel paese in cui ha luogo l’intervista, ix) livello di istruzione (terziario/non terziario), x) opinione sul divorzio (ad esempio, se è accettabile che una coppia divorzi anche se ha figli).
Inoltre, sono state incluse due variabili aggiuntive per Francia e Germania, che non erano disponibili per l’Italia: xi) presenza di un figlio da una delle precedenti unioni, xii) opinione sulle coppie omosessuali (ad esempio, se le coppie omosessuali dovrebbero avere gli stessi diritti di quelle eterosessuali). Per ottenere dati coerenti e completi per tutti e tre i paesi, alcune variabili sono state omesse a causa di valori mancanti o di un numero elevato di valori anomali. Nel periodo tra primo e secondo questionario (dal 2003-2005 al 2007-2009), la percentuale di single è diminuita e i coniugi sono aumentati, raggiungendo la crescita più alta di 9,5 punti percentuali in Germania. Inoltre, la percentuale di convivenza è aumentata in Francia e in Italia, ma è diminuita in Germania, il che potrebbe suggerire che nei primi due paesi la convivenza stia diventando sempre più un’alternativa al matrimonio, non una fase di transizione verso il matrimonio come accade in Germania.
Mentre per Francia e Germania le distribuzioni per età per ogni tipo di relazione assumono forme simili (ndr. i conviventi sono più spesso giovani anziché sposati e single); per l’Italia la distribuzione per età di ogni tipo di relazione è più concentrata su una specifica fascia di età (ndr. i single sono più spesso giovani, i conviventi tra le persone più mature e le persone sposate tra i più anziani; si veda la Figura 1). Di conseguenza, gli italiani più giovani hanno una probabilità molto più alta di essere single che convivere o sposarsi rispetto ai loro coetanei francesi o tedeschi; e gli italiani più anziani hanno una maggiore probabilità di essere sposati più che conviventi o senza partner, rispetto ai corrispettivi francesi o tedeschi.

Nostre elaborazioni su dati GGS
Figura 1. Struttura delle persone sposate, conviventi e single in base alla loro età (questionario 2003-2005: wave 1). La linea grigia illustra la distribuzione delle persone sposate, quella viola la distribuzione delle persone conviventi e quella celeste la distribuzione dei single.
3. Risultati dell’applicazione di tecniche di data science nell’analisi demografica
Il modello sviluppato per l’analisi empirica è costituito da due parti. Innanzitutto, abbiamo implementato un modello di regressione logistica per identificare le variabili significative che influenzano la scelta del matrimonio rispetto alla convivenza, utilizzando i dati del primo questionario di GGS (wave 1). Successivamente, abbiamo implementato modelli di apprendimento automatico supervisionato (supervised machine-learning) per generare previsioni più accurate sulla scelta della relazione (sposato vs convivente) a tre anni, combinando i dati del primo e del secondo questionario GGS (wave 1 e wave 2).
La regressione logistica è una tecnica statistica per modellare variabili di tipo binario1 stimando la probabilità di un’osservazione di appartenere a una classe o all’altra e considerando variabili esplicative che possono essere binarie o continue.
Il numero di osservazioni analizzato è di 9.829, 9.407 e 6.191 rispettivamente per Francia, Germania e Italia.
I fattori che hanno un impatto positivo sulla probabilità di sposarsi sono:
– per la Francia: numero di figli, essere donna, età;
– per la Germania: nascita all’estero, dimensione del nucleo familiare, essere donna, età;
– per l’Italia: dimensione del nucleo familiare, età.
Le variabili che hanno influito negativamente su questa probabilità sono:
– per Francia e Germania: numero di partner, figli nati da una precedente relazione, occupazione lavorativa (rispetto al fatto di essere disoccupati), convinzione che sia lecito divorziare per una coppia anche se si hanno figli (rispetto a non avere un’opinione), convinzione che le coppie omosessuali dovrebbero avere gli stessi diritti degli eterosessuali (rispetto al non avere un’opinione);
– per l’Italia: numero di coniugi, convinzione che sia giusto che una coppia divorzi anche se ha figli (rispetto a non avere un’opinione), essere uno studente (in riferimento a essere disoccupato).
L’intensità delle variabili che aumentano o diminuiscono significativamente la probabilità di essere sposati è riassunta nella Tabella 1. Ad esempio, le probabilità di sposarsi, ceteris paribus, sono maggiori del 188% per le persone nate fuori dalla Germania rispetto a quelle nate nel paese. Nel caso delle variabili che hanno un impatto negativo sulle probabilità di sposarsi, avere un partner provoca in più la diminuzione dell’odds ratio del 60% per i francesi, del 64% per i tedeschi e fino al 90% per gli italiani.

Tabella 1. Intensità delle variabili che influenzano la probabilità di essere sposati.
Un aspetto importante che influenza la decisione di sposarsi sembra essere la fertilità. Secondo i risultati della regressione, avere più figli aumenta le probabilità di essere sposati con l’obiettivo di allevare la prole in una famiglia completa. Francesi e tedeschi si sposano meno volentieri quando hanno già figli nati da una precedente relazione. La dimensione del nucleo familiare ha un impatto positivo sulle possibilità di sposarsi. Mentre in Germania può essere semplicemente associato all’esistenza di figli, in Italia sembra essere importante vivere con genitori/nonni, le cui visioni e valori possono portare i giovani a sposarsi.
Un’altra variabile significativa che riduce le possibilità di matrimonio è l’essere impiegati/avere un’occupazione (sia in Francia che in Germania) ed essere studenti rispetto al rimanere disoccupati (in Italia). Secondo altre ricerche invece, per gli europei, essere occupati aumenta molto spesso la possibilità di entrare in qualsiasi tipo di relazione. L’impatto sull’occupazione è quindi piuttosto complesso e richiederebbe un’analisi più approfondita basata su informazioni più dettagliate.
Inoltre, essere donna aumenta le probabilità di essere sposati in tutti e tre i paesi.
Le persone non nate nel paese in cui è stata effettuata l’indagine preferiscono il matrimonio, che permette di ottenere più facilmente la cittadinanza; chi ha più conviventi sceglie più spesso la convivenza; mentre le persone anziane hanno maggiori possibilità di essere sposate perché la loro coorte è stata allevata prima della rivoluzione degli anni ‘70.
Lo scopo dei nostri ulteriori modelli è stato di prevedere lo stato relazionale di una persona (sposato vs convivente) nei successivi tre anni. Poiché la distribuzione delle classi è sbilanciata come appare nella Figura 2, la metrica di valutazione utilizzata è stata l’accuratezza bilanciata invece dell’accuratezza standard, per evitare che la classe più grande influenzasse la metrica a scapito della classe più piccola, nel nostro caso la classe dei conviventi. Per raggiungere l’obiettivo dell’analisi, le variabili indipendenti provengono dal questionario 2003-2005 (wave 1) e sono le stesse della regressione logistica, inoltre il tipo di relazione in wave 1 diventa variabile di input per i modelli di previsione, mentre la variabile target è il tipo di relazione nel questionario 2007-2009 (wave 2). I dati sono stati divisi in un set di “addestramento” (comprendente il 67% dei dati) per istruire il sistema e un set di “test” (33% casuale dei dati) per verificare la previsione effettuata.

Nostre elaborazioni su dati GGS
Figura 2. Tipo di relazione delle persone nei due questionari 2003-2005 (wave 1) e 2007-2009 (wave 2). L’area grigia corrisponde alle persone sposate, quella viola ai conviventi e quella celeste ai single.
I modelli di machine-learning implementati sono: k-NN (k-nearest neighbors o k-adiacenti più vicini), Alberi decisionali (Decision Tree), Classificatore Naive Bayes Gaussiano (Gaussian Naive Bayes), Classificatore a vettori di supporto (Support Vector Classifier), Foreste Casuali (Random Forest) e Potenziamento del Gradiente (Gradient Boosting). Tali modelli sono stati implementati separatamente per ciascun paese. Dopo aver combinato i due questionari, i dati finali includono 6.218 osservazioni per la Francia, 2.950 per la Germania e 5.968 per l’Italia.
Per tutti i paesi, i tre migliori algoritmi si sono rivelati Support Vector Classifier, Random Forest e Gradient Boosting2.
La più alta precisione bilanciata è stata raggiunta per la Francia (85,63%), seguono l’Italia (81,74%) e la Germania (79,80%)3.
L’atteggiamento verso il matrimonio dei francesi è quindi il più prevedibile e la convivenza rappresenta un’alternativa al matrimonio per persone con caratteristiche specifiche. In Germania e in Italia invece, il ruolo della convivenza sembra ancora non perfettamente definito, il che rende più difficile la sua previsione, inoltre soprattutto in Germania ci sono notevoli differenze socio-demografiche tra le regioni, cosa che non avviene per la Francia.
4. Conclusioni
In questo lavoro abbiamo mostrato le potenzialità dell’utilizzo dei modelli di data science (machine learning) per sviluppare modelli di previsione tesi a valutare la scelta della relazione (matrimonio vs coabitazione) della popolazione a breve termine (a tre anni). La fonte dei dati utilizzati è la Generations and Gender Survey (GGS) che raccoglie i dati armonizzati per molti paesi in Europa ad oggi disponibili. Sarà interessante verificare le previsioni del nostro modello con i dati della GGS 2020 che dovrebbero essere pubblicati nel 2022.
Potremmo infatti applicare gli algoritmi sviluppati per analizzare le precedenti rilevazioni (wave 1 e 2) e verificarne l’efficacia della previsione. Tuttavia, andrebbe ricordato che un’altra generazione è entrata in età riproduttiva e la pandemia prodotta dal COVID-19 potrebbe aver modificato le preferenze sulla scelta della forma familiare: ciò potrebbe diminuire l’accuratezza della previsione del nostro modello.
Nonostante la GGS survey sia molto ricca e raccolga informazioni su fertilità, informazioni di coppia, organizzazione dei lavori domestici, transizione all’età adulta, scambi intergenerazionali, attività economica, pensione, salute e benessere, sarebbe importante aggiungere nuove domande e derivare nuove informazioni/variabili più dettagliate sulla conciliazione e l’equilibrio tra famiglia e lavoro. La loro analisi potrebbe servire come base per la creazione di norme giuridiche corrispondenti ai reali bisogni della società. Tali emendamenti potrebbero riguardare la sicurezza finanziaria (per esempio in ambito fiscale, come in caso di eredità), regolare i diritti e gli obblighi dei genitori che vivono un determinato tipo di relazione, nonché supportare le politiche a favore della famiglia per raggiungere l’obiettivo di un riequilibrio demografico. Indagare quali siano i fattori che possono influenzare la scelta del matrimonio associato ai figli, potrebbe essere utile per sostenere una serie di politiche a favore dell’aumento della natalità, necessaria a sostenere i piani di sviluppo del Next Generation EU nei prossimi anni. Le tecniche di data science (apprendimento automatico) applicate sono state utili per identificare tali fattori.
Note
1 Per un’introduzione si veda Kleinbaum, D. G., Klein, M., & Pryor, E. R. (2002), Logistic regression: a self-learning text, Springer Nature Switzerland AG.
2 Il Support Vector Classifier utilizzato, basato su kernel, è un modello di apprendimento automatico adatto per classificazioni non lineari. Gli algoritmi di apprendimento d’insieme – Random Forest e Gradient Boosting – cercano di superare gli algoritmi classici migliorando l’accuratezza e riducendo il bias. Il primo utilizza il bagging, che consiste nella costruzione indipendente dei learners e nella realizzazione della media delle loro previsioni, mentre il secondo si basa sul boosting, in cui gli stimatori vengono generati consecutivamente dando sempre più peso agli errori effettuati nei modelli precedenti. Queste tecniche combinano molti learners (in questo caso, più alberi decisionali) per formare un predittore più forte. L’ottimizzazione degli iperparametri degli algoritmi implementati è stata effettuata con una tecnica empirica (basata sui dati) denominata 5-fold cross-validation.
3 Con gli iperparametri di Support Vector Classifier ottimali gamma=0.001 e C=1 per tutti i paesi.
Bibliografia
Per riferimenti bibliografici dettagliati e maggiori informazioni sulle metodologie adottate e i risultati ottenuti in questa ricerca si veda:
Nawaro J., Daraio C.
2021 Marriage or Cohabitation? Using machine-learning techniques to predict the relationship choices in France, Germany and Italy, Technical Report N.6 DIAG, Sapienza university of Rome, disponibile online http://users.diag.uniroma1.it/~biblioteca/it/technical-reports.
Bradatan C., Kulcsar L.
2008 Choosing between Marriage and Cohabitation: Women’s First Union Patterns in Hungary, «Journal of Comparative Family Studies», pp. 39(4), 491-507.
Dorbritz J.
2008 Germany: Family diversity with low actual and desired fertility, «Demographic Research», 19(17), pp. 557-598.
Gauthier, A. H., Cabaço, S. L. F., & Emery, T.
2018 Generations and Gender Survey study profile, «Longitudinal and Life course studies», 9(4), pp. 456-465. http://dx.doi.org/10.14301/llcs.v9i4.500.
Istituto Nazionale di Statistica
2018 Popolazione residente per stato civile. Retrieved from https://www.istat.it/it/archivio/220713.
Istituto Nazionale di Statistica
2019 Matrimoni e unioni civili.
Kalmijn M.
2011 The Influence of Men’s Income and Employment on Marriage and Cohabitation: Testing Oppenheimer’s Theory in Europe, «Population», 27, 269–293.
Kleinbaum, D. G., Klein, M., & Pryor, E. R.
2002 Logistic regression: a self-learning text, Springer Nature Switzerland AG.
Köppen, K.
2010 Marriage and Cohabitation in western Germany and France, Universitätsbibliothek Rostock.
Nazio, T., Blossfeld, H.-P.
2003 The Diffusion of Cohabitation Among Young Women in West Germany, East Germany and Italy, «European Journal of Population», 19(1), pp. 47–82.
Pereiro, T. G., Pace, R., & Didonna, M. G.
2014 Entering first union: the choice between cohabitation and marriage among women in Italy and Spain, «Journal of Population Research», 31(1), pp. 51–70. https://doi.org/10.1007/s12546-014-9123-7.
Toulemon L.
1996 La cohabitation hors mariage s’installe dans la durée, «Population», 51(3), pp. 675-715. https://doi.org/10.2307/1534489.