L'idea che sta alla base della costruzione del file standard è quella di sintetizzare le informazioni che in WHIP-Salute sono distribuite in molteplici archivi diversi svolgendo delle pseudo-interviste (pseudo-survey) su base individuale. Ovvero, per ogni individuo presente nel campione si definiscono delle domande cui viene data risposta interrogando gli archivi appropriati, e il risultato è registrato in un unico file.
Non vengono utilizzate le informazioni di tutti gli individui presenti, ma questi vengono ricampionati secondo uno schema di campionamento a rotazione simile a quello utilizzato nella Rilevazione sulle Forze di lavoro dell'Istat (RFL), in cui l'aspetto longitudinale è considerato secondo uno schema simile a quello utilizzato per l'indagine EU-Silc di Eurostat.
In particolare, nel primo anno si svolgono le pseudo-interviste a quattro gruppi distinti di individui (vedi figura). Per ogni anno successivo uno di questi gruppi viene escluso e non è più intervistato mentre ne entra uno nuovo: ogni gruppo viene così seguito per 4 anni.

In questo modo la dimensione longitudinale è garantita da quattro anni con un livello di dettaglio elevato delle informazioni, cui si aggiunge una informazione più sintetica relativa all'inizio carriera e ai 10 anni precedenti la prima intervista.
Nel file standard creato per la diffusione ovviamente non è presente alcun identificativo diretto né degli individui né delle imprese, ma come sempre va considerata la possibilità che, attraverso altre informazioni o l'incrocio di altre informazioni pubblicate, sia possibile un'identificazione indiretta delle persone.
Per avere un'idea del livello di identificabilità dei dati sono state calcolate delle misure di rischio dette livelli di k-anonimity o k-anonimità. Tali misure di rischio identificano una banca dati come protetta se il numero di individui che ha la medesima combinazione di modalità delle variabili chiave è maggiore o uguale a una soglia predefinita k, normalmente 2 o 3. Più in particolare, la grandezza che si vuole monitorare è il numero di volte in cui vi è una violazione della k-anonimità, intendendo per violazione il fatto che un individuo condivida lo stesso valore per tutte le variabili chiave considerate con un numero di altri individui inferiore a k. Nel caso della 2- anonimity più in particolare si parla di unici campionari: vi è un solo individuo con quella data combinazione di valori.
Bisogna però considerare che, nel caso di archivi campionari gli indicatori di k-anonimità sono specifici non della popolazione ma del campione stesso: ad esempio, non è detto che un unico campionario sia anche un unico di popolazione. Questo vuol dire che per valutare una banca dati come protetta occorre valutare statisticamente qual è la probabilità che un unico campionario sia anche un unico di popolazione. Queste misure sono state minimizzate intervenendo con tecniche standard di anonimizzazione (ad esempio l'aggregazione di modalità), per rendere il livello di anonimità paragonabile a quello misurato sui file per ricerca presi come riferimento, RFL e EU-Silc.
Per scaricare il documento integrale della pseudo-intervista: Intervista - File standard