Reliability Prediction è nata come uno dei mattoni di quello che sarebbe diventato successivamente il processo DFR o Design For Reliability.
Nata come metodo di paragone tra due o più soluzioni proposte in una fase di progetto quando era ancora possibile cambiare le soluzioni.

Tuttavia è successivamente diventata un metodo di calcolo effettivo dell’affidabiltà o meglio del MTBF di scheda elettroniche.
Dalla metà degli anni novanta lo standard MIL-217 versione F non è più mantenuta dal Dipartimento della Difesa Americana.
Con la sua ultima pubblicazione, il documento ha lo scopo di essere solo una guida : “This handbook is for guidance only and shall not be cited as a requirement. If it is, the contractor does not have to comply”.
Per rafforzare questa citazione, lo standard è stato eliminato sia in documenti di specifica che come metodo di analisi per la fornitura di apparecchiature militari al governo militare americano.
Nonostante siano passati 20 anni dal suo ultimo aggiornamento (notice 2) lo standard MIL217 è ancor oggi largamente utilizzato. Le ipotesi che avanzo per la sua popolarità e riluttanza ad abbandonarlo includono ma non sono limitate alle seguenti:

  • Lo standard è scaricabile da una miriade di siti gratuitamente e questo lo rende facilmente popolare sia con chi vuole familiarizzarsi con tale metdologia che chi vuole costruire una tabella di calcolo e fare consulenza con un tool gratuito.
  • L’applicazione dello standard non richiede particolari conoscenze affidabilistiche ma un inserimento di tutti i componenti il cui valore totale di MTBF della scheda sarà la somma dei valori di ogni componente.
  • Lo standard è noto per fornire risultati “inaffidabili” quindi, in un certo senso, un’analisi di predizione deve solo fornire un numero finale la cui imprecisione potrà essere attribuita allo standard stesso

Software utilizzato:

Recentemente ho letto una relazione di predizione su un dispositivo Solid State Drive Flash Memory.
Il valore di MTBF quotato era in eccesso di 3M di ore derivato con il metodo Telcordia. Tale metodo è decisamente più aggiornato della metodologia militare, tuttavia anche quì il risultato ottenuto corrisponde a oltre 340 anni di funzionamento medio al guasto.
Come è stato possibile arrivare a tale risultato? Può ritenersi attendibile?
La proiezione dell’affidabilità di un prodotto secondo il modello esponenziale forza un andamento costante del tasso di guasto. Una volta forzato questo andamento, non ne si può uscire.
Questo lo si può paragonare ad entrare in autostrada con lo sterzo bloccato sull’ipotesi che la strada sia principalmente rettilinea.

Arriva il punto tuttavia dove sarebbe auspicabile avere anche un controllo dello sterzo.
L’analisi di predizione parte dall’ipotesi di un funzionamento senza usura durante tutta la vita utile del coponente o della scheda.
Questo genera un singolo numero che cerca al tempo stesso di modellare un sistema alquanto complesso e alquanto variabile nel tempo.
Le cose si complicano nei prodotti la cui vita è ipotizzata per un lungo arco di tempo (sistema ferroviario, militare, aeronautico civile, navale…) ben oltre la vita utile dei componenti.
Seagate, noto costruttore di dischi fissi per computer, ha da tempo abbandonato il concetto di MTBF in quanto critica del suo metodo di analisi e dei suoi risultati ottenuti.
Il concetto di MTBF è fortemente legato all’industria miltare e può essere calcolato in diversi modi, fornendo al tempo stesso risulati sostanzialmente differenti.
E ‘comune vedere MTBF per dischi fissi che oscillano tra le 300000 e il 1200000 ore.
Questo potrebbe portare pensare che tali dispositivi sono in grado di funzionare per un periodo medio che oscilla tra i 30 ed i 120 anni.
Se quest’ipotesi fosse valida, molti lettori potrebbero ritenersi particolarmente sfortuanti.
Personalmente in due occasioni non sono andato oltre terzo anno di vita. Tuttavia non credo che questa esperienza possa ritenersi un dato di scarto o un outlier dell’intera popolazione di dischi fissi.
La stessa Seagate smentisce i valori di MTBF. La specifica si basa su un grande numero di unità (statisticamente significativo) che funzionano continuamente ad un sito di prova, con i dati estrapolati secondo vari modelli statistici.
Sulla base del tasso di errore osservato nell’arco di poche settimane o mesi, il valore di MTBF è valutato ma non è rappresentativo di quanto tempo l’unità sia in grado di funzionare. Ne, tale valore, rappresenta una garanzia.
Può essere visto come un valore relativo dell’affidabilità di una famiglia di prodotti (che era un po’ l’ipotesi iniziale dell’applicazione del concetto di MTBF). L’MTBF suggerisce semplicemente una famiglia generalmente più affidabile e robusta di meccanismi (a seconda della consistenza dei modelli statistici utilizzati).

Tuttavia, non tutti i problemi possono essere attribuiti ad uno standard superato.
L’affidabilità parte dalla specifica. Ed è quì che le cose vanno a rotolo. Secondo uno studio pubblicato dalla Health_&_Safety_Executive circa il 44% degli incidenti sul lavoro sono attribuiti a problemi di specifica.
La specifica è semplicemente l’anello più debole di ogni progetto.
Allo scopo di sviluppare un buon programma di affidabilità, il prodotto deve avvalersi di una specifica completa degli aspetti affidabilistici (tempo di missione, limiti operativi, limiti ambientali, ecc.)
E’ in situazioni come queste che un singolo parametro che tende ad appiattire un comportamento di un prodotto ad un singolo valore (l’MTBF appunto) si dimostra inefficace.
Quali sono le soluzioni o le alternative?Nella seconda parte di questo articolo, esaminiamo soluzioni alternative con i loro vantaggi e svantaggi

Problemi dello standard MIL-217

  1. Lo standard MIL-217 non è più aggiornato dal febbraio 1995 quando fu emessa la Notice 2
  2. Lo standard non può tenere il passo con gli avanzamenti dell’industria elettronica degli ultimi 20-25 anni.
    • Categorie di componenti apparse successivamente come DSPs, FPGAs, Memorie SRAM, DRAM, Flash e via dicendo, non esistono nello standard.
    • Alcune ipotesi costruite nello standard quali “complessità” o “SMT” non sono fattori che influiscono sul valore dell’affidabilità.
  3. Solo una piccola parte delle modalità di guasto sono valutate.
  4. Non vi è alcun modo di verificare i dati che hanno fornito i valori allo standard.
  5. Accettando la validità del dato, il risultato è probabilmente una media di un numero imprecisato di istallazioni che hanno età diversa, circuito elettronico diverso, stress diversi, ambiente operativo-funzionale diverso.
  6. Tutti i componenti inseriti in una scheda risultano in serie tra loro così che il guasto al primo componente causi il guasto alla scheda.
  7. I componenti non si degradano. Si rompono e basta. Poichè il guasto è randomico, non si guastano a seguito di una sovratensione, una scarica elettrostatica, ecc. ma perchè semplicemente è giunto il loro momento.
  8. Non è possibile creare una relazione causa-effetto. Di conseguenza diventa difficile mitigare di fronte ad un guasto.
  9. Le metodologie di previsione si basano su euristiche semplici piuttosto che considerare robusti principi ingegneristici. Per esempio non solo, non tengono in alcun modo conto di come e dove sia montato un componente o la frequenza naturale della scheda. Questo naturalmente influisce sui livelli di stress applicati al componente stesso e, di conseguenza, alla durata della scheda.
  10. Non considerano l’impatto di cicli termici, cicli di umidità o vibrazioni/shock meccanici che la scheda può essere sottoposta durante la sua vita. Gli stress sono applicati come un aumento o diminuzione di un parametro.
  11. Valori ottenuti dall’analisi di predizione raramente rispecchiano il comportamento sul campo.
    • In uno studio condotto dalla AMSAA per valurare il comportamento di 14 sistemi militari, il rapporto tra valore predetto e valore dimostrato oscilla tra 1,2 e 218 volte.