Gli operatori dei dati a volte commettono errori che possono portare alla chiusura dell'intero data center. Tuttavia, la maggior parte di questi problemi può essere evitata attraverso misure di manutenzione, procedure di ispezione e con il buon senso e l’esperienza degli operatori del sistema.
Un'"interruzione non pianificata del data center" è un modo educato per parlare di un data center che presenta problemi che portano a tempi di inattività. Che la causa principale sia un errore hardware, un errore software o un errore umano, la maggior parte di questi errori può e deve essere prevenuta in anticipo. Con l'elevato livello di ridondanza del rischio presente nei data center di oggi, prevenire gli incidenti in anticipo è del tutto possibile.
Una cosa interessante è che in un data center possono verificarsi continuamente errori grandi e piccoli e il danno causato quando i data center smettono di funzionare non è piccolo, anche solo per un breve minuto. Secondo uno studio condotto da Data Center Knowledge, i tempi di inattività dei data center possono costare alle aziende circa 7.900 dollari al minuto. Infatti, il 93% delle aziende con data center inattivi per 10 giorni o più è fallita entro un anno e il 40% è crollata immediatamente. E un altro studio su 41 data center valutati ha rilevato che il costo medio delle interruzioni non pianificate includeva più di 179mila dollari in interruzioni di attività, circa 118mila dollari in mancati ricavi e circa 42mila dollari in produttività. Se i gestori dei data center si concentrassero maggiormente sulla ricerca e sulla risoluzione delle principali cause degli errori comuni, ridurrebbero significativamente i rischi potenziali.
Il problema è che molti operatori e operatori di data center spesso si concentrano maggiormente sulla crescita e sui ricavi invece di mantenere e rafforzare ciò che già esiste. Se presti attenzione agli amministratori di molti data center pubblici e privati oggi, vedrai che si preoccupano quasi esclusivamente di aumentare la capacità di archiviazione, aumentare la densità dei server e aggiornare le server farm obsolete in strutture più moderne con strutture più efficienti. sistemi di raffreddamento, ad esempio. Sebbene tutto ciò sia fantastico, assolutamente necessario e mostri un’incredibile crescita nel settore dell’archiviazione dei dati, mostra anche perché i data center stanno fallendo, cosa che accade sempre più comunemente.
In questo articolo esploreremo i motivi comuni per cui i data center sono disabilitati ed evidenzieremo cosa possono fare gli amministratori per ridurli al minimo o addirittura eliminarli, risolvere completamente questi problemi e migliorare la stabilità del sistema.
Ragioni che portano al collasso del Data Center
Errore causato dall'uomo
Queste sono le cause più semplici e anche una delle più difficili da evitare. In poche parole, tutti possono commettere errori. Con il 22% delle interruzioni causate da errori umani, questa causa merita di essere considerata attentamente e, soprattutto, può essere prevenuta con relativa facilità.
Autorizzazione del sistema non corretta
In realtà, pochissimi amministratori hanno accesso completo e illimitato a tutti i sistemi di un data center. Invece di concedere questa autorizzazione a più persone, l’accesso deve essere gestito in modo rigoroso. Altrimenti è del tutto possibile che si verifichi un errore grave nel sistema. Ad esempio, nell'incidente Joyent del 2014, un amministratore esperto ha riavviato accidentalmente tutte le macchine virtuali nel data center est dell'azienda con pochi clic.
Procedure di backup inadeguate
Quando si pianificano le attività di manutenzione, un passaggio importante ma spesso dimenticato è il processo di backup. Spesso i processi sono documentati ma non revisionati approfonditamente e molte volte le cose non vengono completamente ripristinate alla loro forma originale dopo la manutenzione.
Fare troppi cambiamenti
Durante la manutenzione, se un amministratore tenta di apportare troppe modifiche contemporaneamente, ciò può causare problemi. Innanzitutto, gli amministratori hanno spesso una mentalità frettolosa perché devono completare un gran numero di attività in un breve periodo di tempo, il che spesso porta a commettere errori. In secondo luogo, poiché si verificano così tante modifiche nello stesso intervallo di tempo, la risoluzione dei problemi post-modifica diventa un compito molto più difficile.
Lassismo nella gestione delle risorse umane
Sembra un po’ duro, ma i dipendenti devono sapere come seguire rigorosamente le regole del centro e devono essere severamente disciplinati quando le violano. Ad esempio, nessun data center consente ai dipendenti di mangiare o bere durante il lavoro, oppure gli interruttori di emergenza devono essere chiaramente etichettati e protetti. Queste cose possono sembrare piccole ma possono portare a gravi incidenti, quindi assicurati che le regole siano sempre seguite rigorosamente.
Errore di sistema
L'alimentazione di backup non è garantita, l'apparecchiatura è vecchia o configurata in modo errato.
Il motivo più comune per cui un data center non funziona è dovuto a un'interruzione di corrente. Le interruzioni di corrente possono verificarsi in qualsiasi momento. Pertanto, i data center sono progettati con fonti di alimentazione di backup nel caso in cui l'alimentazione principale venga a mancare. Come alimentazione di riserva vengono spesso utilizzati batterie o sistemi di generatori. Il problema è che la batteria potrebbe non essere sostituita in tempo, il generatore potrebbe non essere ispezionato e sottoposto a manutenzione, il che potrebbe causare problemi in caso di interruzione di corrente. Tutto ciò significa che le tue funzionalità di backup potrebbero non essere disponibili quando ne hai più bisogno.
In caso di interruzione di corrente, i sistemi UPS utilizzano le batterie come alimentazione di riserva, rendendole una parte essenziale per mantenere i tempi di attività dei data center. Tuttavia, la batteria non funziona sempre bene. Eseguire la manutenzione consigliata dai produttori stessi per verificare lo stato della batteria. Almeno trimestralmente, le batterie devono essere ispezionate per verificarne la corretta installazione, scaricamento e ricarica. Ciò include ispezioni visive, controlli di capacità e monitoraggio regolare tramite software o tramite il fornitore UPS stesso.
Inoltre, le alte temperature possono ridurre la durata della batteria del sistema. Costruire una sala UPS dedicata può aiutare a ridurre l'usura della durata della batteria. Dovresti anche evitare di scaricare frequentemente la batteria e fare attenzione ai collegamenti allentati o ai connettori usurati. In breve, l'UPS è un sistema particolarmente importante, richiede una progettazione ragionevole, un uso corretto e una manutenzione rigorosa.
Malfunzionamento nel sistema di raffreddamento
I sistemi meccanici in un data center consumano molta elettricità, il che significa che emettono una grande quantità di calore durante il funzionamento. Un data center può diventare un crematorio dopo un minuto di funzionamento. Ecco perché il sistema di raffreddamento è così importante. E anche se si dispone della lettura dei sensori di temperatura e degli avvisi inviati agli amministratori, è necessario essere sicuri di avere abbastanza tempo per implementare le procedure di raffreddamento di backup del centro prima che tutto si sciolga.
Inoltre, molti sistemi di raffreddamento non sono realmente progettati per tenere il passo con l’aumento dei livelli di calore in un moderno data center ad alta capacità. Anche in questo caso, la mappatura delle situazioni in cui il data center funziona al 100% della capacità può aiutare a pianificare sistemi di raffreddamento migliori in futuro. È inoltre necessaria la creazione di sistemi di allarme per le fluttuazioni della temperatura del sistema. È possibile utilizzare alcuni software di modellazione termica e alcuni sistemi DCIM. Inoltre, i refrigeranti chimici sono una scelta migliore rispetto ai sistemi a base acqua.
Il processo di conversione automatica non funziona correttamente
La maggior parte dei fornitori di servizi, delle organizzazioni e delle aziende dispone di data center di backup utilizzati per i data center di produzione. In caso di interruzione di corrente nel data center primario, il data center di backup verrà avviato automaticamente e tutto il traffico verrà instradato a tale struttura di backup. Se eseguito correttamente, il processo dovrebbe essere fluido fino all’utente finale. Sfortunatamente, i failover automatici spesso non funzionano come previsto. La causa comune di questo problema è la mancanza di test regolari. Anche piccoli cambiamenti nell'infrastruttura di produzione possono avere un grande impatto sul failover automatizzato. Pertanto, quando si apportano modifiche all'infrastruttura, le procedure di failover automatizzato dovranno essere testate per garantire che nulla si discosti dal processo.
Hardware obsoleto
Tutto l'hardware di ciascun sistema ha una certa durata. E più a lungo utilizzi un componente hardware, maggiore è la probabilità di riscontrare problemi. Tutti lo sanno, ma è normale che un'applicazione importante vada in crash solo perché è in esecuzione su hardware vecchio di 10 anni. Questi problemi sorgono spesso a causa della mancanza di piani completi di sostituzione e aggiornamento per nuove piattaforme hardware o software oppure a causa della mancanza di budget. Se è una questione di soldi non puoi fare niente. Ma se si cerca semplicemente di trarne vantaggio il più a lungo possibile, un problema può verificarsi in qualsiasi momento e, quando ciò accade, il danno causato dal problema può essere molto maggiore.
Il sistema antincendio ha un problema di perdite d'acqua
La maggior parte dei data center moderni utilizza sistemi di protezione antincendio senz'acqua in modo che non danneggino le apparecchiature se attivati di proposito o accidentalmente. Ma molte strutture più vecchie utilizzano ancora i tradizionali sistemi di protezione antincendio nei propri data center. Molte perdite d'acqua hanno causato gravi interruzioni.
Lo spegnimento di emergenza è stato attivato accidentalmente
L'elevato livello di sicurezza fisica presente nella maggior parte dei data center non si limita a scoraggiare i ladri. Sono inoltre in atto per evitare dipendenti che non capiscono come funziona un data center. Ad esempio, l'amministratore di un'applicazione entra nel data center e attiva accidentalmente uno spegnimento di emergenza (EPO). L'EPO è un grande pulsante rosso, responsabile dell'interruzione dell'alimentazione all'intero sistema. E ovviamente, per coloro che non capiscono o non hanno esperienza, tale confusione è del tutto possibile.
Sotto attacco informatico, DDOS
Nel corso degli anni, gli attacchi informatici sono diventati una delle principali cause di guasti ai data center, passando da appena il 2% nel 2010 al 22% nel 2016. Gli operatori dei data center devono agire per stabilire sistemi in grado di rilevare e mitigare tempestivamente i rischi di attacchi.
I data center sono difficili da difendere da un attacco DDoS su larga scala . La maggior parte degli ISP fornisce una certa protezione ai livelli 3 e 4 della rete, ma i tuoi servizi necessitano di protezione aggiuntiva al livello 7, che può essere presa di mira in modo specifico tramite HTTP GET o chiamate ad attacchi simili. Servizi di mitigazione come firewall, IPS/IDS e DDoS possono essere combinati per reindirizzare il traffico.
Disastro naturale
Il recente aumento di tempeste e inondazioni può causare notevoli disagi ai data center. Nel 2010 negli Stati Uniti si sono verificati più di 250 disastri naturali. Secondo le statistiche, lo stato del New Jersey, negli Stati Uniti, ha subito perdite per 63,9 miliardi di dollari a causa dell’interruzione dell’attività causata dalla super tempesta Sandy nel 2012.
Misure per limitare i danni causati dagli incidenti di "crollo" dei data center
Se i tempi di inattività per la manutenzione ordinaria vengono pianificati attentamente e i clienti vengono avvisati in anticipo dei tempi di inattività del centro, soprattutto durante un periodo di scarso traffico, i clienti saranno più comprensivi e i danni saranno notevolmente ridotti. Il danno maggiore si verifica quando si verifica inaspettatamente, e soprattutto quando dura a lungo, e sorgono ulteriori problemi. Mantieni stabile l'intero sistema di risorse dell'azienda in modo che i dipendenti possano svolgere il proprio lavoro in modo efficace, riducendo il carico sui dipartimenti IT.
Nello specifico:
- Esegui il backup dei tuoi dati: nel caso in cui dovessi affrontare un'interruzione del data center, i tuoi dati (e, soprattutto, i dati dei tuoi clienti) dovrebbero essere pronti quando inizi. Inizia la risoluzione dei problemi ed esegui di nuovo. L'esecuzione di backup regolari limita il rischio di un vero e proprio tracollo. Se la tua azienda può permetterselo, alcuni prodotti come la linea di prodotti VPLEX di EMC o il software di backup e replica di VEEAM possono contribuire a ridurre al minimo i tempi di inattività passando automaticamente a una posizione di backup.
- Mantenere un monitoraggio regolare del sistema server: il monitoraggio è un servizio che puoi eseguire regolarmente e di solito non costa troppo. Un servizio di monitoraggio di terze parti ti avvisa di potenziali tempi di inattività del server in modo che tu possa occuparti immediatamente del problema.
- Riduci al minimo l'errore umano: presta attenzione quando lavori o cammini attorno ai sistemi server o ai cavi elettrici per evitare di danneggiarli accidentalmente o semplicemente non toccare interruttori misteriosi senza la tua esperienza. Tenere i liquidi lontani dai sistemi meccanici. Chiama uno specialista della protezione dei dati ogni volta che un server necessita di aggiornamento o manutenzione e rispetta le regole del centro.
Ogni data center, dai piccoli centri alle strutture e ai fornitori di servizi su scala aziendale, deve impegnarsi al 100% per fornire servizi affidabili agli utenti. Prendendosi il tempo necessario per pianificare il futuro, seguendo i principi della manutenzione e dei fattori umani, il data center può evitare alcune delle cause più comuni di guasto: problemi di interruzione.
Vedi altro