Ragioni che portano al collasso del Data Center

Ragioni che portano al collasso del Data Center

Gli operatori dei dati a volte commettono errori che possono portare alla chiusura dell'intero data center. Tuttavia, la maggior parte di questi problemi può essere evitata attraverso misure di manutenzione, procedure di ispezione e con il buon senso e l’esperienza degli operatori del sistema.

Un'"interruzione non pianificata del data center" è un modo educato per parlare di un data center che presenta problemi che portano a tempi di inattività. Che la causa principale sia un errore hardware, un errore software o un errore umano, la maggior parte di questi errori può e deve essere prevenuta in anticipo. Con l'elevato livello di ridondanza del rischio presente nei data center di oggi, prevenire gli incidenti in anticipo è del tutto possibile.

Una cosa interessante è che in un data center possono verificarsi continuamente errori grandi e piccoli e il danno causato quando i data center smettono di funzionare non è piccolo, anche solo per un breve minuto. Secondo uno studio condotto da Data Center Knowledge, i tempi di inattività dei data center possono costare alle aziende circa 7.900 dollari al minuto. Infatti, il 93% delle aziende con data center inattivi per 10 giorni o più è fallita entro un anno e il 40% è crollata immediatamente. E un altro studio su 41 data center valutati ha rilevato che il costo medio delle interruzioni non pianificate includeva più di 179mila dollari in interruzioni di attività, circa 118mila dollari in mancati ricavi e circa 42mila dollari in produttività. Se i gestori dei data center si concentrassero maggiormente sulla ricerca e sulla risoluzione delle principali cause degli errori comuni, ridurrebbero significativamente i rischi potenziali.

Ragioni che portano al collasso del Data Center

Il problema è che molti operatori e operatori di data center spesso si concentrano maggiormente sulla crescita e sui ricavi invece di mantenere e rafforzare ciò che già esiste. Se presti attenzione agli amministratori di molti data center pubblici e privati ​​oggi, vedrai che si preoccupano quasi esclusivamente di aumentare la capacità di archiviazione, aumentare la densità dei server e aggiornare le server farm obsolete in strutture più moderne con strutture più efficienti. sistemi di raffreddamento, ad esempio. Sebbene tutto ciò sia fantastico, assolutamente necessario e mostri un’incredibile crescita nel settore dell’archiviazione dei dati, mostra anche perché i data center stanno fallendo, cosa che accade sempre più comunemente.

In questo articolo esploreremo i motivi comuni per cui i data center sono disabilitati ed evidenzieremo cosa possono fare gli amministratori per ridurli al minimo o addirittura eliminarli, risolvere completamente questi problemi e migliorare la stabilità del sistema.

Ragioni che portano al collasso del Data Center

Errore causato dall'uomo

Queste sono le cause più semplici e anche una delle più difficili da evitare. In poche parole, tutti possono commettere errori. Con il 22% delle interruzioni causate da errori umani, questa causa merita di essere considerata attentamente e, soprattutto, può essere prevenuta con relativa facilità.

Autorizzazione del sistema non corretta

Ragioni che portano al collasso del Data Center

In realtà, pochissimi amministratori hanno accesso completo e illimitato a tutti i sistemi di un data center. Invece di concedere questa autorizzazione a più persone, l’accesso deve essere gestito in modo rigoroso. Altrimenti è del tutto possibile che si verifichi un errore grave nel sistema. Ad esempio, nell'incidente Joyent del 2014, un amministratore esperto ha riavviato accidentalmente tutte le macchine virtuali nel data center est dell'azienda con pochi clic.

Procedure di backup inadeguate

Ragioni che portano al collasso del Data Center

Quando si pianificano le attività di manutenzione, un passaggio importante ma spesso dimenticato è il processo di backup. Spesso i processi sono documentati ma non revisionati approfonditamente e molte volte le cose non vengono completamente ripristinate alla loro forma originale dopo la manutenzione.

Fare troppi cambiamenti

Ragioni che portano al collasso del Data Center

Durante la manutenzione, se un amministratore tenta di apportare troppe modifiche contemporaneamente, ciò può causare problemi. Innanzitutto, gli amministratori hanno spesso una mentalità frettolosa perché devono completare un gran numero di attività in un breve periodo di tempo, il che spesso porta a commettere errori. In secondo luogo, poiché si verificano così tante modifiche nello stesso intervallo di tempo, la risoluzione dei problemi post-modifica diventa un compito molto più difficile.

Lassismo nella gestione delle risorse umane

Ragioni che portano al collasso del Data Center

Sembra un po’ duro, ma i dipendenti devono sapere come seguire rigorosamente le regole del centro e devono essere severamente disciplinati quando le violano. Ad esempio, nessun data center consente ai dipendenti di mangiare o bere durante il lavoro, oppure gli interruttori di emergenza devono essere chiaramente etichettati e protetti. Queste cose possono sembrare piccole ma possono portare a gravi incidenti, quindi assicurati che le regole siano sempre seguite rigorosamente.

Errore di sistema

L'alimentazione di backup non è garantita, l'apparecchiatura è vecchia o configurata in modo errato.

Ragioni che portano al collasso del Data Center

Il motivo più comune per cui un data center non funziona è dovuto a un'interruzione di corrente. Le interruzioni di corrente possono verificarsi in qualsiasi momento. Pertanto, i data center sono progettati con fonti di alimentazione di backup nel caso in cui l'alimentazione principale venga a mancare. Come alimentazione di riserva vengono spesso utilizzati batterie o sistemi di generatori. Il problema è che la batteria potrebbe non essere sostituita in tempo, il generatore potrebbe non essere ispezionato e sottoposto a manutenzione, il che potrebbe causare problemi in caso di interruzione di corrente. Tutto ciò significa che le tue funzionalità di backup potrebbero non essere disponibili quando ne hai più bisogno.

In caso di interruzione di corrente, i sistemi UPS utilizzano le batterie come alimentazione di riserva, rendendole una parte essenziale per mantenere i tempi di attività dei data center. Tuttavia, la batteria non funziona sempre bene. Eseguire la manutenzione consigliata dai produttori stessi per verificare lo stato della batteria. Almeno trimestralmente, le batterie devono essere ispezionate per verificarne la corretta installazione, scaricamento e ricarica. Ciò include ispezioni visive, controlli di capacità e monitoraggio regolare tramite software o tramite il fornitore UPS stesso.

Inoltre, le alte temperature possono ridurre la durata della batteria del sistema. Costruire una sala UPS dedicata può aiutare a ridurre l'usura della durata della batteria. Dovresti anche evitare di scaricare frequentemente la batteria e fare attenzione ai collegamenti allentati o ai connettori usurati. In breve, l'UPS è un sistema particolarmente importante, richiede una progettazione ragionevole, un uso corretto e una manutenzione rigorosa.

Malfunzionamento nel sistema di raffreddamento

Ragioni che portano al collasso del Data Center

I sistemi meccanici in un data center consumano molta elettricità, il che significa che emettono una grande quantità di calore durante il funzionamento. Un data center può diventare un crematorio dopo un minuto di funzionamento. Ecco perché il sistema di raffreddamento è così importante. E anche se si dispone della lettura dei sensori di temperatura e degli avvisi inviati agli amministratori, è necessario essere sicuri di avere abbastanza tempo per implementare le procedure di raffreddamento di backup del centro prima che tutto si sciolga.

Inoltre, molti sistemi di raffreddamento non sono realmente progettati per tenere il passo con l’aumento dei livelli di calore in un moderno data center ad alta capacità. Anche in questo caso, la mappatura delle situazioni in cui il data center funziona al 100% della capacità può aiutare a pianificare sistemi di raffreddamento migliori in futuro. È inoltre necessaria la creazione di sistemi di allarme per le fluttuazioni della temperatura del sistema. È possibile utilizzare alcuni software di modellazione termica e alcuni sistemi DCIM. Inoltre, i refrigeranti chimici sono una scelta migliore rispetto ai sistemi a base acqua.

Il processo di conversione automatica non funziona correttamente

Ragioni che portano al collasso del Data Center

La maggior parte dei fornitori di servizi, delle organizzazioni e delle aziende dispone di data center di backup utilizzati per i data center di produzione. In caso di interruzione di corrente nel data center primario, il data center di backup verrà avviato automaticamente e tutto il traffico verrà instradato a tale struttura di backup. Se eseguito correttamente, il processo dovrebbe essere fluido fino all’utente finale. Sfortunatamente, i failover automatici spesso non funzionano come previsto. La causa comune di questo problema è la mancanza di test regolari. Anche piccoli cambiamenti nell'infrastruttura di produzione possono avere un grande impatto sul failover automatizzato. Pertanto, quando si apportano modifiche all'infrastruttura, le procedure di failover automatizzato dovranno essere testate per garantire che nulla si discosti dal processo.

Hardware obsoleto

Ragioni che portano al collasso del Data Center

Tutto l'hardware di ciascun sistema ha una certa durata. E più a lungo utilizzi un componente hardware, maggiore è la probabilità di riscontrare problemi. Tutti lo sanno, ma è normale che un'applicazione importante vada in crash solo perché è in esecuzione su hardware vecchio di 10 anni. Questi problemi sorgono spesso a causa della mancanza di piani completi di sostituzione e aggiornamento per nuove piattaforme hardware o software oppure a causa della mancanza di budget. Se è una questione di soldi non puoi fare niente. Ma se si cerca semplicemente di trarne vantaggio il più a lungo possibile, un problema può verificarsi in qualsiasi momento e, quando ciò accade, il danno causato dal problema può essere molto maggiore.

Il sistema antincendio ha un problema di perdite d'acqua

Ragioni che portano al collasso del Data Center

La maggior parte dei data center moderni utilizza sistemi di protezione antincendio senz'acqua in modo che non danneggino le apparecchiature se attivati ​​di proposito o accidentalmente. Ma molte strutture più vecchie utilizzano ancora i tradizionali sistemi di protezione antincendio nei propri data center. Molte perdite d'acqua hanno causato gravi interruzioni.

Lo spegnimento di emergenza è stato attivato accidentalmente

Ragioni che portano al collasso del Data Center

L'elevato livello di sicurezza fisica presente nella maggior parte dei data center non si limita a scoraggiare i ladri. Sono inoltre in atto per evitare dipendenti che non capiscono come funziona un data center. Ad esempio, l'amministratore di un'applicazione entra nel data center e attiva accidentalmente uno spegnimento di emergenza (EPO). L'EPO è un grande pulsante rosso, responsabile dell'interruzione dell'alimentazione all'intero sistema. E ovviamente, per coloro che non capiscono o non hanno esperienza, tale confusione è del tutto possibile.

Sotto attacco informatico, DDOS

Ragioni che portano al collasso del Data Center

Nel corso degli anni, gli attacchi informatici sono diventati una delle principali cause di guasti ai data center, passando da appena il 2% nel 2010 al 22% nel 2016. Gli operatori dei data center devono agire per stabilire sistemi in grado di rilevare e mitigare tempestivamente i rischi di attacchi.

I data center sono difficili da difendere da un attacco DDoS su larga scala . La maggior parte degli ISP fornisce una certa protezione ai livelli 3 e 4 della rete, ma i tuoi servizi necessitano di protezione aggiuntiva al livello 7, che può essere presa di mira in modo specifico tramite HTTP GET o chiamate ad attacchi simili. Servizi di mitigazione come firewall, IPS/IDS e DDoS possono essere combinati per reindirizzare il traffico.

Disastro naturale

Il recente aumento di tempeste e inondazioni può causare notevoli disagi ai data center. Nel 2010 negli Stati Uniti si sono verificati più di 250 disastri naturali. Secondo le statistiche, lo stato del New Jersey, negli Stati Uniti, ha subito perdite per 63,9 miliardi di dollari a causa dell’interruzione dell’attività causata dalla super tempesta Sandy nel 2012.

Misure per limitare i danni causati dagli incidenti di "crollo" dei data center

Se i tempi di inattività per la manutenzione ordinaria vengono pianificati attentamente e i clienti vengono avvisati in anticipo dei tempi di inattività del centro, soprattutto durante un periodo di scarso traffico, i clienti saranno più comprensivi e i danni saranno notevolmente ridotti. Il danno maggiore si verifica quando si verifica inaspettatamente, e soprattutto quando dura a lungo, e sorgono ulteriori problemi. Mantieni stabile l'intero sistema di risorse dell'azienda in modo che i dipendenti possano svolgere il proprio lavoro in modo efficace, riducendo il carico sui dipartimenti IT.

Nello specifico:

  • Esegui il backup dei tuoi dati: nel caso in cui dovessi affrontare un'interruzione del data center, i tuoi dati (e, soprattutto, i dati dei tuoi clienti) dovrebbero essere pronti quando inizi. Inizia la risoluzione dei problemi ed esegui di nuovo. L'esecuzione di backup regolari limita il rischio di un vero e proprio tracollo. Se la tua azienda può permetterselo, alcuni prodotti come la linea di prodotti VPLEX di EMC o il software di backup e replica di VEEAM possono contribuire a ridurre al minimo i tempi di inattività passando automaticamente a una posizione di backup.
  • Mantenere un monitoraggio regolare del sistema server: il monitoraggio è un servizio che puoi eseguire regolarmente e di solito non costa troppo. Un servizio di monitoraggio di terze parti ti avvisa di potenziali tempi di inattività del server in modo che tu possa occuparti immediatamente del problema.
  • Riduci al minimo l'errore umano: presta attenzione quando lavori o cammini attorno ai sistemi server o ai cavi elettrici per evitare di danneggiarli accidentalmente o semplicemente non toccare interruttori misteriosi senza la tua esperienza. Tenere i liquidi lontani dai sistemi meccanici. Chiama uno specialista della protezione dei dati ogni volta che un server necessita di aggiornamento o manutenzione e rispetta le regole del centro.

Ogni data center, dai piccoli centri alle strutture e ai fornitori di servizi su scala aziendale, deve impegnarsi al 100% per fornire servizi affidabili agli utenti. Prendendosi il tempo necessario per pianificare il futuro, seguendo i principi della manutenzione e dei fattori umani, il data center può evitare alcune delle cause più comuni di guasto: problemi di interruzione.

Vedi altro


Istruzioni per modificare le dimensioni e la posizione del file di paging su Windows

Istruzioni per modificare le dimensioni e la posizione del file di paging su Windows

Sebbene Pagefile.sys occupi una grande quantità di spazio sull'unità, il computer lo utilizza per mantenere i dati importanti archiviati sul computer invece di dover eliminare questi dati quando la RAM è sovraccarica.

Come aggiornare TPM 1.2 a TPM 2.0 per laptop Dell e computer Dell

Come aggiornare TPM 1.2 a TPM 2.0 per laptop Dell e computer Dell

Dell fornisce agli utenti una soluzione di aggiornamento da TPM 1.2 a TPM 2.0.

Come scaricare, aggiornare e risolvere i problemi dei driver USB su Windows 10

Come scaricare, aggiornare e risolvere i problemi dei driver USB su Windows 10

I dispositivi USB sono diventati indispensabili nella vita di tutti i giorni, permettendoci di collegare una varietà di hardware essenziali ai nostri PC.

Come personalizzare il piano di alimentazione per aumentare la durata della batteria del laptop

Come personalizzare il piano di alimentazione per aumentare la durata della batteria del laptop

I piani di alimentazione di Windows sono essenziali nella gestione dei laptop. Ecco cosa devi fare se vuoi risparmiare energia e prolungare la durata della batteria!

Windows 10 KB5001330: molti problemi seri a cui prestare attenzione

Windows 10 KB5001330: molti problemi seri a cui prestare attenzione

All'inizio di questa settimana, Microsoft ha annunciato gli aggiornamenti cumulativi di aprile 2021 per le versioni supportate del sistema operativo. Tuttavia, molti utenti segnalano di non essere in grado di installare l'ultimo aggiornamento di Windows.

Come utilizzare lo script di correzione automatica con AutoHotkey

Come utilizzare lo script di correzione automatica con AutoHotkey

AutoHotkey è un potente strumento di scripting di Windows che puoi utilizzare per tutti i tipi di scopi. L'articolo di oggi ti mostrerà come utilizzare la correzione automatica con AutoHotkey, anche se non hai familiarità con questo strumento.

In che modo il malware sfrutta la risoluzione dello schermo per evitare il rilevamento

In che modo il malware sfrutta la risoluzione dello schermo per evitare il rilevamento

Recentemente, la comunità di sviluppo del malware ha implementato una nuova strategia per evitare il rilevamento: controllare la risoluzione dello schermo. Esploriamo perché la risoluzione dello schermo è importante per il malware e cosa significa per te.

Istruzioni per creare il collegamento Scorri per spegnere sul computer Windows 10

Istruzioni per creare il collegamento Scorri per spegnere sul computer Windows 10

Scorri per spegnere è una funzionalità integrata nelle versioni Windows 8, 8.1 e Windows 10. Si tratta di una funzionalità che ti aiuta a spegnere rapidamente, riducendo notevolmente il tempo necessario per spegnere il computer semplicemente facendo scorrere lo schermo verso il basso. Nell'articolo seguente, LuckyTemplates ti guiderà come creare un collegamento Diapositiva per spegnere su un computer Windows 10.

Cosè il protocollo SSTP (Secure Socket Tunneling Protocol)?

Cosè il protocollo SSTP (Secure Socket Tunneling Protocol)?

SSTP, o Secure Socket Tunneling Protocol, è progettato per proteggere il traffico PPP utilizzando un canale SSL/TLS. SSTP è molto migliore e più sicuro per gli utenti Windows rispetto a L2TP/IPSec o PPTP.

Differenza tra file torrent e collegamento magnetico

Differenza tra file torrent e collegamento magnetico

Sia i collegamenti magnetici che i file torrent vengono utilizzati per condividere contenuti con altri tramite servizi torrent come uTorrent o BitTorrent. A prima vista, i due tipi di condivisione di file possono sembrare simili, ma alla fine non lo sono.