SERVIÇOS CONTINUADOS
Muito além da manutenção do data center: a garantia de continuidade das operações.
Saiba mais >
Ongoing
Online
On IT Management
News
Ongoing
Como tratar incidentes em um data center?
No tratamento de incidentes, é importante estabelecer um processo bem definido e padronizado para garantia de nível de qualidade e conforme o SLA contratado: INCIDENTE >> DIAGNÓSTICO >> DECISÃO >> INTERVENÇÃO Primeiro de tudo: o que é um incidente em um data center? A definição de incidentes varia de acordo com a literatura, portanto adotamos a seguinte: “Um incidente é uma interrupção não planejada ou uma redução da qualidade de um serviço ou equipamento.” Com base nesta definição, um exemplo seria uma falha no funcionamento do ar condicionado de precisão. Neste caso, o alarme do equipamento será acionado e o responsável pelo data center será informado, o que pode ser realizado de diferentes formas: Visualmente ao inspecionar o equipamento a uma ronda Envio de alerta pelo sistema de monitoramento (Netwatch, Greenview, Supervisório ou DCIM) Acionado pelo nosso serviço Online Diagnóstico assertivo Dado a ciência do incidente, precisamos realizar o diagnóstico para embasar a tomada de decisão. Para ter a construção de um diagnóstico assertivo é importante ter todas as informações como: horário do incidente, registro fotográfico da infraestrutura, entre outros. O objetivo desse diagnóstico é identificar a causa básica para que o equipamento possa voltar a operar em condições regulares. No caso do exemplo do ar condicionado, será analisado o código do alarme para verificar o que gerou o incidente. Vamos supor que este é referente a uma falha do compressor, o próximo passo é levantar o histórico do equipamento para garantia de que o incidente é isolado e não crônico. Ressaltamos que a tratativa de um incidente isolado é diferente da tratativa de um incidente crônico. No nosso caso, vamos assumir que o histórico foi verificado e o incidente é pontual.
Saiba Mais >
Online
5 motivos para monitorar o seu data center 24 x 7 x 365
Monitorar os subsistemas de clima, energia e segurança é aspecto chave para a disponibilidade da infraestrutura de TI. Confira cinco benefícios que fazem do monitoramento remoto um fator importante para a disponibilidade do data center: * 1. Redução do Risco de agravamento de Incidentes* Para garantir que incidentes não se tornem paradas não programadas, o diagnóstico precoce é essencial pois o tempo, muitas vezes, é um dos maiores ofensores que constitui risco para um downtime. Com o diagnóstico precoce, temos a oportunidade de atuar rapidamente, reduzindo o risco de agravamento do incidente. Algumas falhas não afetam diretamente a disponibilidade, porém se a falha não for corrigida e persistir pode ocasionar uma parada. Um bom exemplo são os alarmes de clima, as máquinas de ar condicionado podem parar por um determinado período, questão de minutos, sem prejudicar a operação do data center. Mas se essa falha persistir por um período mais longo, podemos ter uma variação na temperatura que impacte o funcionamento do data center. * 2. Compreensão abrangente da infraestrutura do data center* Com o monitoramento de todos os subsistemas da infraestrutura é possível ter uma compreensão abrangente para uma ação assertiva de correção, assegurando que a intervenção seja realizada na causa do incidente. O monitoramento permite que a visualização em todos subsistemas do data center: Clima: ar condicionados de precisão, sensores de temperatura e umidade, detecção de hot spot que pode afetar a área das máquinas; Energia: quadros de energia, gerador, UPS (Uninterruptible Power Supply), chaves de transferência (ATS ou STS); Segurança: controle de acesso, detecção e combate a incêndio, detecção precoce e detecção de liquido. * 3. Tranquilidade e Segurança* Incidentes podem ocorrer a qualquer instante, por isso ter o monitoramento 24 x 7 x 365 é essencial para garantir que não haja períodos sem vigilância, inclusive durante a noite, em finais de semana e feriados garantindo tranquilidade ao CIO e a sua equipe. * 4. Monitoramento de data center com histórico* Com o monitoramento através de sensores, é possível a criação de um banco de dados de eventos separados por subsistemas e equipamentos que possibilita uma análise global do ambiente. * 5. Categorização dos incidentes de acordo com a gestão de risco* A categorização de incidentes pode ser customizada de acordo com a gestão de risco da organização. Em alguns casos, uma simples porta aberta pode ser considerada uma incidência grave de segurança, devido a diretriz da gestão de risco estabelecida. Em outros, essa mesma porta aberta pode não significar um risco para a operação.
Saiba Mais >
Ongoing
Data center e monitoramento de tempestades: qual a relação entre eles?
O Brasil é líder em incidência de raios no mundo, com cerca de 50 milhões de descargas atmosféricas por ano. Quando paramos para pensar que as linhas de transmissão e de distribuição do data center são as mais impactadas por raios, começa a fazer sentido monitorar tempestades e chuvas. O que acontece quando um raio afeta um data center? Suponhamos que um raio caia na área próxima e a descarga afeta a rede elétrica que alimenta o data center, causando a interrupção do fornecimento de energia. Nesse momento uma série de eventos vão se suceder dinamicamente em uma questão de minutos: Primeiro, a UPS vai entrar em ação e sustentar a demanda de eletricidade dos servidores, em paralelo o gerador é acionado e todas as máquinas de climatização param de funcionar (vale lembrar que o ar condicionado pode ficar desligado por alguns minutos sem interferência na temperatura geral); Após dois ou três minutos, o gerador assume a carga total do data center, fornecendo energia inclusive para as máquinas de climatização voltarem a operar normalmente, e o nobreak volta a sua operação normal parando de consumir a sua bateria; A infraestrutura esta funcionado de acordo para manter os servidores na condição ideal. Todos esses eventos precisam se suceder harmonicamente, sem intercorrências. Caso algum desses equipamentos não estejam funcionando corretamente, a continuidade da operação pode estar em risco. Para garantir que a infraestrutura esteja preparada, é importante realizar uma rotina de testes preventivos antes de chuvas e temporais. Pois mesmo uma simples falha da bateria do gerador, falta de diesel ou a validade e/ou qualidade do combustível comprometidas, podem implicar na descontinuidade da operação.
Saiba Mais >
Ongoing
Qual é a diferença entre downtime, incidente e parada em um data center?
Incidente, parada e downtime comumente são utilizados como o mesmo conceito, mas eles possuem significados diferentes em um data center. No quadro geral, podemos concordar em um fato: os três devem ser evitados para garantir a continuidade das operações. * O que é um incidente?* É alguma falha em um dos subsistemas de um data center que pode afetar o funcionamento da infraestrutura de TI. Em um exemplo: um técnico desligou um disjuntor, mas, neste cenário, também existe um disjuntor redundante, o qual não foi desligado, por isso, o funcionamento não é prejudicado, mas o incidente deve ser registrado. Um incidente nem sempre gera uma parada, mas, caso negligenciado ou passado despercebido, pode se agravar e resultar em uma parada. Se ocorrer um incidente no ar condicionado, por exemplo, a climatização será afetada se nenhuma ação for tomada, podendo ocasionar elevação da temperatura e a interrupção do funcionamento do data center – esta interrupção é o que chamamos de “parada”.
Saiba Mais >
Online
Serviço de monitoramento de data center: o que é e qual é a sua função?
Supervisionar os subsistemas que constituem a infraestrutura de TI de um data center é crucial. Quando um incidente ocorre, a primeira tarefa é tentar identificar a origem do problema, e isso só é possível com uma consciência situacional. Determinar rapidamente e assertivamente o que aconteceu é necessário para embasar uma tomada de decisão compatível, assegurando a disponibilidade do data center. O que é monitorado em um data center? Os subsistemas que integram a infraestrutura de TI precisam ser monitorados, eles asseguram o funcionamento adequado. São esses: Subsistema de Clima: equipamentos de ar condicionado, sensores de temperatura e de umidade. Subsistema de Energia: geradores, UPS (Uninterruptible Power Supply) ou no-break, quadros elétricos e chaves de transferências (ATS ou STS). Subsistema de Segurança: controle de acesso e CFTV, detecção precoce de incêndio, detecção de líquido e central de incêndio. Por que um data center precisa de monitoramento contínuo 24 x 7 x 365 por uma equipe experiente? Uma complicação pode ocorrer a qualquer momento, e essa precisa de uma tratativa resolutiva. Uma vez que uma falha, mesmo que de baixa criticidade, pode se tornar um incidente caso negligenciada ou tratada erroneamente. Quando detectamos uma variação nas leituras dos sensores de líquido, por exemplo, o diagnóstico precoce é essencial para não permitir o agravamento da situação. Além disso, a situação precisa ser sempre analisada por um profissional experiente, pois uma interpretação equivocada não garante a solução adequada a causa raiz. Incidentes recorrentes são muitas vezes tratados como soluções provisórias, como, por exemplo, quando disjuntores são erroneamente rearmados sem a verificação da causa raiz. Neste caso, a situação foi interpretada como apenas um desarme ocasional quando, na verdade, isso pode ser um indício de um problema mais grave, como um curto-circuito nas instalações elétricas ou até mesmo falhas na fonte de alimentação dos servidores. O monitoramento contínuo por profissionais experientes garante tratativas resolutivas que asseguram a continuidade das operações da infraestrutura de TI.
Saiba Mais >
Ongoing
12 motivos que diferenciam o Ongoing de um serviço de manutenção de data center
O down time de um data center em um hospital, por exemplo, causa a interferência no prosseguimento do atendimento, a falta do acesso ao histórico do paciente, entre outros. Em uma empresa de telefonia, a parada do centro de dados impossibilita os usuários de realizarem ligações ou enviarem mensagens. As indisponibilidades trazem prejuízos financeiros diretamente para as organizações, além de custos de oportunidade e de reputação.
Saiba Mais >
VEJA AS NEWS >
Política de Privacidade
Termo de utilização
Política de Cookie
Mapa do site
© 2019 Aceco TI. All rights reserved