Quando uma máquina tem uma falha de disco (por exemplo,
um panic
devido a erros de leitura, etc.),
devemos executar os seguintes procedimentos:
Anote o tempo e o tipo de falha
(por exemplo, colea saída do console que for relevante) no
/var/portbuild/
${arch}
/reboots
Para os clientes gohan i386, limpe o disco
criando o arquivo /SCRUB
no
nfsroot
(por exemplo,
/a/nfs/8.dir1/SCRUB
) e reinicie. Isso
vai executar um dd if=/dev/zero of=/dev/ad0
e forçar a unidade a remapear todos os setores defeituosos que
encontrar, isto se ela ainda tiver setores suficientes
sobrando. Esta é uma medida temporária para estender o tempo
de vida de uma unidade de disco que em breve irá tornar-se
inutilizável.
Para os sistemas blade
i386,
outro sinal de falha nos discos é quando a
blade
fica em espera e não responde a
qualquer comando pelo console, ou mesmo pelo
NMI.
Para os outros sistemas de compilação que não executam um newfs nos seus discos no momento da inicialização (por exemplo, os sistemas amd64) este procedimento deve ser ignorado.
Se o problema persistir, então provavelmente o
disco está inutilizado. Remova a máquina do
mlist
e (para discos ATA) execute o
smartctl
na unidade:
Isso vai levar cerca de 30 minutos:
Quando o comando acima finalizar, execute o comando
smartctl -a /dev/ad0
para verificar o
estado da unidade:
Ele também exibirá outros dados, incluindo um
log
dos erros anteriores da unidade. É
possível que a unidade mostre erros de
DMA embora não apresente falhas no
auto-teste (por conta do remapeamento de
setores).
Quando um disco falhar, por favor, informe os
administradores do cluster
, para que possamos
substituí-lo.
Este, e outros documentos, podem ser obtidos em ftp://ftp.FreeBSD.org/pub/FreeBSD/doc/
Para perguntas sobre FreeBSD, leia a
documentação antes de contatar
<questions@FreeBSD.org>.
Para perguntas sobre esta documentação, envie e-mail para
<doc@FreeBSD.org>.