Differences between revisions 2 and 3
Revision 2 as of 2009-04-12 17:33:24
Size: 2292
Editor: localhost
Comment: converted to 1.6 markup
Revision 3 as of 2022-09-26 08:59:04
Size: 0
Editor: Kurgan
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
==== Un disco guasto non sempre viene riconosciuto come tale ====

'''Conclusioni:'''
Se un disco si rompe in modo da non dare errori di DMA o di CRC, ma legge comunque dati errati,
il box ACS7500 puo` non rendersi conto del problema, e continuare a leggere dati dal disco guasto,
portando a una corruzione del file system e altre anomalie.

'''Analisi:'''
Nel caso in esame, il disco restava montato rw, ma di fatto non era piu` possibile scrivere e leggere alcuni files.
Al reboot veniva indicato un errore non recuperabile e veniva richiesto di lanciare fsck manualmente.
Lanciando FSCK a mano, si rilevano molti errori del tipo:
{{{
end_request: I/O error, dev 16:07, sector 139870
Error reading block 69935 (Attempt to read from filesystem resulted in short read)
while doing inode scan. Ignore error<y>?
}}}
Temendo un guasto al box raid, l'ho smontato e connesso uno dei due hard disk direttamente al PC. Ho avuto la fortuna (o sfortuna) di attaccare il disco
guasto al PC. Fsck riportava gli stessi errori di prima. Non abbiamo verificato se i settori erano gli stessi.

Abbiamo smontato il disco dalla macchina e attaccato lo stesso ad un altro PC per escludere problemi alla mainboard. In questo caso gli errori restavano, ed erano alle stesse locazioni di prima. Quindi sembrava che gli errori fossero proprio dovuti al disco (o alle condizioni del file system sul disco).

A questo punto abbiamo attaccato il secondo disco preso dal box RAID alla macchina ed abbiamo verificato con gioia che sebbene venisse fatto girare fsck non si trovavano errori di lettura come quelli sopra indicati. I dati nel secondo disco erano in buone condizioni e abbiamo rimesso la macchina in funzione con un solo disco. Dobbiamo ancora rimontare il RAID con un nuovo disco per vedere se non si sia guastato anche il RAID stesso.

E` importante notare che tra i messaggi di errore mancavano completamente errori del tipo:
{{{
end_request: I/O error, dev 16:07, sector 139870
hdc: read_intr: status=0x59 {DriveReady SeekComplete DataRequest Error}
hdc: read_intr: error=0x40 {UncorrectableError}, LBASect=1595485, secotr=139870
}}}
che normalmente denotano errori di DMA o di CRC, e che in teoria dovrebbero causare l'esclusione del disco rotto da parte del box RAID.