Recuperació RAID: errors crítics, solucions i millors pràctiques

Darrera actualització: 2 d'abril de 2026
  • La majoria de desastres en sistemes RAID s'agreugen per actuacions precipitades en els primers minuts després de la decisió.
  • Cada nivell RAID gestiona de manera diferent dades i paritat, fet que condiciona el risc real i l'estratègia de recuperació.
  • La intervenció professional combina clonatge de discos, reconstrucció virtual de l'array i tècniques avançades d'anàlisi lògica.
  • Un RAID no substitueix les còpies de seguretat: la prevenció i una resposta ordenada són clau per salvar les dades.

recuperació RAID

Quan un sistema RAID falla, els primers minuts són crítics. En aquesta trucada “hora daurada” després de la sentència es cometen la majoria derrors humans que converteixen una incidència recuperable en un desastre irreversible. Canvis de discos a cegues, reinicis constants o intents de reconstrucció sense saber què passa solen ser el camí més ràpid cap a la pèrdua total de les dades.

Per què és tan delicada la recuperació d'un RAID

En molts incidents crítics, la pèrdua d'informació no la provoca la decisió inicial del maquinari, sinó les accions precipitades durant la primera hora. Aquest període és clau: un disc canvia de posició, s'inicia una inicialització per error, es força una reconstrucció o s'arrenca el sistema des d'una còpia de seguretat incompleta sobre la mateixa cabina, i el que abans era un problema complex però tractable es converteix en un trencaclosques gairebé impossible.

Les situacions de risc més habituals inclouen intercanviar discos a l'ordre equivocat (a RAID 0, 1, 5, 6, 10, etc.), reemplaçar el controlador per un altre model sense clonar ni documentar la configuració, forçar discos en línia sense analitzar l'estat real, inicialitzar volums equivocats o llançar reconstruccions que es queden a mitges i corrompen encara més l'estructura interna de l'array.

També són especialment perilloses les restauracions de backup directament sobre el sistema danyat, les migracions d'emmagatzematge tipus VMware Storage vMotion amb la cabina inestable, i qualsevol operació que escriviu noves metadades de configuració RAID sobre discos amb informació encara potencialment recuperable.

Un RAID és la base de la majoria de servidors físics, NAS i SAN, i no sempre és clar des del principi que l'origen del problema és precisament l'array. Per això, quan hi ha dubtes, el més assenyat és aturar tota escriptura sobre els discos, documentar el que ha passat amb màxim detall i demanar assessorament a especialistes en recuperació de dades abans de tocar res més.

servei de recuperació RAID

Errors humans típics i bones pràctiques bàsiques

Quan un RAID entra en estat degradat, un o diversos discos marquen error o el NAS no arrenca, la reacció instintiva sol ser anar provant coses “fins que soni la flauta”. Aquesta aproximació gairebé sempre acaba empitjorant el problema perquè cada acció deixa rastre als discos i podeu sobreescriure paritats, metadades o dades d'usuari encara intactes.

Entre els errors més freqüents que compliquen la recuperació hi ha accions com configurar un nou RAID usant la mateixa controladora i els mateixos discos, introduir aquests discos en una altra cabina diferent per veure si els reconeix o canviar l'ordre físic de les safates. En un percentatge alt de casos, aquests moviments reescriuen la configuració original, destrueixen les bandes de paritat i redueixen en picat les opcions d'èxit.

Una altra mala pràctica habitual és no registrar res del que va passant. En un escenari d'avaria complexa, és vital anotar cronològicament tots els esdeveniments: talls elèctrics, missatges del sistema, canvis de discos, intents de reconstrucció, actualitzacions de microprogramari, etc. Aquesta informació ajuda després els tècnics especialitzats a reconstruir el puzle.

És igualment important documentar i conservar la posició exacta de cada disc a l'array. Canviar discos de badia “a ull” o llençar els discos suposadament morts és una temeritat: si després cal recompondre el RAID al laboratori, saber quin disc estava en quina ranura i disposar de tots els discos originals (fins i tot els substituïts) pot marcar la diferència.

Com a regla d'or, davant d'una avaria RAID convé actuar així: aturar l'equip, no reconfigurar res, mantenir tots els discos etiquetats, recopilar tota la informació possible sobre l'incident i, si les dades són importants, contacteu amb un servei professional de recuperació abans de continuar experimentant.

tecnologia per recuperar RAID

Com enfoquen els professionals la recuperació d'un sistema RAID

Les empreses especialitzades en recuperació de dades RAID treballen amb procediments molt estructurats perquè cada decisió tècnica ha de minimitzar el risc de danys addicionals. En un cas típic amb diversos discos i terabytes dinformació en joc, qualsevol pas improvisat pot costar car.

Un exemple real molt il·lustratiu és una matriu RAID amb dotze discos i uns 12 TB de dades. La còpia de seguretat no s'havia gestionat correctament, així que l'única sortida viable era recórrer a una empresa professional de recuperació de dades RAID. El cas era urgent, calia tornar a operar com més aviat millor i l'array ja havia entrat en situació crítica després de fallar dos discos durant una reconfiguració.

En escenaris així, els especialistes solen començar per clonar tots els discos que encara responen i treballar sempre sobre còpies, no sobre els originals. Alhora, intenten reparar, en la mesura del possible, les unitats físicament danyades, ja sigui mitjançant intervenció en laboratori (càmeres netes, recanvi de capçals, electrònica donant, etc.) o amb tècniques avançades de lectura parcial.

En el cas dels 12 TB, el problema més gran va ser que la reconfiguració RAID s'havia iniciat abans del segon error, de manera que el controlador ja havia recalculat parcialment les noves paritats. La sort relativa va ser que el segon disc va morir a les primeres fases del procés, per la qual cosa gran part de l'estructura lògica antiga seguia sent reconstruïble.

  Problemes amb la impressora a Windows: guia completa de solució

Després de recuperar un dels discos avariats i generar-ne una còpia completa, el repte va ser recompondre manualment l'estructura lògica de l'array: ordre de discos, mida de bloc, distribució de paritat, possibles canvis a mig procés… Aquest treball, que es pot prolongar diversos dies d'anàlisi, va permetre recuperar al voltant del 90% de les dades, cosa que, ateses les circumstàncies, es considera un èxit alt en recuperació RAID.

Serveis professionals: què solen oferir i com treballen

Les companyies dedicades a la recuperació de dades RAID solen oferir diagnòstic ràpid i sense cost inicial, sobretot quan es tracta de servidors crítics o NAS en producció. En alguns casos es comprometen a avaluar el problema en poques hores, enviar un informe de viabilitat i un pressupost tancat, i aplicar polítiques de “si no es recupera, no es cobra”.

Un servei típic comença quan el client sol·licita un pressupost gratuït per recuperar el RAID. En aquesta fase inicial es recopila informació sobre el tipus d'array (RAID 0, 1, 5, 6, 10, JBOD, etc.), el nombre de discos, el sistema d'arxius (per exemple ext4, Btrfs, XFS, HFS+, NTFS…), el maquinari implicat (NAS Synology, QNAP, servidors de marca, cabines SAN…) i una descripció detallada dels símptomes i accions realitzades fins ara.

Un cop acceptat l'estudi, l'empresa sol gestionar-ne una recollida gratuïta de l'equip o dels discos, indicant instruccions precises d'embalatge: fer servir embolcall antiestàtic o encoixinat, col·locar el dispositiu en una caixa rígida amb material amortidor, evitar que els discos es moguin en el transport i etiquetar bé amb el número de sol·licitud.

Ja al laboratori, els tècnics realitzen un diagnòstic físic i lògic de cada disc, elaboren imatges bit a bit sempre que és possible, avaluen l'estat dels sectors i decideixen com reconstruir virtualment el RAID. Només aleshores es presenta un pressupost definitiu amb el percentatge estimat de dades recuperables i els terminis orientatius de treball.

Si el client dóna el vistiplau, es procedeix a la recuperació pròpiament dita. Després d'estabilitzar les unitats i muntar el RAID en un entorn controlat, els especialistes generen un llistat de fitxers accessibles. Fins aquest punt, normalment el client encara no ha pagat res. Només si el llistat és satisfactori es copien les dades a un suport nou (un disc extern, un NAS de substitució, etc.) i s'envia de tornada al client, gairebé sempre amb enviament inclòs.

Fonaments: com funciona un RAID per dins

Un sistema RAID és, simplificant, un conjunt de discos físics que es presenten al sistema operatiu com una sola unitat lògica. La gràcia és com es reparteixen les dades i, eventualment, la paritat entre els discos per guanyar rendiment, capacitat o tolerància a fallades, o una combinació de tot això.

La tecnologia RAID permet distribuir la informació en bandes o blocs que s'escriuen de forma paral·lela a diversos discos, cosa que accelera l'accés en combinar transferències. A més, en certs nivells s'emmagatzemen dades redundants (paritat) que serveixen per recalcular la informació d'un disc avariat sense perdre el servei, sempre que no se superin els límits d'error prevists en el disseny de l'array.

Un altre avantatge important és la possibilitat de intercanvi de discos en calent en molts sistemes. És a dir, es pot extreure i substituir físicament un disc defectuós sense apagar el servidor o la cabina, deixant que la controladora s'encarregue de reconstruir la informació perduda sobre el nou disc en segon pla mentre el sistema segueix funcionant.

No hi ha un “nivell RAID perfecte” per a tots els escenaris. Cada nivell prioritza un equilibri diferent entre rendiment, seguretat i capacitat útil. Per això és tan important entendre quin tipus de RAID està muntat abans d'intentar cap operació de reparació o recuperació.

Quan alguna cosa es torça, el mateix RAID sol poder reconstruir la informació si es compleix la tolerància a fallades prevista. No obstant això, quan s'encadenen diversos problemes físics, lògics o humans, la matriu pot perdre la coherència i deixar de ser capaç de recompondre's per si sola, i llavors és necessària la intervenció d'experts.

Nivells RAID més comuns i les seves particularitats

Cada nivell RAID gestiona de manera diferent la repartició de dades i paritat entre discos, la qual cosa es tradueix en diferències molt clares de comportament davant de fallades. Conèixer aquestes diferències ajuda a valorar el risc real en una avaria i les probabilitats dèxit duna recuperació.

El RAID 0, conegut pel seu alt rendiment, distribueix les dades en bandes entre almenys dos discos sense desar cap informació redundant. Això vol dir que la pèrdua d'un sol disc implica la pèrdua de tot el volum, ja que parts de cada fitxer estan escampades al llarg de totes les unitats. El seu avantatge principal és la velocitat, però des del punt de vista de la seguretat de les dades és molt fràgil.

El RAID 1, o mirall, manté còpies idèntiques de la informació en dos discos. Si un falla, l'altre continua funcionant de manera transparent. És senzill, fiable i ofereix bones taxes de lectura, encara que sacrifica capacitat útil, ja que lespai disponible és equivalent al dun sol disc del parell. En recuperació, disposar d'almenys un dels discos íntegre sol facilitar força les coses.

  Diagnòstic avançat de memòria RAM: guia completa

Hi ha també nivells com RAID 3 i RAID 4, menys estesos avui, que combinen discos de dades amb un disc dedicat a emmagatzemar la paritat. Al RAID 3 l'accés als discs de dades és simultani i el disc de paritat es converteix en un coll d'ampolla potencial, mentre que al RAID 4 es permet un accés més independent a cada disc de dades, millorant el rendiment en certes càrregues.

El RAID 5 és probablement el més utilitzat en entorns de servidors i NAS. Distribueix les dades en bandes entre diversos discos i intercala blocs de paritat repartits entre totes les unitats, sense dedicar un disc exclusivament a aquesta funció. Aquesta organització permet tolerar la fallada d'un disc i reconstruir la vostra informació en una nova unitat substituta, sempre que no es produeixi una segona fallada durant la reconstrucció.

El RAID 6 fa un pas més enllà en seguretat al desar dos blocs de paritat per cada conjunt de dades, cosa que permet suportar l'avaria simultània de fins a dos discos sense pèrdua d'informació. Requereix més capacitat de disc per a la paritat i més potència de càlcul, però a canvi ofereix un marge de maniobra molt superior en cas d'errors encadenats, una cosa molt valorada en arrays de grans dimensions.

A més d'aquests nivells “clàssics”, hi ha combinacions com RAID 10 (mirall + striping), RAID 50 o 60 i configuracions lineals o JBOD, on els discos simplement es concatenen per formar un volum gran, sense redundància real. En cap d'aquests casos, el RAID substitueix un sistema de còpies de seguretat ben dissenyat.

Errors típics en sistemes RAID i quan es complica la recuperació

Els sistemes RAID tenen fama de robustos, i amb raó, però no són immunes als problemes. A la pràctica es veuen errors físics, lògics i humans, que sovint es barregen entre si i donen lloc a situacions delicades des del punt de vista de la recuperació.

Pel costat lògic, un dels obstacles més seriosos és la pèrdua o corrupció de les bandes de paritat. Quan les metadades que indiquen com es distribueixen les dades i la paritat entre discos es degraden, el RAID deixa de poder regenerar la informació per si mateix i cal una intervenció externa per localitzar i reconstruir aquestes bandes de forma manual o semiautomàtica.

Pel que fa al maquinari, l'estadística indica que cada any pot fallar físicament un petit percentatge de discos a qualsevol infraestructura, una mica al voltant del 2-3%. En un array amb molts discos, això significa que les possibilitats que almenys un falli no són menyspreables. Avaries mecàniques, pics de tensió, firmware defectuós, temperatures extremes o components de mala qualitat són causes habituals dels incidents físics.

Els problemes s'agreugen quan es produeix una segona fallada durant una reconstrucció, especialment a RAID 5 o en configuracions amb molts discos. Si mentre el sistema està regenerant la informació dun disc avariat un altre comença a donar errors greus, larray pot passar de degradat a totalment inaccessible. Quan falla més de la tolerància prevista de discos, ja no n'hi ha prou amb la lògica interna del RAID i cal recórrer a tècniques avançades de recuperació.

Els errors humans completen el còctel: endarrerir el reemplaçament d'un disc que ja donava avisos, ignorar alarmes de la controladora, apagar malament els sistemes davant de talls elèctrics repetits, instal·lar drivers inadequats, forçar reinicis continus o aplicar procediments de manteniment sense còpies de seguretat recents són pràctiques que augmenten moltíssim el risc de pèrdua de dades.

Ús de programari especialitzat: exemple pràctic amb R-Studio

Quan el RAID ja no és accessible a través de la controladora original, una de les opcions tècniques és reconstruir virtualment l'array amb programari especialitzat. Eines com R-Studio permeten detectar RAIDs encara coherents com si fossin volums normals, i en casos més greus muntar RAIDs virtuals a partir de discos o imatges de discos.

El principi de treball consisteix a crear un RAID virtual basat en els discos físics o en les còpies imatge, introduint manualment paràmetres com el nombre de discs, la mida de bloc, l'òfset inicial, el tipus de RAID (0, 1, 4, 5, 6, 10, JBOD, ZFS RAIDZ, RAIDZ2, etc.) i l'ordre dels discs. Quan el programari detecta un sistema de fitxers vàlid, es presenta aquest RAID virtual com un volum navegable des del qual es poden llistar i recuperar fitxers.

Per exemple, per a un RAID 5 senzill de tres discos amb blocs de 64 KB i ordre de paritat “esquerra asincrònic”, n'hi hauria prou amb seleccionar els tres discos a l'ordre correcte, indicar la mida de bloc, fixar l'òfset adequat i deixar que l'eina identifiqui la partició. A partir d'aquí es pot obrir el volum, examinar les carpetes, previsualitzar fitxers (especialment els grans) i verificar que l'estructura s'ha muntat correctament.

En configuracions més complexes, com ara un RAID 5 amb blocs de 4 KB i un patró de paritat personalitzat, és necessari definir manualment una taula d'ordre de blocs. Això implica introduir, fila a fila, quin disc conté cada bloc de dades o paritat, validant que la seqüència sigui coherent. El programari avisa quan detecta inconsistències en aquesta taula perquè es corregeixin abans d'aplicar els canvis.

Una precaució important és que aquests RAIDs virtuals són objectes purament lògics dins del programari: no escriuen res als discos originals des dels quals s'han creat. Això permet experimentar amb diferents combinacions de paràmetres fins a trobar la que reconstrueix correctament el sistema de fitxers sense risc d'agreujar els danys.

  OpenTitan: El primer silici de codi obert per a seguretat

En casos en què falti un disc físic, algunes eines permeten substituir-lo per un “disc absent” o un bloc d'espai buit, simulant el comportament d'un RAID degradat. Tot i així, perquè la recuperació d'arxius sigui fiable, tots els paràmetres han de ser correctes; només cal una mida de bloc equivocat o un òfset mal calculat perquè els arxius extrets estiguin corruptes, per això la importància de l'experiència tècnica.

Tipus de RAID i el seu comportament davant de la pèrdua de dades

Més enllà dels nivells clàssics, els sistemes RAID d'avui suporten una àmplia varietat de configuracions híbrides i lineals. Cadascuna planteja reptes diferents quan es tracta de recuperar informació després d'una fallada crítica.

En un RAID 0 (striping pur), les dades es fragmenten en petits grups que es van escrivint seqüencialment a tots els discos del conjunt. La capacitat total és la suma de totes les unitats, però no hi ha redundància de cap tipus. Si un dels discos mor, el volum sencer deixa de ser utilitzable, i l'única opció de recuperació passa per tècniques avançades que intentin reconstruir allò que es pugui a partir dels discos supervivents.

El RAID 1 manté sempre còpies idèntiques de totes les dades a cada disc del mirall. Aquesta simplicitat és una gran aliada en processos de recuperació, perquè si un dels discos segueix íntegre es pot accedir directament a les dades com si fos un disc independent, o bolcar el seu contingut a una nova unitat i refer el mirall més endavant.

En nivells com RAID 4 i RAID 5, on la paritat es reparteix de manera diferent, la capacitat útil sol ser la suma de tots els discos menys la capacitat equivalent a un. La necessitat de reconstruir matemàticament les dades d'un disc des de la paritat és el que complica la recuperació quan els errors s'encadenen i es perden més discos dels tolerats pel disseny.

Les configuracions lineals o JBOD (Just a Bunch Of Disks) agrupen diversos discos d'igual o diferent mida per formar una sola unitat lògica de més capacitat sense distribuir les dades en paral·lel. No ofereixen millores de rendiment notables ni redundància: si qualsevol disc s'avaria, es perd l'accés al volum complet. La recuperació, en aquests casos, implica treballar sobre cada disc i reconstruir el contingut manualment a partir dels segments que no hagin resultat afectats.

Tots aquests escenaris posen de manifest que, per avançades que siguin les tecnologies d'emmagatzematge, les còpies de seguretat externes i verificades segueixen sent imprescindibles. RAID redueix o elimina el temps de parada davant certes fallades, però no protegeix davant d'esborrats accidentals, corrupció lògica, atacs de codi maliciós o errors de configuració que destrueixin informació a nivell de sistema de fitxers.

Consells clau per minimitzar riscos i protegir les vostres dades

La primera recomanació, per òbvia que sembli, és mantenir una política de còpies de seguretat regular que no depengui del propi RAID. Això inclou servidors, estacions de treball, smartphones, sistemes NAS i qualsevol altre dispositiu on s'emmagatzemen dades de valor. Només així, davant d'una avaria greu, es pot restaurar el servei sense dependre de l'èxit d'una recuperació forense.

Si tot i així es produeix un incident i no hi ha backup útil, el més prudent és evitar qualsevol intent de reparació “casola” sense tenir gaire clars els passos i les seves conseqüències. Abans d'executar eines de reparació de sistema d'arxius, posar en marxa reconstruccions automàtiques o canviar discos de badia, cal consultar amb especialistes en recuperació de dades i exposar-los el cas amb tot luxe de detalls.

També és fonamental atendre els senyals primerencs de fallada: discos que comencen a donar sectors reassignats, controladores que generen alertes, logs del sistema amb avisos d'I/O, cabines que marquen un array com a degradat… Ignorar aquests símptomes per mandra o per por de parar el servei sol ser el preludi d'una caiguda molt més seriosa i costosa.

Finalment, quan el valor de les dades és elevat, val la pena tenir identificat per endavant un proveïdor de confiança en recuperació de dades. Arribat el moment, disposar d'un contacte directe escurça temps de reacció, permet rebre instruccions precises des del minut u augmenta les probabilitats de salvar el màxim possible d'informació.

L'experiència acumulada en casos incomptables demostra que la combinació d'un disseny RAID adequat, còpies de seguretat fiables, resposta serena davant l'avaria i suport d'especialistes quan cal és el que realment marca la diferència entre un ensurt controlat i una pèrdua de dades catastròfica.

fallades en RAID
Article relacionat:
Errors en RAID: símptomes, causes i com evitar perdre les teves dades