要對Oracle數(shù)據(jù)庫備份與恢復(fù)有清晰的認(rèn)識,首先有必要對數(shù)據(jù)庫的幾種運(yùn)行狀態(tài)有充分的了解。Oracle數(shù)據(jù)庫的運(yùn)行狀態(tài)主要分為3種,他們依次為:
Nomount(非安裝)Oracle只是讀取ini文件中的配置信息,并初始化SGA區(qū)。
Mount(安裝)Oracle除了需要讀取ini文件還要讀取控制文件,并從中獲取有關(guān)數(shù)據(jù)庫的物理結(jié)構(gòu)等信息。
Open(打開)數(shù)據(jù)庫要檢查所有文件處于同一時(shí)間點(diǎn),對錯誤進(jìn)行恢復(fù)對未完成事務(wù)回滾,并最終可以允許用戶訪問。
數(shù)據(jù)庫的備份主要分為三種類型:冷備份;熱備份;邏輯備份;
數(shù)據(jù)庫的備份不是本文討論的重點(diǎn),在這里只作一個概要的介紹,Oracle數(shù)據(jù)庫備份主要有:
Cold Backup(冷備份) 主要指在關(guān)閉數(shù)據(jù)庫的狀態(tài)下進(jìn)行的數(shù)據(jù)庫完全備份,備份內(nèi)容包括所有數(shù)據(jù)文件、控制文件、聯(lián)機(jī)日志文件、ini文件。
Hot Backup(熱備份) 指在數(shù)據(jù)庫處于運(yùn)行狀態(tài)下,對數(shù)據(jù)文件和控制文件進(jìn)行備份,要使用熱備份必須將數(shù)據(jù)庫運(yùn)行在(Archive Log)歸檔方式下。
Export(邏輯備份)這是最簡單的備份方法,可按數(shù)據(jù)庫中某個表、某個用戶或整個數(shù)據(jù)庫來導(dǎo)出,并且支持全部、累計(jì)、增量三種方式。使用這種方法,數(shù)據(jù)庫必須處于打開狀態(tài),而且如果數(shù)據(jù)庫不是在restrict狀態(tài)將不能保證導(dǎo)出數(shù)據(jù)的一致性。
數(shù)據(jù)庫的恢復(fù)可分為兩大類:完全恢復(fù);不完全恢復(fù);
完全恢復(fù)指將數(shù)據(jù)庫恢復(fù)到發(fā)生故障的時(shí)間點(diǎn),不丟失任何數(shù)據(jù)。不完全恢復(fù)指將數(shù)據(jù)庫恢復(fù)到發(fā)生故障前的某一個時(shí)間點(diǎn),此時(shí)間點(diǎn)以后的所有改動將會丟失。如果沒有特殊需求,我們建議應(yīng)盡量使用完全恢復(fù)。
Oracle數(shù)據(jù)庫的恢復(fù)過程分兩步進(jìn)行,首先將把存放在重做日志文件中的所有重做運(yùn)用到數(shù)據(jù)文件,之后對重做中所有未提交的事務(wù)進(jìn)行回滾,這樣所有數(shù)據(jù)就恢復(fù)到發(fā)生災(zāi)難那一時(shí)刻了。數(shù)據(jù)庫的恢復(fù)只能在發(fā)生故障之前的數(shù)據(jù)文件上運(yùn)用重做,將其恢復(fù)到故障時(shí)刻,而不能將數(shù)據(jù)文件反向回滾到之前的某一個時(shí)刻。舉個例子,我們有一個2001/1/1的數(shù)據(jù)庫備份,當(dāng)2001/5/1使我們發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)發(fā)生混亂,希望將數(shù)據(jù)庫恢復(fù)到2001/4/30時(shí)的狀態(tài),我們只能先恢復(fù)2001/1/1的數(shù)據(jù)庫備份然后在其上運(yùn)用重做記錄使其前滾到2001/4/30時(shí)的狀態(tài),而不能將2001/5/1的數(shù)據(jù)庫向后回滾到2001/4/30。
為了系統(tǒng)的設(shè)計(jì)數(shù)據(jù)庫的恢復(fù)方案,我們先對可能遇到的錯誤進(jìn)行分類,Oracle數(shù)據(jù)庫錯誤主要分為5大類:
SQL語句失敗
線程失敗
實(shí)例失敗
用戶操作失敗
存儲設(shè)備失敗
如果發(fā)生前三種失敗,不需要我們?nèi)藶楦缮,Oracle系統(tǒng)會自動進(jìn)行恢復(fù)。對于用戶操作型的失。ㄈ缯`刪除數(shù)據(jù)),我們采取的補(bǔ)救措施主要有導(dǎo)入最新的邏輯備份或進(jìn)行到某一時(shí)間點(diǎn)的不完全恢復(fù)。從Oracle 8之后的新版本中引入了基于表空間的時(shí)間點(diǎn)恢復(fù)(TSPITR),可以單獨(dú)將包含錯誤操作的表空間恢復(fù)到指定時(shí)間,而不必對整個數(shù)據(jù)庫進(jìn)行不完全恢復(fù)。當(dāng)錯誤操作發(fā)現(xiàn)比較及時(shí)而且數(shù)據(jù)量不大的情況下也可以考慮使用logminer生成反向SQL。
針對存儲設(shè)備的失敗的情況比較復(fù)雜也是本文討論的重點(diǎn),存儲設(shè)備的失敗必然會使放置在其上的文件變?yōu)椴豢捎,我們先將Oracle數(shù)據(jù)庫所涉及到的文件進(jìn)行一個劃分,主要可分為:
Oracle的系統(tǒng)文件,指Oracle的運(yùn)行文件,各種應(yīng)用程序
數(shù)據(jù)庫控制文件
數(shù)據(jù)庫聯(lián)機(jī)重做日志文件
數(shù)據(jù)文件
歸檔日志文件
避免第一種文件失敗主要依賴系統(tǒng)管理員進(jìn)行操作系統(tǒng)級的備份,當(dāng)發(fā)生事故后只能依靠操作系統(tǒng)備份將其恢復(fù)。
控制文件中記錄著整個數(shù)據(jù)庫的結(jié)構(gòu)、每個數(shù)據(jù)文件的狀況、系統(tǒng)SCN、檢查點(diǎn)計(jì)數(shù)器等重要信息,在創(chuàng)建數(shù)據(jù)庫時(shí)會讓用戶指定三個位置來存放控制文件,他們之間互為鏡像,當(dāng)其中任何一個發(fā)生故障,只需將其從ini文件中注釋掉故障數(shù)據(jù)文件就可重新將數(shù)據(jù)啟動。當(dāng)所有控制全部失效時(shí),可以在Nomount模式下執(zhí)行create controlfile來重新生成控制文件,但必須提供redo log,data file,文件名和地址以及MAXLOGFILES,MAXDATAFILES,MAXINSTANCES等信息。如果失敗之前運(yùn)行過alter database backup controlfile to trace或alter database backup controlfile to ‘xxx’對控制文件作備份,恢復(fù)時(shí)可使用生成的腳本來重建或用備份文件覆蓋,如果使用了舊的控制文件在恢復(fù)時(shí)要使用recover xxx using backup controlfile選項(xiàng)來進(jìn)行恢復(fù),并使用resetlogs選項(xiàng)來打開數(shù)據(jù)庫。
如果丟失的是聯(lián)機(jī)日志文件,分兩種情況處理1、丟失的是非活動的日志文件;2、丟失的是當(dāng)前激活的日志文件。
如果是第一種情況,而發(fā)生故障的日志文件組又具有多個成員,可以先將數(shù)據(jù)庫shutdown,然后用操作系統(tǒng)命令將損壞日志文件組中好的日志成員文件把損壞的成員文件覆蓋(在同一個日志成員組中的所有日志文件的各為鏡象的),如果其物理位置不可用可將其拷貝到新的驅(qū)動器上,使用alter database rename file ‘xxxx’ to ‘xxxx’改變文件位置,之后啟動數(shù)據(jù)庫,如果正常馬上進(jìn)行一個冷備份。如果損壞的日志組中只有一個日志成員,先mount上數(shù)據(jù)庫,將其轉(zhuǎn)換為noarchivelog模式,執(zhí)行alter database add logfile member ‘xxx’ to group ‘x’給相關(guān)組增加一個成員,再執(zhí)行alter database drop logfile member ‘bad_file’將損壞的日志文件刪除,由于數(shù)據(jù)庫的結(jié)構(gòu)發(fā)生變動需要備份控制文件,之后將數(shù)據(jù)庫改回archivelog模式,做一個冷備份。
如果丟失的是當(dāng)前激活的日志文件,數(shù)據(jù)庫又沒有鏡像而且當(dāng)前日志組中所有成員均變?yōu)椴豢捎。首先將?shù)據(jù)庫shutdown abort,從最近的一次全備份中恢復(fù)所有的數(shù)據(jù)文件,將數(shù)據(jù)庫啟動到mount狀態(tài)。如果原來的日志文件物理位置不可用,使用alter database rename file ‘xxx’ to ‘xxx’改變文件的存放位置。然后,使用recover database until cancel命令來恢復(fù)數(shù)據(jù)庫,直到提示最后一個歸檔日志運(yùn)用完之后,輸入cancel。之后用alter database open resetlogs打開數(shù)據(jù)庫,如果沒有問題,立即進(jìn)行一個冷備份。注意!所有包含在損壞的redo log中的信息將會丟失,也就是說數(shù)據(jù)庫崩潰前已經(jīng)提交的數(shù)據(jù)有可能會丟失。這對于某些要求很高的應(yīng)用將會損失慘重,因此應(yīng)盡量使每個日志組具有多個日志成員,并且放置在不同的驅(qū)動器上一防止發(fā)生介質(zhì)故障。
數(shù)據(jù)文件發(fā)生故障的情況也分為多種情況,1、丟失包含在SYSTEM表空間的數(shù)據(jù)文件;2、丟失沒有回滾段的非SYSTEM數(shù)據(jù)文件;3、丟失有回滾段的非SYSTEM數(shù)據(jù)文件。
如果損壞的是系統(tǒng)表空間的數(shù)據(jù)文件。唯一的辦法是從上一次備份中恢復(fù)受損的數(shù)據(jù)文件,(如果原位置不可用使用alter database rename命令改變新文件的位置),之后在數(shù)據(jù)庫mount的狀態(tài)下執(zhí)行recover database/datafile對數(shù)據(jù)庫進(jìn)行回復(fù),才能將數(shù)據(jù)庫打開。注意:當(dāng)SYSTEM表空間或其中的數(shù)據(jù)文件脫機(jī),數(shù)據(jù)庫是無法被打開的,因此必須在mount狀態(tài)下將所有的恢復(fù)工作完成。
當(dāng)丟失的數(shù)據(jù)文件不屬于系統(tǒng)表空間而且也不包含回滾段時(shí),有可選擇在數(shù)據(jù)庫的兩種狀態(tài)下進(jìn)行恢復(fù)---在數(shù)據(jù)庫open的狀態(tài)或者在數(shù)據(jù)庫mount的狀態(tài)。如果用戶急于訪問數(shù)據(jù)庫中未受損部分的數(shù)據(jù)或?qū)p壞的數(shù)據(jù)文件進(jìn)行恢復(fù)需要很長時(shí)間,可以先使受損的數(shù)據(jù)文件脫機(jī),將數(shù)據(jù)庫打開給用戶訪問,再恢復(fù)受損的數(shù)據(jù)文件最后將其聯(lián)機(jī)。步驟如下:先在數(shù)據(jù)庫mount時(shí),將相關(guān)的數(shù)據(jù)文件或表空間進(jìn)行脫機(jī)alter database datafile xxx offline,然后將數(shù)據(jù)庫open,這樣就能使數(shù)據(jù)庫未受損的部分先供用戶訪問,之后再進(jìn)行recover datafile/tablespace,完成后用alter database datafile/tablespace ‘xxx’ online使其恢復(fù)聯(lián)機(jī)就可被訪問了。 當(dāng)然用戶也可以選擇在數(shù)據(jù)庫mount狀態(tài)下,用recover database/datafile將所有的恢復(fù)工作做完,將所有數(shù)據(jù)文件一起打開供用戶訪問。
如果丟失的數(shù)據(jù)文件是最后一種情況,即包含有回滾段的非系統(tǒng)表空間數(shù)據(jù)文件。也可以選擇是在數(shù)據(jù)庫先open的狀態(tài)還是在mount狀態(tài)下恢復(fù)。不過與上一種情況不同的是當(dāng)包含回滾段的數(shù)據(jù)文件損壞時(shí),如果使其先offline將數(shù)據(jù)庫打開,那么所有數(shù)據(jù)庫崩潰前未提交的事務(wù)涉及到的表將無法訪問,也就是說在回滾段恢復(fù)前其中涉及的對象都不允許被訪問。而且當(dāng)所有包含回滾段的數(shù)據(jù)文件都在offline狀態(tài)時(shí),數(shù)據(jù)庫無法進(jìn)行任何DML操作,因此在數(shù)據(jù)庫open狀態(tài)恢復(fù)包含回滾段的數(shù)據(jù)文件時(shí),可以先創(chuàng)建幾個臨時(shí)回滾段供數(shù)據(jù)使用create rollback segment temp1 tablespace system; alter rollback segment temp1 online;,當(dāng)數(shù)據(jù)文件恢復(fù)后再將他們刪除alter rollback segment temp1 offline; drop rollback segment temp1;。注意:當(dāng)用這種方法使恢復(fù)的數(shù)據(jù)文件online之后,所有的原有回滾段將處于offline狀態(tài),必須手工使用alter rollback segment RBSxx online;使他們恢復(fù)聯(lián)機(jī)狀態(tài),這樣才能被數(shù)據(jù)庫正常使用。如果在數(shù)據(jù)庫mount狀態(tài)下完成所有恢復(fù),則不需要上述步驟。
如果丟失數(shù)據(jù)文件后,用戶發(fā)現(xiàn)沒有故障前的數(shù)據(jù)文件的備份,而且自從丟失的數(shù)據(jù)文件最早建立之后一直沒有使用過resetlogs選項(xiàng)打開過數(shù)據(jù)庫。也就是說用戶的控制文件是在損壞的數(shù)據(jù)文件建立前創(chuàng)建的,歸檔日志中包括對損壞數(shù)據(jù)文件的所有重做記錄。用戶就還有一種恢復(fù)方法,用戶可以先將損壞的數(shù)據(jù)文件或表空間脫機(jī)alter database datafile / tablespace xxx offline,之后執(zhí)行alter database create datafile ‘new/xxx.dbf’ as ‘old/xxx.dbf’,數(shù)據(jù)庫會根據(jù)保存在控制文件中的信息重建一個空的數(shù)據(jù)文件,之后再執(zhí)行recover tablespace / datafile將所有重做記錄運(yùn)用到數(shù)據(jù)文件,使其完全恢復(fù)到當(dāng)前狀態(tài),之后便可再將其恢復(fù)聯(lián)機(jī)。
如果丟失的是最后一種文件---歸檔文件或歸檔文件所處的物理位置不可用,首先shutdown數(shù)據(jù)庫,立即作一個冷備份。然后修改ini文件中的歸檔日志文件目的路徑,重新啟動數(shù)據(jù)庫。以后再發(fā)生災(zāi)難只需從最新的備份中將相關(guān)文件恢復(fù),數(shù)據(jù)庫作recover時(shí)就不需要備份之前丟失的歸檔文件了。在Oracle 8之后的新版本中提供了log_archive_duplex_dest和log_archive_dest_1...5等參數(shù)允許保留多份歸檔文件到不同位置,甚至到遠(yuǎn)端服務(wù)器從而保證歸檔文件的可靠性。
最后再說幾點(diǎn)數(shù)據(jù)庫恢復(fù)時(shí)的注意事項(xiàng):
1.本文討論所有情況的默認(rèn)前提是數(shù)據(jù)庫運(yùn)行在歸檔(ARCHIVELOG)方式下,并只涉及到一般常見的情況和最基本的恢復(fù)方法。使用Oracle提供的恢復(fù)管理器RMAN也能完成上述任務(wù),如果運(yùn)行環(huán)境比較復(fù)雜建議使用RMAN來做備份和恢復(fù)。
2.一旦數(shù)據(jù)庫發(fā)生災(zāi)難,最好在進(jìn)行恢復(fù)之前做一次完全的冷備份,以便在進(jìn)行恢復(fù)時(shí)產(chǎn)生差錯還可以進(jìn)行補(bǔ)救。很大一部分?jǐn)?shù)據(jù)丟失是由于不正確的恢復(fù)操作所引起的。
3.當(dāng)數(shù)據(jù)庫完成恢復(fù)之后,尤其是使用resetlogs選項(xiàng)打開數(shù)據(jù)庫之后,要馬上關(guān)閉數(shù)據(jù)庫進(jìn)行一次完全的冷備份。因?yàn)椋瑸榉乐狗艞壍闹刈鋈罩颈幌麓位謴?fù)時(shí)再次運(yùn)用,resetlogs選項(xiàng)會重新創(chuàng)建redo log文件并將其的計(jì)數(shù)清零,這將使之前做的所有備份將變?yōu)椴豢捎茫ㄒ话闱闆r下)。
4.要特別注意當(dāng)進(jìn)行數(shù)據(jù)庫完全恢復(fù),從發(fā)生故障的時(shí)間點(diǎn)前的備份中恢復(fù)損壞文件時(shí),一定不要使備份中的redo log文件覆蓋了當(dāng)前的redo log文件,否則就只能進(jìn)行不完全恢復(fù)并且要丟失一部分?jǐn)?shù)據(jù)了。