資料庫設計中的正規化

設計關聯式資料庫時，遵從不同的規範要求，設計出合理的關係型資料庫，這些不同的規範要求被稱為不同的正規化，各種正規化呈遞次規範，越高的正規化資料庫冗餘越小。

目前關聯式資料庫有六種正規化：第一正規化（1nf）、第二正規化（2nf）、第三正規化（3nf）、巴德斯科正規化（bcnf）、第四正規化(4nf）和第五正規化（5nf，又稱完美正規化）。滿足最低要求的正規化是第一正規化（1nf）。在第一正規化的基礎上進一步滿足更多規範要求的稱為第二正規化（2nf），其餘正規化以次類推。一般說來，資料庫只需滿足第三正規化(3nf）就行了。

所謂第一正規化（1nf）是指在關係模型中，對域新增的乙個規範要求，所有的域都應該是原子性的，即資料庫表的每一列都是不可分割的原子資料項，而不能是集合，陣列，記錄等非原子資料項。即實體中的某個屬性有多個值時，必須拆分為不同的屬性。在符合第一正規化（1nf）表中的每個域值只能是實體的乙個屬性或乙個屬性的一部分。簡而言之，第一正規化就是無重複的域。

說明：在任何乙個關聯式資料庫中，第一正規化（1nf）是對關係模式的設計基本要求，一般設計中都必須滿足第一正規化（1nf）。不過有些關係模型中突破了1nf的限制，這種稱為非1nf的關係模型。換句話說，是否必須滿足1nf的最低要求，主要依賴於所使用的關係模型。

在1nf的基礎上，非碼屬性必須完全依賴於碼[在1nf基礎上消除非主屬性對主碼的部分函式依賴]

第二正規化（2nf）是在第一正規化（1nf）的基礎上建立起來的，即滿足第二正規化（2nf）必須先滿足第一正規化（1nf）。第二正規化（2nf）要求資料庫表中的每個例項或記錄必須可以被唯一地區分。選取乙個能區分每個實體的屬性或屬性組，作為實體的唯一標識。例如在員工表中的身份證號碼即可實現每個一員工的區分，該身份證號碼即為候選鍵，任何乙個候選鍵都可以被選作主鍵。在找不到候選鍵時，可額外增加屬性以實現區分，如果在員工關係中，沒有對其身份證號進行儲存，而姓名可能會在資料庫執行的某個時間重複，無法區分出實體時，設計闢如id等不重複的編號以實現區分，被新增的編號或id選作主鍵。（該主鍵的新增是在er設計時新增，不是建庫時隨意新增）

第二正規化（2nf）要求實體的屬性完全依賴於主關鍵字。所謂完全依賴是指不能存在僅依賴主關鍵字一部分的屬性，如果存在，那麼這個屬性和主關鍵字的這一部分應該分離出來形成乙個新的實體，新實體與原實體之間是一對多的關係。為實現區分通常需要為表加上乙個列，以儲存各個例項的唯一標識。簡而言之，第二正規化就是在第一正規化的基礎上屬性完全依賴於主鍵。

在1nf基礎上，任何非主屬性不依賴於其它非主屬性[在2nf基礎上消除傳遞依賴]

第三正規化（3nf）是第二正規化（2nf）的乙個子集，即滿足第三正規化（3nf）必須滿足第二正規化（2nf）。簡而言之，第三正規化（3nf）要求乙個關係中不包含已在其它關係已包含的非主關鍵字資訊。例如，存在乙個部門資訊表，其中每個部門有部門編號（dept_id）、部門名稱、部門簡介等資訊。那麼在員工資訊表中列出部門編號後就不能再將部門名稱、部門簡介等與部門有關的資訊再加入員工資訊表中。如果不存在部門資訊表，則根據第三正規化（3nf）也應該構建它，否則就會有大量的資料冗餘。簡而言之，第三正規化就是屬性不依賴於其它非主屬性，也就是在滿足2nf的基礎上，任何非主屬性不得傳遞依賴於主屬性。

在1nf基礎上，任何非主屬性不能對主鍵子集依賴[在3nf基礎上消除對主碼子集的依賴]

巴德斯科正規化（bcnf）是第三正規化（3nf）的乙個子集，即滿足巴德斯科正規化（bcnf）必須滿足第三正規化（3nf）。通常情況下，巴德斯科正規化被認為沒有新的設計規範加入，只是對第二正規化與第三正規化中設計規範要求更強，因而被認為是修正第三正規化，也就是說，它事實上是對第三正規化的修正，使資料庫冗餘度更小。這也是bcnf不被稱為第四正規化的原因。某些書上，根據正規化要求的遞增性將其稱之為第四正規化是不規範，也是更讓人不容易理解的地方。而真正的第四正規化，則是在設計規範中新增了對多值及依賴的要求。

對於bcnf，在主碼的任何乙個真子集都不能決定於非主屬性。關係中u主碼，若u中的任何乙個真子集x都不能決定於非主屬性y，則該設計規範屬性bcnf。例如：在關係r中，u為主碼，a屬性是主碼中的乙個屬性，若存在a->y,y為非主屬性，則該關係不屬性bcnf。

一般關係型資料庫設計中，達到bcnf就可以了！

下面以乙個學校的學生系統為例分析說明，這幾個正規化的應用。

資料庫表中的字段都是單一屬性的，不可再分。這個單一屬性由基本型別構成，包括整型、實數、字元型、邏輯型、日期型等。在當前的任何關聯式資料庫管理系統（dbms）中，傻瓜也不可能做出不符合第一正規化的資料庫，因為這些dbms不允許你把資料庫表的一列再分成二列或多列。因此，你想在現有的dbms中設計出不符合第一正規化的資料庫都是不可能的。

首先我們確定一下要設計的內容包括那些。學號、學生姓名、年齡、性別、課程、課程學分、系別、學科成績，系辦位址、系辦**等資訊。為了簡單我們暫時只考慮這些字段資訊。我們對於這些資訊，說關心的問題有如下幾個方面。

學生有那些基本資訊

學生選了那些課，成績是什麼?

每個課的學分是多少

學生屬於那個系，系的基本資訊是什麼。

首先我們考慮，把所有這些資訊放到乙個表中（學號，學生姓名、年齡、性別、課程、課程學分、系別、學科成績，系辦位址、系辦**）下面存在如下的依賴關係。

(學號, 課程名稱) → (姓名, 年齡, 成績, 學分)

問題分析

因此不滿足第二正規化的要求，會產生如下問題

資料冗餘：同一門課程由n個學生選修，"學分"就重複n-1次；同乙個學生選修了m門課程，姓名和年齡就重複了m-1次。

更新異常：

1）若調整了某門課程的學分，資料表中所有行的"學分"值都要更新，否則會出現同一門課程學分不同的情況。

2）假設要開設一門新的課程，暫時還沒有人選修。這樣，由於還沒有"學號"關鍵字，課程名稱和學分也無法記錄入資料庫。

刪除異常：假設一批學生已經完成課程的選修，這些選修記錄就應該從資料庫表中刪除。但是，與此同時，課程名稱和學分資訊也被刪除了。很顯然，這也會導致插入異常。

解決方案

把選課關係表selectcourse改為如下三個表：

課程：course（課程名稱,學分）；

選課關係：selectcourse（學號，課程名稱，成績）。

（學號）→ （姓名，年齡，性別，系別，系辦位址、系辦**

但是還存在下面的決定關係

（學號） → (所在系辦）→（系辦地點，系辦**）

即存在非關鍵字段"系辦地點"、"系辦**"對關鍵字段"學號"的傳遞函式依賴。

它也會存在資料冗餘、更新異常、插入異常和刪除異常的情況。（資料的更新，刪除異常這裡就不分析了，可以參照2.1.1進行分析）

根據第三正規化把學生關係表分為如下兩個表就可以滿足第三正規化了：

學生：（學號，姓名，年齡，性別，系別）；

上面的資料庫表就是符合i，ⅱ，ⅲ正規化的，消除了資料冗餘、更新異常、插入異常和刪除異常。

資料庫設計中的正規化

資料庫設計中的正規化規範

資料庫設計正規化

資料庫設計正規化

資料庫設計中的正規化

資料庫設計中的正規化規範

資料庫設計正規化

資料庫設計正規化

相關推薦