기타/🚪 DB

정규화와 비정규화 탄생배경 및 장단점

둥굴둥굴둥굴레차 2021. 10. 31. 15:47

정규화 데이터베이스

  • 중복을 최소화하도록 설계된 데이터베이스.

 

장점

  • 데이터베이스 변경 시 이상 현상(Anomaly)제거
  • 데이터 구조의 안정성 및 무결성 유지

단점

  • 테이블이 아주 클 경우 릴레이션 간의 JOIN 연산 증가→ 이로 인한 질의에 대한 응답 시간 저하

 


 

중복된 정보로 인해 발생하는 문제들을 이상 현상(Anomaly)이라 말한다.


- 삽입 이상(Insertion Anomaly) : 원하지 않는 자료가 삽입된다든지, 삽입하는데 자료가 부족해 삽입이 되지 않아 발생하는 문제점을 말한다.
- 삭제 이상(Deletion Anomaly) : 하나의 자료만 삭제하고 싶지만, 그 자료가 포함된 튜플 전체가 삭제됨으로 원하지 않는 정보 손실이 발생하는 문제점을 말한다.
- 갱신 이상(Modification Anomaly) : 정확하지 않거나 일부의 튜플만 갱신되어 정보가 모호해지거나 일관성이 없어져 정확한 정보 파악이 되지 않는 문제점을 말한다.

→ 이상 현상은 정규화를 통해 방지할 수 있다.


 

 

비정규화 데이터베이스

관계형 데이터베이스(relational database)를 사용하는 경우,

  • 읽는 시간을 최적화하도록 설계된 데이터베이스.
  • 개발 및 운영의 편의성 등을 위해 의도적으로 정규화 원칙을 위배하는 행위.

 

장점

  • 빠른 데이터 조회→ JOIN 연산의 비용을 줄일 수 있다.

단점

  • 반정규화를 과도하게 적용하다 보면 데이터의 무결성이 깨질 수 있다.

 


 

정규화(Normalized) 탄생배경

관계형 데이터베이스에서 중복을 최소화하기 위해 데이터를 구조화하는 작업이다.
좀 더 구체적으로는 하나의 종속성이 하나의 릴레이션에 표현될 수 있도록 분해해가는 과정이라 할 수 있다.

한 릴레이션에 여러 Entity의 Attribute들을 혼합하게 되면 정보가 중복 저장되며, 저장 공간을 낭비하게 된다. 또한 중복된 정보로 인해 '갱신 이상'이 발생하게 된다. 동일한 정보를 한 릴레이션에는 변경하고, 나머지 릴레이션에서는 변경하지 않은 경우 어느 것이 정확한지 알 수 없게 되는 것이다.

 

이러한 문제를 해결하기 위해 정규화 과정을 거친다. 정규화 과정을 거치게 되면 정규형을 만족하게 된다.

  • 정규형
    • 특정 조건을 만족하는 릴레이션의 스키마의 형태
    • 제1 정규형, 제2 정규형, 제3 정규형, BCNF형, 제4 정규형, 제5 정규형이 존재한다.
    • 차수가 높아질수록 만족시켜야 할 제약 조건이 늘어난다.

 

정규화의 원칙

  1. 정보의 무손실 표현→ 하나의 스키마를 다른 스키마로 변환할 때 정보의 손실이 있어서는 안 된다.
  2. 분리의 원칙→ 하나의 독립된 관계성은 하나의 독립된 릴레이션으로 분리시켜 표현해야 한다.
  3. 데이터의 중복성이 감소되어야 한다.

 

 

비정규화(반정규화) 탄생배경

하나 이상의 테이블에 데이터를 중복해 배치하는 최적화 기법이다.

예를 들어, Courses와 Teachers라는 테이블로 이루어진 정규화된 데이터베이스를 생각해 보자.

Courses 테이블에는 teacherlD를 둘 수는 있어도, teacherName이라는 필드를 두지는 않을 것이다.

따라서 강좌 정보와 교사 이름을 함께 나열하고 싶은 경우에는 두 테이블을 조인해야 한다.


어떤 면에서는 멋진 방법이다. 교사가 자신의 이름을 바꿀 경우, 한 곳의 데이터만 갱신하면 된다.

하지만 이 방법의 단점은 테이블이 아주 클 경우 조인을 하느라 불필요할 정도로 많은 시간을 낭비하게 된다는 것이다.

 

비정규화는 다른 타협안을 내놓음으로써 그런 단점을 해소하고자 한다. 어느 정도의 데이터 중복이나 그로 인해 발생하는 데이터 갱신 비용은 감수하는 대신 조인 횟수를 줄여 한층 효율적인 쿼리를 날릴 수 있도록 하겠다는 것이다.

 

비정규화 대상

  1. 자주 사용되는 테이블에 액세스하는 프로세스의 수가 가장 많고, 항상 일정한 범위만을 조회하는 경우
  2. 테이블에 대량 데이터가 있고 대량의 범위를 자주 처리하는 경우, 성능 상 이슈가 있을 경우
  3. 테이블에 지나치게 조인을 많이 사용하게 되어 데이터를 조회하는 것이 기술적으로 어려울 경우

 


🔽 REFERENCE

 

[데이터베이스] 정규화 vs. 비정규화(반정규화)

💡 정규화 vs. 비정규화(반정규화) 데이터베이스 정규화 데이터베이스 비정규화 데이터베이스 비정규화(Denormalization, 반정규화)란 무엇인가? 장점, 단점 비정규화 대상 주의점 정규화(Normalized)란

owlyr.tistory.com