콰이엇의 개발기록

[데이터베이스] 1. 데이터베이스 기본 개념

by 콰이엇
김연희 저자님의 "데이터베이스 개론" 책을 학습하고 정리한 글입니다.

 

1. 데이터베이스의 필요성

📌 데이터와 정보

  • 데이터(Data) : 현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실(fact) 또는 값(value)
  • 정보(Information) : 데이터를 의사 결정에 유용하게 활용할 수 있도록 처리하여 체계적으로 조직한 결과물

 

📌 정보 처리 (Information processing)

데이터에서 정보를 추출하는 과정 또는 방법

  • 즉, 정보 처리는 데이터를 상황에 맞게 분석하거나 해석하여 데이터 간의 의미를 파악하는 것

 

📌  정보 시스템 (Information system)

조직 운영에 필요한 데이터를 수집하여 저장해두었다가 의사 결정이 필요할 때 처리하여 유용한 정보를 만들어주는 수단

  • 정보 시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 핵심 역할은 데이터베이스가 담당한다.

 

2. 데이터베이스의 정의와 특징

📌 데이터베이스 (Database)

특정 조직의 여러 사용자가 공유하여 사용할 수 있도록 통합해서 저장운영 데이터의 집합

  • 특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있어야 한다.
  • 똑같은 데이터가 여러 개 존재하는 것을 허용하지 않는다.
  • 컴퓨터가 접근할 수 있는 매체에 데이터베이스를 저장해야 한다.
  • 데이터를 일시적으로 사용하고 미는 것이 아닌, 지속적으로 유지해야 한다.

 

✍🏻 데이터베이스의 특징

  1. 실시간 접근 (Real-time accessibility)
    • 데이터베이스는 사용자의 데이터 요구에 실시간으로 응답할 수 있어야 한다.
    • 실시간 처리의 응답시간은 상황에 따라 다르지만, 대개 몇 초를 넘지 않는 시간에 데이터를 제공할 수 있어야 한다.
  2. 지속적인 변화 (Continuous evolution)
    • 데이터베이스는 현실 세계의 상태를 정확히 반영하기 위해 계속 변해야 한다.
    • 동적인 특징이 있어 데이터를 삽입, 삭제, 수정하여 현재의 정확한 데이터를 유지해야 한다.
  3. 동시 공유 (Concurrent sharing)
    • 데이터베이스는 여러 사용자가 동시에 이용할 수 있어야 한다.
    • 동시 공유는 여러 사용자가 서로 다른 데이터를 동시에 사용하는 것뿐 아니라, 같은 데이터를 동시에 사용하는 것도 모두 지원한다는 의미이다.
  4. 내용 참조 (Content reference)
    • 데이터베이스는 저장된 주소나 위치가 아닌 데이터의 내용(content), 즉 값(value)으로 참조할 수 있다.
    • 찾고자 하는 데이터의 내용 조건만 제시하면 조건에 맞는 데이터가 서로 다른 위치에 있어도 모두 검색할 수 있다.

 

3. 데이터 과학 시대의 데이터

3-1. 형태에 따른 데이터 분류

 

📌 정형 데이터 (Structured data)

구조화된 데이터, 즉 미리 정해진 구조에 따라 저장된 데이터

  • 엑셀의 스프레드시트, 관계 데이터베이스의 테이블 등

📌 반정형 데이터 (Semi-structured data)

구조에 따라 저장된 데이터이지만, 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 포함된 데이터

  • 데이터 내용에 대한 설명, 즉 구조를 파악하는 파싱(parsing) 과정이 필요하고 보통 파일 형태로 저장된다.
  • HTML, XML, JSON 문서 또는 웹 로그, 센서 데이터 등

📌 비정형 데이터 (Unstructured data)

정해진 구조가 없이 저장된 데이터

  • 소셜 데이터의 텍스트, 영상, 이미지, 음성, 워드 또는 PDF 문서 등 멀티미디어 데이터

 

3-2. 특성에 따른 데이터 분류

📌 범주형 데이터 (Categorical data)

범주로 구분할 수 있는 값, 즉 종류를 나타내는 값

  • 명목형 데이터(nominal data) : 순서, 서열이 없는 값을 가지는 데이터 (성별, MBTI 등)
  • 순서형 데이터(ordinal data) : 순서, 서열이 있는 값을 가지는 데이터
    • 학년처럼 숫자를 포함하여 값을 포함하기는 하지만 '1학년 + 2학년'처럼 값들 간의 덧셈 연산이 가능하지 않다.

📌 수치형 데이터 (Numerical data)

양적 측면에서 크기 비교와 산술적인 연산이 가능한 숫자 값을 가진 데이터, 양적 데이터라고도 한다.

  • 이산형 데이터(Discrete data) : 이어지지 않고 단절된 숫자 값을 가지는 데이터
    • 개수를 셀 수 있는 고객 수, 판매량, 합격자 수처럼 보통 소수점이 없는 정수 타입의 값으로 표현
  • 연속형 데이터(Continuous data) : 연속적으로 이어진 숫자 값을 가지는 데이터
    • 측정을 통해 얻어지는 키, 몸무게, 온도, 점수와 같이 소수점이 있는 실수 타입의 값으로 표현

 

참고자료

블로그의 정보

콰이엇의 개발기록

콰이엇

활동하기