[데이터베이스] 1. 데이터베이스 기본 개념
by 콰이엇김연희 저자님의 "데이터베이스 개론" 책을 학습하고 정리한 글입니다.
1. 데이터베이스의 필요성
📌 데이터와 정보
- 데이터(Data) : 현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실(fact) 또는 값(value)
- 정보(Information) : 데이터를 의사 결정에 유용하게 활용할 수 있도록 처리하여 체계적으로 조직한 결과물
📌 정보 처리 (Information processing)
데이터에서 정보를 추출하는 과정 또는 방법
- 즉, 정보 처리는 데이터를 상황에 맞게 분석하거나 해석하여 데이터 간의 의미를 파악하는 것
📌 정보 시스템 (Information system)
조직 운영에 필요한 데이터를 수집하여 저장해두었다가 의사 결정이 필요할 때 처리하여 유용한 정보를 만들어주는 수단
- 정보 시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 핵심 역할은 데이터베이스가 담당한다.
2. 데이터베이스의 정의와 특징
📌 데이터베이스 (Database)
특정 조직의 여러 사용자가 공유하여 사용할 수 있도록 통합해서 저장한 운영 데이터의 집합
- 특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있어야 한다.
- 똑같은 데이터가 여러 개 존재하는 것을 허용하지 않는다.
- 컴퓨터가 접근할 수 있는 매체에 데이터베이스를 저장해야 한다.
- 데이터를 일시적으로 사용하고 미는 것이 아닌, 지속적으로 유지해야 한다.
✍🏻 데이터베이스의 특징
- 실시간 접근 (Real-time accessibility)
- 데이터베이스는 사용자의 데이터 요구에 실시간으로 응답할 수 있어야 한다.
- 실시간 처리의 응답시간은 상황에 따라 다르지만, 대개 몇 초를 넘지 않는 시간에 데이터를 제공할 수 있어야 한다.
- 지속적인 변화 (Continuous evolution)
- 데이터베이스는 현실 세계의 상태를 정확히 반영하기 위해 계속 변해야 한다.
- 동적인 특징이 있어 데이터를 삽입, 삭제, 수정하여 현재의 정확한 데이터를 유지해야 한다.
- 동시 공유 (Concurrent sharing)
- 데이터베이스는 여러 사용자가 동시에 이용할 수 있어야 한다.
- 동시 공유는 여러 사용자가 서로 다른 데이터를 동시에 사용하는 것뿐 아니라, 같은 데이터를 동시에 사용하는 것도 모두 지원한다는 의미이다.
- 내용 참조 (Content reference)
- 데이터베이스는 저장된 주소나 위치가 아닌 데이터의 내용(content), 즉 값(value)으로 참조할 수 있다.
- 찾고자 하는 데이터의 내용 조건만 제시하면 조건에 맞는 데이터가 서로 다른 위치에 있어도 모두 검색할 수 있다.
3. 데이터 과학 시대의 데이터
3-1. 형태에 따른 데이터 분류
📌 정형 데이터 (Structured data)
구조화된 데이터, 즉 미리 정해진 구조에 따라 저장된 데이터
- 엑셀의 스프레드시트, 관계 데이터베이스의 테이블 등
📌 반정형 데이터 (Semi-structured data)
구조에 따라 저장된 데이터이지만, 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 포함된 데이터
- 데이터 내용에 대한 설명, 즉 구조를 파악하는 파싱(parsing) 과정이 필요하고 보통 파일 형태로 저장된다.
- HTML, XML, JSON 문서 또는 웹 로그, 센서 데이터 등
📌 비정형 데이터 (Unstructured data)
정해진 구조가 없이 저장된 데이터
- 소셜 데이터의 텍스트, 영상, 이미지, 음성, 워드 또는 PDF 문서 등 멀티미디어 데이터
3-2. 특성에 따른 데이터 분류
📌 범주형 데이터 (Categorical data)
범주로 구분할 수 있는 값, 즉 종류를 나타내는 값
- 명목형 데이터(nominal data) : 순서, 서열이 없는 값을 가지는 데이터 (성별, MBTI 등)
- 순서형 데이터(ordinal data) : 순서, 서열이 있는 값을 가지는 데이터
- 학년처럼 숫자를 포함하여 값을 포함하기는 하지만 '1학년 + 2학년'처럼 값들 간의 덧셈 연산이 가능하지 않다.
📌 수치형 데이터 (Numerical data)
양적 측면에서 크기 비교와 산술적인 연산이 가능한 숫자 값을 가진 데이터, 양적 데이터라고도 한다.
- 이산형 데이터(Discrete data) : 이어지지 않고 단절된 숫자 값을 가지는 데이터
- 개수를 셀 수 있는 고객 수, 판매량, 합격자 수처럼 보통 소수점이 없는 정수 타입의 값으로 표현
- 연속형 데이터(Continuous data) : 연속적으로 이어진 숫자 값을 가지는 데이터
- 측정을 통해 얻어지는 키, 몸무게, 온도, 점수와 같이 소수점이 있는 실수 타입의 값으로 표현
참고자료
'컴퓨터과학 > 데이터베이스' 카테고리의 다른 글
[데이터베이스] 7. 데이터베이스 언어 SQL (0) | 2024.11.26 |
---|---|
[데이터베이스] 4. 데이터 모델링 (0) | 2024.11.19 |
[데이터베이스] 3. 데이터베이스 시스템 (0) | 2024.11.18 |
[데이터베이스] 2. 데이터베이스 관리 시스템 (0) | 2024.11.14 |
블로그의 정보
콰이엇의 개발기록
콰이엇