Character Set과 인코딩

티스토리 뷰

[개발] Info/용어

Devsong26 2018. 2. 5. 22:21

Character Set (문자 집합)과 Encoding (인코딩)은 컴퓨터 시스템에서 텍스트를 저장하고 표현하는 데 필수적인 개념입니다. 이 둘은 밀접하게 연관되어 있지만, 각각 다른 역할을 합니다.

Character Set (문자 집합)

문자 집합은 컴퓨터에서 사용할 수 있는 문자들의 집합입니다. 이 집합은 알파벳, 숫자, 기타 기호 등을 포함할 수 있으며, 각 문자는 고유한 식별자를 가집니다.

예를 들어:

ASCII (American Standard Code for Information Interchange)
- 초기의 문자 집합 중 하나로, 영어 알파벳, 숫자, 일부 기호를 포함합니다.
Unicode
- 전 세계의 모든 문자 체계를 포함하기 위해 만들어진 광범위한 문자 집합. 이는 한글, 한자, 아랍 문자 등 다양한 언어의 문자를 포함합니다.

Encoding (인코딩)

인코딩은 문자 집합에 있는 문자들을 컴퓨터가 이해할 수 있는 형태, 즉 바이트로 변환하는 과정입니다. 인코딩 방식에 따라 같은 텍스트도 다른 바이트 시퀀스로 표현될 수 있습니다.

대표적인 인코딩 방식은 다음과 같습니다:

ASCII 인코딩
- ASCII 문자 집합을 사용하여 문자를 7비트 바이트로 인코딩합니다.
UTF-8 (Unicode Transformation Format - 8-bit)
- Unicode 문자 집합을 사용하며, 각 문자를 1바이트에서 4바이트 사이로 변환합니다. 가변 길이 인코딩 방식이며, 널리 사용됩니다.
UTF-16
- Unicode 문자를 2바이트 또는 4바이트로 인코딩합니다. 일부 문자는 더 많은 공간을 차지할 수 있습니다.

중요성

문자 집합과 인코딩은 다음과 같은 중요한 역할을 합니다:

결론적으로, 문자 집합과 인코딩은 디지털 환경에서 텍스트를 표현하고 처리하는 데 핵심적인 요소입니다. 이를 통해 다양한 언어와 문자 체계를 효과적으로 다룰 수 있으며, 글로벌 커뮤니케이션과 데이터 교환을 용이하게 합니다.