📜 TIL

Charset? ASCII? UTF-8? 인코딩 방식!

둥굴둥굴둥굴레차 2021. 7. 20. 23:30

 

인코딩

encoding

사람이 읽을 수 있는 데이터를 컴퓨터가 읽을 수 있는 부호로 전환해주는 것.

 

디코딩

decoding

인코딩의 반대.

컴퓨터가 알아들을 수 있는 부호로 만들어진 문장을 사람이 읽을 수 있도록 전환해줌.



Charset (문자셋)

Character set

웹 브라우저 혹은 HTML문서가 어떠한 문자셋으로 저장되었는지 명시해놓은 속성.

인코딩을 어떤 종류의 문자셋으로 해줄지 정하는 과정. 즉, 인코딩 방식을 정하는 것.

 

예)
HTML4에서 UTF-8의 경우 : <meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
HTML5에서 UTF-8의 경우 : <meta charset="UTF-8">

 

즉, 해당 문서는 UTF-8의 문자셋으로 인코딩되었다는 의미.

 

 

 

Charset의 종류

    1. ASCII
      아스키 코드
      - 가장 처음 만들어진 문자셋
      - 127개의 영문자와 숫자로만 이루어져 있다.
      - 한글을 지원하지 않아 한글은 깨져서 나타난다.
    2. UNICODE
      유니코드
      - 아스키코드의 단점을 극복하기 위해 코드 체계
      - 각 나라별 언어를 모두 표현할 수 있다.
    3. UTF-8
      - 유니코드를 사용하는 인코딩 방식 중 하나 
      - 전세계 모든 글자들을 한꺼번에 표현할 수 있다
      - 유니코드로 충분히 한글을 지원받을 수 있음에도 불구하고 UTF-8이 나온 이유는

        영어권 사용자들은 유니코드를 사용하면 메모리 낭비가 2배가 되기때문에 이를 방지하기 위해.
      - UTF-8 유니코드는 아스키 코드와 영문 영역에서는 100% 호환됨.

        즉, UTF-8 유니코드 문서가 오로지 영문과 숫자만 포함한다면 아스키코드와 동일

 

 


 

 

🔽 Reference

 

아스키코드, 유니코드, UTF-8의 차이

인코딩 : 문자를 어떻게 출력할지에 대한 약속 숫자를 문자로 바꿈 예를 들어, 메모장에 A라고 친 다음 저장하면 실제로 하드디스크에 기록되는 정보는 65라는 숫자값. A -> 65라고 저장하도록 만

halfmoon9.tistory.com

 

 

강의노트 06. ASCII, UNICODE, utf8 · 초보몽키의 개발공부로그

패스트캠퍼스 컴퓨터공학 입문 수업을 듣고 중요한 내용을 정리했습니다. 개인공부 후 자료를 남기기 위한 목적임으로 내용 상에 오류가 있을 수 있습니다.

wayhome25.github.io