본문 바로가기

Info

Info - 텍스트 파일의 인코딩 종류

텍스트파일에는 여러가지 인코딩 타입이 존재한다.


프로그램에서 문자열을 다룰 때 인코딩 타입에 맞춰 다루지 않으며 문자열이 깨지는 현상이 발생한다.


인코딩 타입과 구분법을 정리한다.


1. 유니코드

 유니코드는 한글자를 2바이트로 처리하는 방식이다.

 또한 바이트 오더에 따라 표현방식이 달라진다.

 Little Endian - 문자열 앞에 "FF FE" 가 헤더로 붙는다.

 Big Endian - 문자열 앞에 "FE FF"가 헤더로 붙는다.

 (리틀엔디안과 빅엔디안은 네트워크 통신에서도 사용되는데 바이트 배열의 순서를 의미한다.)


2. UTF-8

 문자열 앞에 "EF BB BF"가 헤더로 붙는다.


3. ANSI

 기본적인 문자 방식으로 붙는 헤더는 없다.



파일을 읽었을 때 앞의 헤더를 보고 인코딩 방식을 알 수 있겠다.

'Info' 카테고리의 다른 글

Info - HPC Cluster 문서 (링크)  (0) 2016.08.31
Info - 특수기호 이름  (0) 2016.08.31
Network - 서브넷마스크  (0) 2016.08.31
Info - C++ 요약 정리  (0) 2016.08.31
Info - CPU 스케줄링  (0) 2016.08.31