Info - 텍스트 파일의 인코딩 종류

텍스트파일에는 여러가지 인코딩 타입이 존재한다.

프로그램에서 문자열을 다룰 때 인코딩 타입에 맞춰 다루지 않으며 문자열이 깨지는 현상이 발생한다.

인코딩 타입과 구분법을 정리한다.

1. 유니코드

유니코드는 한글자를 2바이트로 처리하는 방식이다.

또한 바이트 오더에 따라 표현방식이 달라진다.

Little Endian - 문자열 앞에 "FF FE" 가 헤더로 붙는다.

Big Endian - 문자열 앞에 "FE FF"가 헤더로 붙는다.

(리틀엔디안과 빅엔디안은 네트워크 통신에서도 사용되는데 바이트 배열의 순서를 의미한다.)

2. UTF-8

문자열 앞에 "EF BB BF"가 헤더로 붙는다.

3. ANSI

기본적인 문자 방식으로 붙는 헤더는 없다.

파일을 읽었을 때 앞의 헤더를 보고 인코딩 방식을 알 수 있겠다.

Sleep