unicode와 한국어 간단하게 알아보기
1. unicode 다양한 언어처리에서 기본적으로 중요함 전 세계 모든 문자를 일관되게 표현하고 다룰 수 있도록 만들어진 문자 set 문자마다 숫자 하나에 mapping? character을 보면 알겠지만 웬만한 문자들이 전부 unicode에 대응되어 있음 위 그림에서 보면 U+는 unicode를 뜻하는 접두어이고 AC00은 16진수 code point이며 이것이 1개의 character에 대응됨 2. UTF-8 encoding이란 문자를 컴퓨터에서 저장하거나 처리할 수 있게 이진수로 바꿔주는 작업 현재 가장 많이 쓰이는 encoding방식 중 하나가 UTF-8 문자 타입에 따라 다른 길이의 byte를 할당했음 ASCII는 256개로 character를 제한하면서 영어의 알파벳은 모두 ASCII code..