Loading...
2024. 3. 3. 00:28

unicode와 한국어 간단하게 알아보기

1. unicode 다양한 언어처리에서 기본적으로 중요함 전 세계 모든 문자를 일관되게 표현하고 다룰 수 있도록 만들어진 문자 set 문자마다 숫자 하나에 mapping? character을 보면 알겠지만 웬만한 문자들이 전부 unicode에 대응되어 있음 위 그림에서 보면 U+는 unicode를 뜻하는 접두어이고 AC00은 16진수 code point이며 이것이 1개의 character에 대응됨 2. UTF-8 encoding이란 문자를 컴퓨터에서 저장하거나 처리할 수 있게 이진수로 바꿔주는 작업 현재 가장 많이 쓰이는 encoding방식 중 하나가 UTF-8 문자 타입에 따라 다른 길이의 byte를 할당했음 ASCII는 256개로 character를 제한하면서 영어의 알파벳은 모두 ASCII code..

2022. 11. 6. 21:47

컴퓨터 과학에서 말하는 compression의 개념

1. 손실압축과 비손실압축 비손실압축은 압축된 자료를 원래 자료로 복원하면 그대로 원래 자료가 나오는 압축 방식 손실압축은 압축된 자료를 원래 자료로 복원해도 원래 자료 그대로 나올수가 없는 압축 방식 mp3같은 소리 압축 방식은 original 소리에 사람이 들어도 이해할 수 없는? 너무 저주파나 너무 고주파를 Fourier transform으로 잘라 남은 것을 합쳐 가청주파수로 만드는 방식 그러니까 복원해도 원래 original 소리로 완벽하게 나오지 않는 대표적인 손실 압축이다   2. Huffman coding message에 대한 encoding 약속이 original message의 길이에 depend하는 방식 original message에 등장을 자주하는 단어는 적은 bit로 압축하고 등장..