stack 활용법 필수편 2

1. 문제

 

https://programmers.co.kr/learn/courses/30/lessons/60057

 

코딩테스트 연습 - 문자열 압축

데이터 처리 전문가가 되고 싶은 "어피치"는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다. 최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데, 문

programmers.co.kr

 

데이터 처리 전문가가 되고 싶은 어피치는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다.

 

최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데,

 

문자열에서 같은 값이 연속해서 나타나는 것을 그 문자의 개수와 반복되는 값으로 표현하여 더 짧은 문자열로 줄여서 표현하는 알고리즘을 공부하고 있습니다.

 

간단한 예로 "aabbaccc"의 경우 "2a2ba3c"(문자가 반복되지 않아 한번만 나타난 경우 1은 생략함)와 같이 표현할 수 있는데, 이러한 방식은 반복되는 문자가 적은 경우 압축률이 낮다는 단점이 있습니다.

 

예를 들면, "abcabcdede"와 같은 문자열은 전혀 압축되지 않습니다. "어피치"는 이러한 단점을 해결하기 위해 문자열을 1개 이상의 단위로 잘라서 압축하여 더 짧은 문자열로 표현할 수 있는지 방법을 찾아보려고 합니다.

 

예를 들어 "ababcdcdababcdcd"의 경우 문자를 1개 단위로 자르면 전혀 압축되지 않지만, 2개 단위로 잘라서 압축한다면 "2ab2cd2ab2cd"로 표현할 수 있습니다.

 

다른 방법으로 8개 단위로 잘라서 압축한다면 "2ababcdcd"로 표현할 수 있으며, 이때가 가장 짧게 압축하여 표현할 수 있는 방법입니다.

 

다른 예로, "abcabcdede"와 같은 경우, 문자를 2개 단위로 잘라서 압축하면 "abcabc2de"가 되지만, 3개 단위로 자른다면 "2abcdede"가 되어 3개 단위가 가장 짧은 압축 방법이 됩니다. 

 

이때 3개 단위로 자르고 마지막에 남은 문자열은 그대로 붙여주면 됩니다.

 

압축할 문자열 s가 매개변수로 주어질 때, 위에 설명한 방법으로 1개 이상 단위로 문자열을 잘라 압축하여 표현한 문자열 중 가장 짧은 것의 길이를 return하도록 solution 함수를 완성하세요.

 

2. 제한사항

 

s의 길이는 1이상 1000이하

 

s는 알파벳 소문자로만 이루어진 문자열

 

3. 입출력 예시

 

그림1. 입출력 예시

 

4. 나의 풀이

 

이전에 배운대로 문자를 앞에서부터 하나씩 빼서 빈 stack에 집어 넣은 뒤에 

 

비교할 타이밍에 stack에 들어간 문자와 비교해서 같은지 다른지 판단한다

 

먼저 필요한 길이 변수를 초기화함

 

def solution(s):
    
    from collections import deque
    
    deque_s = deque(list(s))
    
    len_s = len(s)
    
    min_len_s = len_s

 

문자를 하나씩 뺄거니까 deque가 유리하고 문자열의 길이는 최대가 len(s)이니까 min_len_s를 len(s)로 초기화하는거

 

자르는 단위를 1부터 최대 길이인 len_s까지 for문을 돌면서 최소 길이가 되는 문자열을 찾는 전략을 사용

 

    for remove in range(1,len_s+1):
        
        str_stack = deque()
        
        same_num = 1
        
        stop = True

 

이제 자르는 단위가 저장된 remove를 이용해서 deque_s에서 왼쪽부터 문자를 하나씩 뺄거임

 

        while stop:
            
            char = ''
            
            for _ in range(remove):
                
                try:

                    char = char + deque_s.popleft()
                
                except:
                    
                    stop = False
                    
                    break

 

try ~ except ~ 하는 이유는 deque_s에서 하나씩 뺄건데

 

입출력 예시 설명에서도 나왔듯이 길이가 안맞아서 더이상 뺄 수 없는 경우가 분명 생기거든

 

그런 경우에는 에러가 나기 때문에 except문으로 옮겨서 stop 지시변수를 False로 변경하고 반복문을 더 이상 돌지 말라고 만드는거

 

              try:

                before_char = str_stack[-1]
                
                if before_char == char:
                    
                    same_num += 1
                
                else:
                    
                    if same_num > 1:
                        
                        before_char = str_stack.pop()
                        
                        str_stack.append(str(same_num)+before_char)
                        
                        str_stack.append(char)
                    
                    else:
                        
                        str_stack.append(char)
                        
                    same_num = 1
                    

            except:

                str_stack.append(char)

 

다음으로 문자를 잘라서 char로 얻었으면 이제 압축이 가능한지 검사를 해야함

 

try~except~ 문을 이용해서 before_char = str_stack[-1] 문을 수행하도록 만든다

 

str_stack에 문자가 쌓여있다면 압축이 가능한지 검사를 한다는 의미

 

문자가 stack에 없다면 에러가 나서 except로 이동할거임

--------------------------------------------------------------------------------------------------------------------------

 

 

else:
                    
      if same_num > 1:

          before_char = str_stack.pop()

          str_stack.append(str(same_num)+before_char)

          str_stack.append(char)

 

아무튼 stack에 문자가 존재한다면 before_char과 자른 문자 char을 비교해서 같으면 same_num에 1을 더해주고

 

stack에 before_char은 계속 남겨두고 char만 없앤다는 의미로 stack에 넣지 않음

 

반복문을 돌면서 비교했는데 문자가 다른 순간이 된다면 더 이상 before_char은 압축이 안되는 것이므로

 

이제 before_char 앞에 same_num을 붙여서 압축을 해야하는 것인데

 

same_num이 1보다 큰 경우는 압축을 그만큼 했다는 의미니까 str_stack에 있는 문자 before_char을 pop으로 빼내고

 

압축시킨다는 의미로 str(same_num)+before_char을 넣어줌

 

그 다음에 압축이 안되는 char은 다음 문자와 비교해서 압축되는지 검사해야하니까 str_stack에 넣어주는것

 

-----------------------------------------------------------------------------------------------------------------------

 

예를 들어 abcabcdef.........에서 abc와 abc가 비교되면서 same_num=2가 되는 것이고 before_char=abc로 여전히 있는데

 

다음 반복에서 before_char = abc가 되고 char=def로 before_char과 char이 다르다는 것

 

그러면 same_num=2니까 2abc를 str_stack에 넣어주고 char=def도 str_stack에 넣어줌

 

그러면 이제 다음 반복부터는 str_stack의 마지막 def와 문자열 ......에서 비교가 될거임

 

-------------------------------------------------------------------------------------------------------------------------

 

else:
                        
    str_stack.append(char)

same_num = 1

 

하지만 same_num=1인 경우는 before_char 앞에 숫자를 안붙일거고 str_stack안에 before_char이 존재하고있는 상태니까

 

char만 str_stack에 넣어줄거임

 

위 검사 과정이 끝나면 same_num은 1로 초기화함

 

except:

                str_stack.append(char)

 

try: except를 쓴 이유는 첫 반복때는 str_stack이 빈상태라서 str_stack[-1]이 존재하지 않으니까 자른 단위인 char을 str_stack에 넣어주는 것으로만 끝나거든

 

 

        compress_str = len(''.join(list(str_stack)))
        
        
        if min_len_s >= compress_str:
            
            min_len_s = compress_str
        
            
        deque_s = deque(list(s))
            
    return min_len_s

 

while 반복문이 끝나면 remove 단위로 자른 문자열 stack인 str_stack이 있을 것이고 deque니까 리스트로 바꾼다음에

 

문자열로 만들어서 길이를 구한 것을 compress_str로 하고

 

현재 순간의 최소 길이인 min_len_s와 비교해서 compress_str이 작거나 같으면 최솟값을 갱신함

 

compress_str의 길이 비교 과정이 끝나면 deque_s를 다시 초기화 하고 새로운 remove 단위로 반복을 할거임

 

모든 반복문이 끝나고 얻은 min_len_s는 최솟값이니까 return

 

 

5. 다른 풀이

 

가장 좋아요를 많이 받은 풀이 분석

 

def compress(text, tok_len):
    
    words = [text[i:i+tok_len] for i in range(0, len(text), tok_len)]
    
    res = []
    
    cur_word = words[0]
    
    cur_cnt = 1

 

compress함수를 먼저 만드는 것 같다

 

문자열과 자르는 단위 tok_len을 받아서..

 

words = [text[i:i+tok_len] for i in range(0, len(text), tok_len)]

 

이거는 이제 tok_len 단위로 문자열 text를 잘라서 리스트로 만드는 거네

 

cur_word=words[0] 부터 시작해서 다음 단어들과 비교해서 cur_cnt=1의 값을 늘려갈거임

 

for a, b in zip(words, words[1:] + ['']):
        
        if a == b:
            
            cur_cnt += 1
            
        else:
            
            res.append([cur_word, cur_cnt])
            
            cur_word = b
            
            cur_cnt = 1

 

앞단어와 다음 단어 비교할 때 words랑 words[1:]+['']을 zip으로 묶어서 for문을 돌아버리네

 

이러면 예를 들어서 words = ['a','b','b','a','c','c','c']라고 하면 words[1:]+[''] = ['b','b','a','c','c','c','']

 

이렇게 되어가지고 words와 words[1:]+['']는 서로 길이도 동일하면서

 

첫단어와 다음단어를 비교할 수 있는 효과를 가지게 된다

 

그래서 첫단어 a와 다음단어 b를 가져와서 a와 b가 같으면 압축이 되는거니까 cur_cnt에 1을 더하고

 

a와 b가 다른 순간이 오면 압축이 더 이상 안되는 거니까

 

res로 만든 리스트에 cur_word와 cur_cnt를 리스트 형태로 동시에 넣어놓고

 

이제 다음 압축 대상을 b로 옮긴 다음에 cur_cnt는 1로 초기화하네

 

words = ['a','b','b','a','c','c','c'] 이런 경우라면 res = [ ['a',1],['b',2],['a',1],['c',3] ]

 

return sum(len(word) + (len(str(cnt)) if cnt > 1 else 0) for word, cnt in res)

 

그러면 이제 res에서 word와 cnt를 하나씩 빼면서 for문을 돌거임

 

cnt>1인 경우는 word에 숫자를 붙일거니까 숫자 길이랑 word 길이의 합을 길이로 구해야할거고

 

cnt = 1인 경우는 숫자 길이를 더하지 않으니까 0을 더한다는 의미

 

len(word) + (len(str(cnt)) if cnt > 1 else 0

 

이 문장은 len(word)에다가 cnt>1이면 len(str(cnt))를 더하는거고 cnt=1이면 0을 더하라는 의미임

 

이러면 이제 text를 tok_len으로 자른 단위의 압축 문자열의 길이를 구해주는거네

 

 

def solution(text):
    
    return min(compress(text, tok_len) for tok_len in list(range(1, int(len(text)/2) + 1)) + [len(text)])

 

그러면 자르는 단위 tok_len을 1부터 int(len(text)/2) 까지 반복을 해서 압축 문자열의 길이들과

 

원래 문자열의 길이인 len(text)와 비교해서 최솟값을 구하네??

 

근데 왜 절반까지만 돌아도 되는걸까??

 

오 마이갓

 

자르는 단위가 원래 문자열 길이의 절반보다 크기 시작하면 더 이상 압축이 안되는구나

 

abcabcdefg를 생각해보면 len=10인데 5단위로 자르면 abcab  cdefg 2덩이만 나오고

 

5단위보다 크기 시작하면 abcabc   defg로 길이가 서로 안맞으니까 압축이 절대 안되겠네??

 

아무 생각없이 해버린거구나

 

 

6. 되돌아보기

 

stack 활용하는 기술 한번 했지만 다시 한번 복습한다는 생각으로 다시 한번 기억

 

앞에 문자와 이후 문자 비교할 때 빈 stack 만들어서 stack에 문자 넣어두다가

 

비교하는 타이밍이면 stack에 들어간 문자랑 빼고 있는 문자 비교한다는 원리

 

deque에서 pop을 할 때 에러나는 경우 자주 생기는데 if문도 있겠지만 try except로도 처리가 가능하네

 

마지막에 자르는 단위를 1부터 문자열 전체 길이까지 검사할 필요 없이 절반까지만 검사해도 된다는 사실

 

이런건 디테일한 부분이지만 효율성에서 중요할 수 있거든

 

생각없이 하면 안된다는 거지

 

try ~ except도 잘 활용하면 좋을 수 있고

 

또 하나 잡기술로 zip을 이용해서 앞단어와 다음단어 비교할 때 words와 words[1:]랑 zip을 하는 것이 아니라

 

words와 words[1:]+['']을 비교하면 서로 길이가 같은 리스트로 zip을 묶을 수 있다

 

 

'알고리즘 > 알고리즘 일반' 카테고리의 다른 글

stack 필수 활용 기술 3  (0) 2021.11.27
재귀함수 활용하기  (0) 2021.11.26
수학 공식을 활용한 알고리즘  (0) 2021.11.25
탐욕법 활용 기초편  (0) 2021.11.23
시간 다루기  (0) 2021.11.22
TAGS.

Comments