통계학 세상
close
프로필 배경
프로필 로고

통계학 세상

  • 분류 전체보기 (1482)
    • 다시보는 통계학 (28)
    • 딥러닝 (306)
      • 딥러닝 기초 (63)
      • Computer Vision (76)
      • NLP (59)
      • Machine Reading Comprehensi.. (21)
      • light weight modeling (47)
      • Graph (17)
      • recommendation system (7)
      • reinforcement learning (2)
      • LLM (6)
      • Deep Learning Specializatio.. (7)
      • Diffusion (1)
    • AI 논문 (45)
      • AI trend research (42)
      • 고전이 된 AI 논문 (3)
    • 데이터 분석 프로젝트 연습 (0)
    • 프로그래밍 (291)
      • 프로그래밍 개론 (7)
      • Python (79)
      • Java (15)
      • C++ (9)
      • C# (0)
      • 비전공자를 위한 자바스크립트 (8)
      • Pandas (10)
      • Numpy (8)
      • Pytorch (30)
      • SQL (23)
      • Unity&C# (27)
      • Tensorflow.js (2)
      • git 가이드 (10)
      • 비전공자를 위한 Web (4)
      • React (17)
      • node.js (17)
      • FastAPI (7)
      • docker & jenkins (10)
      • R 프로그래밍 (8)
    • 알고리즘 (500)
      • 알고리즘 일반 (61)
      • Java 기초 (22)
      • C++ 기초 (22)
      • 브루트포스 (22)
      • DFS BFS 정복기 (28)
      • 그래프 이론 정복기 (21)
      • 분리집합 (7)
      • 최단거리 알고리즘 (21)
      • 최소 스패닝 트리 (5)
      • 다이나믹 프로그래밍 (64)
      • 구현,시뮬레이션 (11)
      • 이분 탐색 (17)
      • 정렬 알고리즘 (9)
      • 그리디 알고리즘 (30)
      • 투 포인터 알고리즘 (9)
      • 누적 합 알고리즘 (14)
      • 문자열 알고리즘 (17)
      • 자료구조(스택,큐,해시맵) (14)
      • 순열 사이클 분할 (1)
      • 슬라이딩 윈도우 (2)
      • 연결리스트 (3)
      • 분할 정복 (4)
      • 위상정렬 (3)
      • 세그먼트 트리 (14)
      • 유량 알고리즘 (1)
      • 이분 매칭 (2)
      • 고급 자료구조 (3)
      • 희소배열(더블링) (2)
      • 전처리 (1)
      • 게임이론 (8)
      • 비트마스킹 (8)
      • 애드 혹 알고리즘 (33)
      • 중간에서 만나기 (4)
      • 확률론 알고리즘 (3)
      • 선형대수학 알고리즘 (3)
      • 압축 알고리즘 (2)
      • 오프라인 쿼리 (1)
      • 정밀도 (3)
      • 재귀 연습장 (1)
      • 비둘기집 원리 (2)
      • 휴리스틱 (1)
      • 고급 알고리즘 (1)
      • 알고리즘 논문 (0)
    • 경쟁 프로그래밍 (22)
      • Atcoder (22)
    • 책 읽기 (79)
      • 비전공자도 이해할 수 있는 AI지식 (51)
      • 수학보다 데이터 문해력 (28)
    • 3D 모델링 (0)
      • blender (0)
    • 정수론 (75)
    • 선형대수학 (28)
    • 조합론 (11)
    • 정형데이터 (25)
    • 정보이론 (3)
    • Visualization (7)
    • 기하학 (29)
    • 컴퓨터과학(CS) (13)
    • 대수학 (4)
    • 데이터 해석 (6)
    • 금융 (1)
    • 읽을거리 (9)
  • 홈
  • 태그
  • 방명록
Vanilla RNN에서 hidden vector로 예측값을 만드는 과정

Vanilla RNN에서 hidden vector로 예측값을 만드는 과정

hidden vector의 차원은 hyperparameter이다. 여기서는 2차원이라고 가정해보자. 3차원의 입력벡터 $X_{t}$가 들어가고 2차원의 hidden state vector인 $h_{t-1}$이 RNN의 입력으로 들어간다고 해보자. 처음에는 $X_{t}$와 $h_{t-1}$이 concatenation되어 hidden layer에 fully connected 된다. 당연하지만 $h_{t-1}$이 2차원이기때문에 $h_{t}$를 뽑아내는 layer의 차원도 2차원이다. hidden layer의 선형변환 W와 입력벡터의 곱 WX에 nonlinear activation인 tanh(WX)로 $h_{t}$가 뽑힌다. Vanilla RNN이 실제로 tanh()를 activate function으로 썼다..

  • format_list_bulleted 딥러닝/NLP
  • · 2023. 7. 11.
  • textsms
NLP에서 language model의 역사 훑어보기

NLP에서 language model의 역사 훑어보기

1. language model 앞의 주어진 문맥을 활용해 다음에 나타날 단어를 예측하는 모델 사람의 언어를 이해하는 것은 쉬운 일은 아니지만 통계적 관점, 딥러닝적 관점에서 문맥이 주어질 때 다음 단어를 잘 예측했다면 언어의 패턴을 잘 학습한 것이다. 2. 확률적 관점 언어 모델은 문장에 대한 확률을 부여하는 task 조건부확률을 이용하여 생성확률을 부여 ’오늘은 햇살이 좋다’라는 문장에 대한 확률은 ‘오늘은’이 먼저 나올 확률에 ‘오늘은’이 주어질때 ‘햇살이’가 나타날 확률에 ‘오늘은 햇살이’ 주어질 때 ‘좋다’가 나타날 확률을 곱한 것 3. RNN을 활용한 예측 x는 input이고 y는 현재 시점의 예측값, h는 각 시점에서 모델이 기억하는 잠재적인 정보 U,V,W는 RNN의 parameter 이전..

  • format_list_bulleted 딥러닝/NLP
  • · 2023. 5. 8.
  • textsms
논문읽으면서 Variational Autoencoder 복기

논문읽으면서 Variational Autoencoder 복기

A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music | Papers With Code Papers with Code - A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music Implemented in 7 code libraries. paperswithcode.com 기본적으로 우리 모델은 autoencoder이며, 다시 말해 정확하게 input을 reconstruct하는 것을 목표로 한다. 그러나 우리는 추가적으로 새로운 sample을 만들어내고 잠재 공간의 interpolation과 attribute vector의 연산을 수행하길 원한..

  • format_list_bulleted AI 논문/고전이 된 AI 논문
  • · 2023. 4. 25.
  • textsms
text data를 다루는 NLP + computer vision과의 활용 - image captioning 기본 배우기1

text data를 다루는 NLP + computer vision과의 활용 - image captioning 기본 배우기1

1. multi-modal learning 서로 다른 타입의 데이터를 같이 활용하는 학습 방법 이미지와 텍스트나 사운드를 같이 활용해서 학습할 수 있을까? 데이터라 하면 사람의 오감에서 얻는 정보나 social perception으로 불리는 사회적 감각에 의한 정보..(눈치) 3d sensor에서 얻은 정보나.. 예를 들어 text 하나의 데이터만 다루는 형태는 unimodal 이미지와 audio를 같이 활용한 학습이라면 multimodal 형태 2. multi-modal learning은 왜 어려운가 지금까지 배운 방식으로 image데이터라면 CNN에 넣어서 학습하고 text라면 RNN에 넣어서 학습해서 합치면 그만 아닌가? 일단 데이터마다 컴퓨터가 이해할 수 있도록 표현하는 방식이 다르다. 1) 소리..

  • format_list_bulleted 딥러닝/NLP
  • · 2023. 2. 27.
  • textsms
RNN(Recurrent Neural Network)과 LSTM(Long Short-term Memory) 기본 개념 되돌아보기

RNN(Recurrent Neural Network)과 LSTM(Long Short-term Memory) 기본 개념 되돌아보기

1. RNN의 기본 구조 일반적으로 데이터 사이에 서로 영향을 주지 않고 시간적 정보가 없는 경우가 많다. 하지만 시계열과 같은 순차적 데이터(sequential data)는 과거가 미래에 영향을 주므로 데이터 사이에 독립을 가정한 모형을 적합시키면 좋은 성능을 기대하기 어렵다. Recurrent Neural Network(RNN)는 음성 인식과 자연어 처리와 같이 순차적 데이터에 사용되는 대표적인 알고리즘 Long Short term memory(LSTM)와 Gated Recurrent Unit(GRU)의 근간이 되는 모델 인공신경망과 CNN은 입력층에서 은닉층으로, 은닉층에서 출력층으로 움직이는 순방향 신경망(Feed forward neural network) 반면 RNN은 입력층에서 출력층(x ->..

  • format_list_bulleted 딥러닝/NLP
  • · 2022. 12. 19.
  • textsms
transformer의 메모리 사용량 알아보기

transformer의 메모리 사용량 알아보기

1. layer의 계산적인 측면 self attention의 layer의 계산적인 측면에서 본다면 input sequence의 길이가 n이고 hidden vector의 차원이 d일때 Q는 n*d차원이고 $K^{T}$ 는 d*n차원이므로 $O(n^{2}d)$ RNN은 d차원의 $h_{t-1}$이 $h_{t}$로 변환되기위해서는 $W_{hh}$라는 d*d행렬을 곱하여 계산되는데 input sequence의 길이 n에 대하여 $O(nd^{2})$ input sequence의 길이 n과 hidden vector의 차원 d는 의미적으로 큰 차이가 있는데 hidden vector의 차원은 hyperparameter로 선택할수있는 값이다. 그러나 input sequence는 선택할수 없는 값으로 데이터의 길이에 따라..

  • format_list_bulleted 딥러닝/NLP
  • · 2022. 5. 3.
  • textsms
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (1482)
    • 다시보는 통계학 (28)
    • 딥러닝 (306)
      • 딥러닝 기초 (63)
      • Computer Vision (76)
      • NLP (59)
      • Machine Reading Comprehensi.. (21)
      • light weight modeling (47)
      • Graph (17)
      • recommendation system (7)
      • reinforcement learning (2)
      • LLM (6)
      • Deep Learning Specializatio.. (7)
      • Diffusion (1)
    • AI 논문 (45)
      • AI trend research (42)
      • 고전이 된 AI 논문 (3)
    • 데이터 분석 프로젝트 연습 (0)
    • 프로그래밍 (291)
      • 프로그래밍 개론 (7)
      • Python (79)
      • Java (15)
      • C++ (9)
      • C# (0)
      • 비전공자를 위한 자바스크립트 (8)
      • Pandas (10)
      • Numpy (8)
      • Pytorch (30)
      • SQL (23)
      • Unity&C# (27)
      • Tensorflow.js (2)
      • git 가이드 (10)
      • 비전공자를 위한 Web (4)
      • React (17)
      • node.js (17)
      • FastAPI (7)
      • docker & jenkins (10)
      • R 프로그래밍 (8)
    • 알고리즘 (500)
      • 알고리즘 일반 (61)
      • Java 기초 (22)
      • C++ 기초 (22)
      • 브루트포스 (22)
      • DFS BFS 정복기 (28)
      • 그래프 이론 정복기 (21)
      • 분리집합 (7)
      • 최단거리 알고리즘 (21)
      • 최소 스패닝 트리 (5)
      • 다이나믹 프로그래밍 (64)
      • 구현,시뮬레이션 (11)
      • 이분 탐색 (17)
      • 정렬 알고리즘 (9)
      • 그리디 알고리즘 (30)
      • 투 포인터 알고리즘 (9)
      • 누적 합 알고리즘 (14)
      • 문자열 알고리즘 (17)
      • 자료구조(스택,큐,해시맵) (14)
      • 순열 사이클 분할 (1)
      • 슬라이딩 윈도우 (2)
      • 연결리스트 (3)
      • 분할 정복 (4)
      • 위상정렬 (3)
      • 세그먼트 트리 (14)
      • 유량 알고리즘 (1)
      • 이분 매칭 (2)
      • 고급 자료구조 (3)
      • 희소배열(더블링) (2)
      • 전처리 (1)
      • 게임이론 (8)
      • 비트마스킹 (8)
      • 애드 혹 알고리즘 (33)
      • 중간에서 만나기 (4)
      • 확률론 알고리즘 (3)
      • 선형대수학 알고리즘 (3)
      • 압축 알고리즘 (2)
      • 오프라인 쿼리 (1)
      • 정밀도 (3)
      • 재귀 연습장 (1)
      • 비둘기집 원리 (2)
      • 휴리스틱 (1)
      • 고급 알고리즘 (1)
      • 알고리즘 논문 (0)
    • 경쟁 프로그래밍 (22)
      • Atcoder (22)
    • 책 읽기 (79)
      • 비전공자도 이해할 수 있는 AI지식 (51)
      • 수학보다 데이터 문해력 (28)
    • 3D 모델링 (0)
      • blender (0)
    • 정수론 (75)
    • 선형대수학 (28)
    • 조합론 (11)
    • 정형데이터 (25)
    • 정보이론 (3)
    • Visualization (7)
    • 기하학 (29)
    • 컴퓨터과학(CS) (13)
    • 대수학 (4)
    • 데이터 해석 (6)
    • 금융 (1)
    • 읽을거리 (9)
최근 글
인기 글
최근 댓글
태그
  • #알고리즘
  • #프로그래밍
  • #python
  • #정수론
  • #딥러닝
  • #코딩테스트
  • #파이썬
  • #백준
  • #NLP
  • #머신러닝
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바