시퀀스(sequence) 데이터 이해하기 소리, 문자열, 주가 등의 데이터를 시퀀스 데이터로 분류한다. 일련의 연속적인 데이터를 말한다. 시계열(time - series)데이터는 시간 순서에 따라 나열된 데이터로 이 역시 시퀀스 데이터에 속한다 독립동등분포(i.i.d.) 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면, 데이터의 확률분포도 바뀌게 된다. ("개가 사람을 물었다" -> "사람이 개를 물었다" : 문법적으로 틀리진 않지만 어색함) => 과거나 앞뒤 맥락 없이 미래를 예측하거나 문장을 완성하는건 불가능! 시퀀스 데이터 다루는 법 조건부확률을 이용 + 베이즈 법칙 어떤 정보는 필요할 수도, 필요하지 않을 수도 있기 때문에 적절히 활용하는 것이 필요! 결국, 길이가 가변..
cnn과 다르게 주어지는 입력 자체가 sequential하다는 특징을 가진다. sequential data란? 말, 동영상, 연속적인 모션 등등을 말한다. 그렇다면 이러한 데이터가 처리하기 어려운 이유는? 받아 들여야하는 입력의 차원을 알 수 없다! -> 그래서 CNN을 사용할 수 없다.(입력의 차원을 모르기 때문에) -> 말을 할 때, 듣는 사람은 그 말이 언제 끝날지를 모른다는 것을 생각하면 이해할 수 있을 것이다. 1. sequential model naive sequential model (가장 기본적인 모델) -> 어떤 입력이 들어왔을 때, 다음엔 어떤 입력이 들어올 지 예측하는 모델 -> 입력이 쌓일수록 고려해야할 과거의 데이터들이 계속 증가함 -> fix the past timespan ..