[감성 분석 #1] 프로젝트 계획


감성 분석을 어떻게 할까?

고작 학부생으로서 한 기법이나 분야에 깊은 지식을 가지는 것보다, 다양한 기법과 분야를 한 번씩 경험해보는 것이 괜찮지 않을까 생각해서 여태 한 번도 해보지 않은 텍스트 마이닝, 그 중에서도 감성 분석을 해보려 한다.

우선 프로젝트 계획부터 세워보자.


주가 (시계열) 예측 및 감성 분석

  1. 데이터
    • 야후, 구글 등에서 구할 수 있으나 학교에서 제공하는 DataGuide를 통해 주식 및 재무 자료 다운로드 가능 (이미 일부 다운로드)
    • 기업은 어떤 기업을 해도 좋으나, 코스피 기업들(유명해서 SNS 및 뉴스에 자주 등장하는 기업)을 대상으로 분석할 예정. 또한 20년 이상 존속해온 기업 대상
  2. 분석 목표
    • Weekly(주간) 데이터를 통해 다음 주의 주가 흐름을 예측하는 문제
    • 20년 이상의 데이터(1,000개 이상의 데이터)를 시계열 예측 모델 (RNN) 을 통해 분석
    • SNS, 뉴스 등의 관련 기업에 대한 감성(긍정, 부정)을 분석하여 시계열 예측 모델의 입력으로 추가할 것
    • 이번 분석의 주제는 시계열 예측 모델이 아니다! 감성 분석을 하였을 때 성과가 얼마나 좋아지는지 비교분석하는 것이 목적. 즉, 이번 프로젝트의 목적은 감성 분석!
  3. 사용 기법
    • 시계열 예측 모델
      • ARIMA: 전통적인 통계의 시계열 분석 모델, 통계적인 지식을 많이 필요로 하는 듯함. 공부를 많이 해야할 듯.
      • RNN(LSTM): 딥러닝(인공신경망의 일종). 이미 한 번 경험을 해봐서 어느 정도의 지식은 가지고 있음.
    • 텍스트 마이닝
      • 웹 크롤링: 뉴스 또는 SNS 데이터를 크롤링해서 데이터 수집
      • Word2vec: 문장을 벡터로 변환하는 기법
      • 자연어 처리: 해본 적이 없기에 공부하면서 해야할 듯
      • 사전 구축: 긍정과 부정의 의미를 가진 단어들을 사전 구축해야함. 영어로 된 문장을 분석할 지, 한글로 된 문장을 분석할 지 고민 중.
      • 기타 등등: 아직 텍스트 마이닝을 해보지 않았기 때문에 어떠한 기법을 사용해야하는지 아직 잘 모른다. 필요할 때 배워서 적용할 예정.
    • 통계적 지식
      • 통계 공부를 하면서 필요한 내용을 채워갈 예정..
  4. 프로젝트 일정 계획
    • 9월 4주차 : 주가 예측 모델 프로토타입 구현 - ARIMA, RNN
      • RNN 구현 자체는 어렵지 않음. 다만 얼마나 잘 구현하는가가 관건. 여기서는 실행 가능한 수준으로 예측 모델 구현하는 것이 목표.
      • ARIMA도 구현 자체는 어렵지 않지만, 그를 뒷받침하는 통계학적 전처리 등이나 파라미터 조정이 어려움. 공부해볼 예정이지만, 여기서는 ARIMA를 잘 구현하는 것이 목적이 아니기 때문에 빠르게 넘어갈 예정
    • 10월 2주차 : 크롤링 및 감성 분석 공부
      • 실제 SNS 또는 뉴스 데이터를 크롤링해서 데이터로 저장
      • 감성 분석의 방법 공부와 간단한 예제를 통한 기법 적용
    • 11월 1주차 : 감성 분석 데이터 전처리 및 감성 분석 적용, 프로젝트 종료
      • 수집한 데이터를 사용 목적에 맞게 데이터 전처리
      • 감성 사전 구축(자세한 사항은 공부 후 적용) 및 감성 분석 적용
      • before 감성 분석 vs after 감성 분석의 예측 결과 비교 및 프로젝트 종료

사실 감성 분석이라는 주제를 공부하기에는 너무 짧은 시간이지만… 남은 시간이 많지 않기에 감성 분석이 어떠한 것인지 아는 정도로 공부를 하려고 한다. 또한 시간이 부족하면 프로젝트 계획보다 조금 더 시간을 투자해서 적용해볼 것이다.




© 2018. by YH

Powered by YH KIM