Technology issues/TensorFlow

AI 주식 예측이 가능한가? LSTM 머신러닝 예측의 한계와 현실 #1

pauls 2025. 5. 7. 12:21
반응형

이번 글에서는 주가 예측에 AI 적용에 대해 정리해 볼게요. 사실 이미 AI는 주식 시장 예측에 적용되고 있어요. 그러나, 실제 주식 시장에 깊이 관여하는 일부의 사람들 이외에 AI를 이용해 주식 예측을 할 수 있다는 것에는 개인적으로 매우 부정적입니다. 인공지능을 적용하건 안하건, 문제는 그 분야의 정확한 정보를 얼마나 갖고 있느냐가 핵심일 것이기 때문입니다.

AI 주식 예측이 가능한가, LSTM 머신러닝 예측의 한계와 현실
AI 주식 예측이 가능한가? LSTM 머신러닝 예측의 한계와 현실

 

반응형

 

AI 주식 예측이 가능한가? 

최근 챗GPT를 비롯해서 Perplexity 등 여러 생성형 AI들을 사용하다 보면 "주식 예측, 코인 예측도 가능하지 않을까?" 하는 생각을 하게 됩니다. 또, 이런 생각을 자극하는 것은 유튜브 등에서 갑자기 나타나는 광고에서 '딥러닝 모델로 투자 수익률을 극대화한다' 식의 카피를 볼 때도 있어서 무의식 중에 '아 그런가? 인공지능이 이게 가능한가?' 하는 어떤 '기대'를 하게 될 때도 있는 것 같습니다.

 

이 글을 작성하는 본인도 머신러닝을 처음 공부할 때 증권사의 API를 연동해서 프로그램을 만들어서 테스트해 본 경험도 있죠. 수익이 났냐고요? 물론, 아니죠. 개인적으로 부족했던 탓일까요? 아니면 인공지능 이론을 아무리 적용해도 불가능한 분야일까요?

 

 

  주식 예측에 활용 가능한 머신러닝 기법

주식 예측에 자주 활용되는 머신러닝 기법은 크게 두 가지로 나눌 수 있어요. 시계열 기반 예측과 비정형 데이터 분석. 이 두 접근법은 각각 다른 데이터를 활용하며, 결과를 예측합니다.

 

 

 

시계열 기반 예측

시계열 기반 예측은 과거 데이터를 분석해 미래를 추정하는 방법이에요. 대표적인 모델로는 LSTM(Long Short-Term Memory)과 ARIMA(AutoRegressive Integrated Moving Average)가 있습니다.

  • LSTM: 순환신경망(RNN)의 일종으로, 시간에 따라 변화하는 데이터를 처리합니다. 예를 들어, 지난 30일간의 주가 데이터를 학습해 다음 날 주가를 예측할 수 있죠. LSTM은 장기적인 패턴을 기억하는 능력이 뛰어나 변동성이 큰 데이터에서 유용할 수 있습니다.
  • ARIMA: 통계 기반 모델로, 데이터의 추세와 계절성을 분석해 예측합니다. 비교적 단순한 패턴을 가진 데이터에서 효과적이며, 계산 비용이 적다는 장점이 있습니다.

 

비정형 데이터 분석

이 방법은 자연어처리(NLP) 기술이 활용합니다.

  • 감성 분석: 트위터나 뉴스 기사에서 특정 기업에 대한 긍정적·부정적 반응을 분석해 데이터의 변동을 예측합니다. 예를 들어, 한 기업의 CEO가 스캔들에 휘말리면 이에 따라 그 기업의 이미지에 긍/부정적 감성이 이어질 가능성이 높죠.
  • 이벤트 기반 예측: 기업의 실적 발표, M&A 소식 같은 주요 이벤트를 감지해 기업 이미지에 미치는 영향을 예측합니다. 이를 위해 트랜스포머(Transformer) 같은 최신 NLP 모델이 사용되기도 합니다.

실제적으로 이 두 접근법은 서로 보완적으로 사용됩니다. 시계열 모델은 과거 데이터를 기반으로 안정적인 예측을 제공하고, 비정형 데이터 분석은 시장의 갑작스러운 변화를 포착할 수 있기 때문입니다.

 

 

  주식 예측의 문제점: 왜 어려운가?

인공지능 기술의 관점에서 AI와 머신러닝이 강력한 도구임에도 불구하고, 주식 예측은 여전히 어렵습니다. 그 이유는 시장의 본질적 특성과 데이터의 한계에서 찾을 수 있다.

 

랜덤 시장과 효율적 가설

주식 시장은 효율적 시장 가설(EMH, Efficient Market Hypothesis)에 따라 움직인다고 하는 주장이 있어요. 이 가설은 모든 공개 정보가 이미 주가에 반영되었다고 전제합니다. 즉, 주가가 예측 가능한 패턴을 따르지 않고, 거의 무작위로 움직인다는 뜻이죠.

이런 환경에서 AI가 명확한 패턴을 찾아내는 것은 어렵습니다. 예를 들어, 특정 주식이 내일 오를 것이라는 예측은 이미 시장에 반영된 정보일 가능성이 높을 수 있기 때문입니다.

 

데이터의 한계

AI 모델의 성능은 데이터의 질과 양에 크게 의존하게 되지만, 일반 투자자가 얻을 수 있는 데이터는 제한적입니다.

  • 공개 데이터의 한계: 주가, 거래량 같은 공개 데이터는 누구나 접근 가능하지만, 이 데이터만으로는 시장의 전부를 이해한다고 할 수는 없습니다. 예를 들면, 기관 투자자의 내부 거래 정보 등은 공개되지 않죠.
  • 잡음 과다: 주식 데이터에는 뉴스, 금리 변화, 지정학적 사건 같은 외부 요인이 섞여 있습니다. 이런 잡음은 모델이 정확한 패턴을 학습하기 어렵게 만듭니다.

 

과적합과 일반화 문제

머신러닝 모델은 학습 데이터에 지나치게 최적화되는 과적합(Overfitting) 문제가 자주 발생하기도 합니다. 예를 들어, 특정 주식의 과거 데이터를 완벽히 학습한 모델이 실제 시장에서는 전혀 다른 움직임을 보일 수 있어요. 이러한 현상은 주식 시장이 끊임없이 변화하고, 과거 패턴이 미래를 보장하지 않기 때문입니다.

 

비정형 데이터의 복잡성

뉴스나 소셜 미디어를 분석하는 NLP 모델도 한계가 있습니다. 같은 뉴스라도 주가에 미치는 영향은 상황에 따라 다르게 나타납니다. 예를 들면, “기업 A가 새로운 공장을 건설한다”는 소식이 긍정적일 수도, 자금 부족을 암시해 부정적일 수도 있다. 이런 맥락을 AI가 완벽히 이해하기는 어렵습니다. 

 

 

  현실적이지 않은 해결책

주식 예측의 한계를 완전히 극복할 수 있는 “만능 해결책”은 현재로서는 존재하지 않죠. 몇 가지 제안된 방법들이 있지만 말입니다. 아래와 같이 각 방법들에 대해 살펴볼게요.

  • 빅데이터 활용: 이론적으로 모든 시장 데이터를 수집하면 예측 정확도가 높아질 수 있습니만, 앞서 말한 것처럼 개인 투자자가 기관 투자자 수준의 데이터(실시간 호가 데이터, 비공개 거래 정보 등)에 접근하기는 불가능하죠. 또, 데이터가 많아질수록 계산 비용과 복잡도가 기하급수적으로 증가합니다.
  • 강화학습(Reinforcement Learning): 강화학습은 AI가 시행착오를 통해 최적의 투자 전략을 학습하는 방법으로 활용할 수 있어요. 하지만 실제 주식 시장과 시뮬레이션 환경은 같을 수가 없죠. 때문에 실제 환경에서 돈을 걸고 학습시키는 것은 리스크가 너무 큽니다. 더하여 강화학습 모델은 학습 시간이 길고, 전문가 수준의 기술이 적용되어야 하죠.
  • 양자 컴퓨팅: 양자 컴퓨터가 복잡한 시장 데이터를 더 빠르게 분석할 수 있다는 주장이 있지만, 현재 양자 컴퓨팅은 상용화 단계에 이르지 못했어요. 개인 투자자는 물론, 대부분의 금융 기관도 양자 컴퓨터를 활용할 여력이 없죠.

이런 방법들은 이론적으로는 매력적이지만, 기술적·경제적 제약 때문에 일반 투자자에게는 그림의 떡일 수 있습니다.

 


개인적으로 머신러닝 등 인공지능 기술을 이용해서 주가 예측을 할 수 있기를 원합니다. 개인적으로 할 수 있는 방법을 계속해서 실험해 보고는 있으나, 이것을 불가능하게 만드는 여러 이유 중 앞에서 얘기한 것을 제외하고 현재의 대한민국에서 가장 큰 원인은 바로, 범죄 집단이 아닐까 싶습니다. 주가 조작 범죄 집단. 이들이 있는 한 인공지능이든 뭐든, 어떤 기술이 적용될 수 있을까요?

 


비트코인 주가 예측을 위한 머신러닝 기술 활용 방법 - 두 번째 이야기 #70

 

비트코인 주가 예측을 위한 머신러닝 기술 활용 방법 - 두 번째 이야기 #70

지난 번에는 비트코인 주가 예측을 위한 머신러닝 기술 활용을 위한 이론적인 부분을 전체적으로 정리해 보았습니다. 워낙 복잡하고 어려운 부분이라서 간단하게 대략적으로만 정리해 보려해

paulsmedia.tistory.com

 

 

반응형