This repository has been archived on 2025-06-07. You can view files and clone it, but cannot push or open issues or pull requests.
SightRay_Legacy/developement_advice/data_analysis_engine_summary.txt
2025-05-06 21:23:04 +09:00

96 lines
3.6 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 🧠 SightRay 데이터 분석 엔진 기능 요약 및 MVP 충족도 평가
---
## ✅ 엔진 개요
**SightRay 데이터 분석 엔진**은 CDS(Complete Data Set)를 입력으로 받아
주가의 상승 여부 또는 ROI(수익률)를 예측하고, 상승 가능성이 높은 종목을 선별하는 핵심 예측 시스템입니다.
- **입력:** OHLCV 기반의 CDS 파일 (CSV)
- **출력:** 예측 결과 + 상승 확률 + 상위 종목 리스트 (CSV 저장)
- **연계 대상:** 리스크 관리 엔진
---
## 🧩 디렉토리 구조 및 구성 파일
```plaintext
sightray/
├── data_analysis_engine/
│ ├── dataset_builder.py # CDS → 학습용 피처/타깃 변환
│ ├── models/
│ │ └── xgboost_model.py # XGBoost 모델 정의 및 예측 기능
│ ├── analyzer.py # 다중 종목 예측 + 상위 추출
│ └── predict.py # CLI 실행 진입점 (결과 저장)
```
| 파일명 | 역할 | 계층 |
|--------|------|------|
| `dataset_builder.py` | CDS → 학습용 데이터셋 변환 | Module Layer |
| `xgboost_model.py` | 모델 정의, 학습, 예측 | Module Layer |
| `analyzer.py` | 종목 순회, 예측, 정렬 | Engine Layer |
| `predict.py` | 분석 흐름 실행 CLI | Application Layer |
---
## 🔁 데이터 흐름
```plaintext
[CDS CSV 파일]
dataset_builder.py → 학습용 피처 + 타깃 생성
xgboost_model.py → 모델 로드 + 예측 수행
analyzer.py → 종목별 예측 결과 정리
predict.py → 결과 출력 및 prediction_result.csv 저장
```
---
## ✅ 구현된 기능 목록
| 기능 항목 | 구현 여부 | 설명 |
|-----------|-----------|--------|
| CDS 입력 처리 | ✅ | CDS → 학습용 데이터로 변환 |
| 단일 모델 예측 (XGBoost) | ✅ | 분류 모델로 상승 확률 예측 |
| 다중 종목 분석 | ✅ | CDS 파일 목록을 순회하며 예측 수행 |
| 상위 종목 추출 | ✅ | 상승 확률 기준 top-N 종목 정렬 |
| CLI 실행 및 결과 저장 | ✅ | `predict.py`에서 CSV로 저장 가능 |
| 결과 포맷 | ✅ | `symbol, prediction, probability` 포함한 DataFrame |
| 계층화된 구조 | ✅ | 분석 모듈 구조 분리 및 재사용성 확보 |
| 문서화 가능성 | ✅ | 각 모듈별 역할 및 흐름 주석 포함 완료 |
| 평가 지표, ROC 등 | ❌ | (추후 확장 예정) |
| LSTM 또는 앙상블 | ❌ | (MVP 이후 단계에서 추가 예정) |
---
## 📈 예측 결과 예시
| symbol | prediction | probability |
|--------|------------|-------------|
| AAPL | 1 | 0.84 |
| TSLA | 0 | 0.48 |
| NVDA | 1 | 0.76 |
---
## 🎯 MVP 충족도 평가
| 항목 | 달성률 | 설명 |
|-------|---------|------------------------|
| 핵심 기능 구현 | **85%+** | CDS 분석 → 상위 종목 추출까지 구현 완료 |
| 예측 정확도 개선 | 🚧 | LSTM, 앙상블은 추후 도입 예정 |
| 평가/리포트 기능 | 🚧 | 성능 평가 지표 및 시각화는 향후 추가 예정 |
| 연계 준비도 | ✅ | 리스크 엔진에 결과 연동 가능 상태 |
---
## ✅ 결론
SightRay의 데이터 분석 엔진은 현재 단계에서 **MVP 수준의 주요 기능을 모두 구현 완료**하였으며,
이제 리스크 관리 엔진과의 연계 또는 예측 성능 향상(모델 고도화)으로 나아갈 수 있는 준비가 완료된 상태입니다.
> 🚀 다음 단계로는 LSTM 또는 앙상블 모델 추가, 성능 평가 지표 도입, 실거래 적용 테스트가 가능합니다.