# 🧠 SightRay 데이터 뢄석 μ—”μ§„ – κΈ°λŠ₯ μš”μ•½ 및 MVP 좩쑱도 평가 --- ## βœ… μ—”μ§„ κ°œμš” **SightRay 데이터 뢄석 μ—”μ§„**은 CDS(Complete Data Set)λ₯Ό μž…λ ₯으둜 λ°›μ•„ μ£Όκ°€μ˜ μƒμŠΉ μ—¬λΆ€ λ˜λŠ” ROI(수읡λ₯ )λ₯Ό μ˜ˆμΈ‘ν•˜κ³ , μƒμŠΉ κ°€λŠ₯성이 높은 μ’…λͺ©μ„ μ„ λ³„ν•˜λŠ” 핡심 예츑 μ‹œμŠ€ν…œμž…λ‹ˆλ‹€. - **μž…λ ₯:** OHLCV 기반의 CDS 파일 (CSV) - **좜λ ₯:** 예츑 κ²°κ³Ό + μƒμŠΉ ν™•λ₯  + μƒμœ„ μ’…λͺ© 리슀트 (CSV μ €μž₯) - **연계 λŒ€μƒ:** 리슀크 관리 μ—”μ§„ --- ## 🧩 디렉토리 ꡬ쑰 및 ꡬ성 파일 ```plaintext sightray/ β”œβ”€β”€ data_analysis_engine/ β”‚ β”œβ”€β”€ dataset_builder.py # CDS β†’ ν•™μŠ΅μš© ν”Όμ²˜/타깃 λ³€ν™˜ β”‚ β”œβ”€β”€ models/ β”‚ β”‚ └── xgboost_model.py # XGBoost λͺ¨λΈ μ •μ˜ 및 예츑 κΈ°λŠ₯ β”‚ β”œβ”€β”€ analyzer.py # 닀쀑 μ’…λͺ© 예츑 + μƒμœ„ μΆ”μΆœ β”‚ └── predict.py # CLI μ‹€ν–‰ μ§„μž…μ  (κ²°κ³Ό μ €μž₯) ``` | 파일λͺ… | μ—­ν•  | 계측 | |--------|------|------| | `dataset_builder.py` | CDS β†’ ν•™μŠ΅μš© 데이터셋 λ³€ν™˜ | Module Layer | | `xgboost_model.py` | λͺ¨λΈ μ •μ˜, ν•™μŠ΅, 예츑 | Module Layer | | `analyzer.py` | μ’…λͺ© 순회, 예츑, μ •λ ¬ | Engine Layer | | `predict.py` | 뢄석 흐름 μ‹€ν–‰ CLI | Application Layer | --- ## πŸ” 데이터 흐름 ```plaintext [CDS CSV 파일] ↓ dataset_builder.py β†’ ν•™μŠ΅μš© ν”Όμ²˜ + 타깃 생성 ↓ xgboost_model.py β†’ λͺ¨λΈ λ‘œλ“œ + 예츑 μˆ˜ν–‰ ↓ analyzer.py β†’ μ’…λͺ©λ³„ 예츑 κ²°κ³Ό 정리 ↓ predict.py β†’ κ²°κ³Ό 좜λ ₯ 및 prediction_result.csv μ €μž₯ ``` --- ## βœ… κ΅¬ν˜„λœ κΈ°λŠ₯ λͺ©λ‘ | κΈ°λŠ₯ ν•­λͺ© | κ΅¬ν˜„ μ—¬λΆ€ | μ„€λͺ… | |-----------|-----------|--------| | CDS μž…λ ₯ 처리 | βœ… | CDS β†’ ν•™μŠ΅μš© λ°μ΄ν„°λ‘œ λ³€ν™˜ | | 단일 λͺ¨λΈ 예츑 (XGBoost) | βœ… | λΆ„λ₯˜ λͺ¨λΈλ‘œ μƒμŠΉ ν™•λ₯  예츑 | | 닀쀑 μ’…λͺ© 뢄석 | βœ… | CDS 파일 λͺ©λ‘μ„ μˆœνšŒν•˜λ©° 예츑 μˆ˜ν–‰ | | μƒμœ„ μ’…λͺ© μΆ”μΆœ | βœ… | μƒμŠΉ ν™•λ₯  κΈ°μ€€ top-N μ’…λͺ© μ •λ ¬ | | CLI μ‹€ν–‰ 및 κ²°κ³Ό μ €μž₯ | βœ… | `predict.py`μ—μ„œ CSV둜 μ €μž₯ κ°€λŠ₯ | | κ²°κ³Ό 포맷 | βœ… | `symbol, prediction, probability` ν¬ν•¨ν•œ DataFrame | | κ³„μΈ΅ν™”λœ ꡬ쑰 | βœ… | 뢄석 λͺ¨λ“ˆ ꡬ쑰 뢄리 및 μž¬μ‚¬μš©μ„± 확보 | | λ¬Έμ„œν™” κ°€λŠ₯μ„± | βœ… | 각 λͺ¨λ“ˆλ³„ μ—­ν•  및 흐름 주석 포함 μ™„λ£Œ | | 평가 μ§€ν‘œ, ROC λ“± | ❌ | (μΆ”ν›„ ν™•μž₯ μ˜ˆμ •) | | LSTM λ˜λŠ” 앙상블 | ❌ | (MVP 이후 λ‹¨κ³„μ—μ„œ μΆ”κ°€ μ˜ˆμ •) | --- ## πŸ“ˆ 예츑 κ²°κ³Ό μ˜ˆμ‹œ | symbol | prediction | probability | |--------|------------|-------------| | AAPL | 1 | 0.84 | | TSLA | 0 | 0.48 | | NVDA | 1 | 0.76 | --- ## 🎯 MVP 좩쑱도 평가 | ν•­λͺ© | 달성λ₯  | μ„€λͺ… | |-------|---------|------------------------| | 핡심 κΈ°λŠ₯ κ΅¬ν˜„ | **85%+** | CDS 뢄석 β†’ μƒμœ„ μ’…λͺ© μΆ”μΆœκΉŒμ§€ κ΅¬ν˜„ μ™„λ£Œ | | 예츑 정확도 κ°œμ„  | 🚧 | LSTM, 앙상블은 μΆ”ν›„ λ„μž… μ˜ˆμ • | | 평가/리포트 κΈ°λŠ₯ | 🚧 | μ„±λŠ₯ 평가 μ§€ν‘œ 및 μ‹œκ°ν™”λŠ” ν–₯ν›„ μΆ”κ°€ μ˜ˆμ • | | 연계 쀀비도 | βœ… | 리슀크 엔진에 κ²°κ³Ό 연동 κ°€λŠ₯ μƒνƒœ | --- ## βœ… κ²°λ‘  SightRay의 데이터 뢄석 엔진은 ν˜„μž¬ λ‹¨κ³„μ—μ„œ **MVP μˆ˜μ€€μ˜ μ£Όμš” κΈ°λŠ₯을 λͺ¨λ‘ κ΅¬ν˜„ μ™„λ£Œ**ν•˜μ˜€μœΌλ©°, 이제 리슀크 관리 μ—”μ§„κ³Όμ˜ 연계 λ˜λŠ” 예츑 μ„±λŠ₯ ν–₯상(λͺ¨λΈ 고도화)으둜 λ‚˜μ•„κ°ˆ 수 μžˆλŠ” μ€€λΉ„κ°€ μ™„λ£Œλœ μƒνƒœμž…λ‹ˆλ‹€. > πŸš€ λ‹€μŒ λ‹¨κ³„λ‘œλŠ” LSTM λ˜λŠ” 앙상블 λͺ¨λΈ μΆ”κ°€, μ„±λŠ₯ 평가 μ§€ν‘œ λ„μž…, μ‹€κ±°λž˜ 적용 ν…ŒμŠ€νŠΈκ°€ κ°€λŠ₯ν•©λ‹ˆλ‹€.