캡스톤 디자인

[논문] 유사 시계열 데이터 분석에 기반을 둔 교육기관의 전력 사용량 예측 기법

bubhyun 2024. 4. 4. 22:52
728x90

 

대학 캠퍼스는 전력 사용량이 많은 곳이며,시간과 환경에 따른 전력 사용량 변화폭이 다양하다.이러한 이유로,전력계통의 효율적인 운영을 위해서는 전력 사용량을 정확하게 예측할 수 있는 모델이 요구된다.

 

기존 시계열 예측 기법

시계열 예측 기법은 예측 기간이 길수록 정확도가 떨어지며,데이터가 일정한 형태를 보이지 못한 경우에 모델 구성의 어려움이 크다. 또, 학습 시점과 예측 시점 간의 차이가 클수록 예측 구간이 넓어짐으로 예측 성능이 크게 떨어진다는 단점이 있다.

 

해결방법

의사결정나무를 이용해 날짜, 요일, 공휴일 여부, 학기 등을 고려, 시계열 형태가 유사한 전력 데이터를 분류, 자기회귀누적이동평균모형(ARIMA)을 구성, 이후 시계열 교차검증을 적용한다.

 

입력 데이터

데이터 제공 : 한전 iSMART

예측 장소 : 서울특별시 성북구 안암동에 위치한 “K”대학교 인문・사회계 캠퍼스

(본관, 중앙광장, 중앙도서관 등 총 32개의 건물, 총면적은 약 278,213m2)

기간: 2013년 1월 1일부터 2016년 12월 31, 4년간 축적된 일간 전력 데이터

시스템 구조도

의사결정나무의 분석 단계

독립변수 속성의 조합을 통하여 유사한 시계열 형태 분류를 목적으로 의사결정나무 먼저 진행

과거 3년의 기간인 2013년부터 2015년을 트레이닝 셋,최근 1년의 기간인 2016년을 테스트 셋으로 나눈다.

종속변수 Y : 일간 전력 사용량인 kWh

독립변수 X : 시계열의 특성을 나타내는 변수 인 Year, Month, Day, Day of the Week, Holiday, Semester

전력 데이터 : 75:25 비율로 train, test 데이터 구분. 시계열 형태로 분류한다.

 

  1. 성장 : 데이터 셋의 분류 과정은 앞서, 트레이닝 셋에서 클래스 라벨의 속성인 일간 전력 사용량인 kWh을 기준으로 끝마디를 성장(growing)
  2. 가지치기 : 데이터의 과적합 문제 -> 마디에 속한 데이터가 일정 수 이상일 때, 분할을 정지하고 엔트로피, 지니계수를 기준으로 가지치기(Pruning) 과정
  3. 타당성 평가 :  5겹 교차검증(5-fold Cross-validation)하여 분산값이 가장 낮은 가지의 수를 기반으로 최적 분류 개수로 9를 선정
  4. 해석 및 예측 : 끝마디 개수에 따른 분산값과 분류된 결과 제시

 

ARIMA 기반의 예측 모델 구성

기존 시계열 예측 기법은 학습 시점과 예측 시점 간의 차이가 클수록 예측 구간이 넓어짐으로 인해,예측 성능이 크게 떨어진다는 단점이 있다. 따라서 시계열 교차 검증을 진행한다.

시계열 교차검증(Time Series Cross-Validation)

트레이닝 셋(Bluepoints)과 테스트 셋(Red points)의 예측 정확도 측정은 단일 예측 시점만 포함하는 테스트 셋에서 각각 계산되고,예측 정확도의 결과는 모든 테스트 셋 결괏값의 평균으로 추정한다.

 

성능 평가 지표 : MAPE(Mean Absolute Percentage Error), RMSE (Root Mean Square Error),

MAE(Mean Absolute Error)

 

결론

Model 8(의사결정나무 + ARIMA + 시계열 교차검증) 이 다른 예측 모델보다 MAPE, RMSE, MAE 부분에서 가장 정확하게 예측

 

예측 모델의 구성은 의사결정나무를 이용해 날짜,요일,공휴일 여부,학기 등의 전력 사용이 유사한 형태를 보인 데이터를 분류했다.그리고 분류된 데이터 셋에 각각의 ARIMA모형을 구성하여,시계열 교차검증을 통해 예측하는 기법을 사용했다. 평균 6.57%의 오차율로,기존의 예측 기법보다 정확한 전력 사용량 예측을 수행다.

 

개념 정리

의사결정나무

장점

  1. 분류 및 예측 결과에 대한 근거를 나뭇가지 형태로 추적할 수 있어 설명력이 높다.
  2. 2. 많은 변수를 대상으로 종속변수에 영향력이 높은 변수를 선택할 수 있도록 도움을 준다.

단점

  1. 시계열과 같은 연속형으로 종속변수가 이루어질 때 예측 정확도가 낮아 쓰기에 적합하지 않을 수 있다.
  2. 데이터의 추가로 나무구조가 바뀔 수 있다.

 

RMSE : 잔차의 제곱에 대한 평균 값에 루트를 씌운 것

장점

  1. 지표 자체가 직관적이며 예측변수와 단위가 같다.
  2. 잔차를 제곱하기 때문에 이상치에 민감하다.

단점

  1. 실제 값에 대해 underestimates or overestimates 인지 파악하기 힘들다.
  2. 스케일에 의존적이다. (MAE, MSE, RMSE와 동일)

MAE : 잔차의 절댓값에 대한 평균

장점

  1. 지표 자체가 직관적이며 예측변수와 단위가 같다.

단점

  1. 잔차에 절댓값을 씌우기 때문에 실제 값에 대해 underestimates or overestimates 인지 파악하기 힘들다.
  2. 스케일에 의존적이다. (MAE, MSE, RMSE와 동일)

시계열 교차검증

이전 데이터 + 테스트 데이터 =  다음 훈련 데이터

 

728x90