인공지능 (AI) 기반 섹터별 부동산 수익률 결정 모델 연구- 글로벌 5개 도시를 중심으로 (서울, 뉴욕, 런던, 파리, 도쿄) -

A Study on AI-Based Real Estate Rate of Return Decision Models of 5 Sectors for 5 Global Cities: Seoul, New York, London, Paris and Tokyo

Article information

J Korean Soc Qual Manag. 2024;52(3):429-457

Publication date (electronic) : 2024 September 30

doi : https://doi.org/10.7469/JKSQM.2024.52.3.429

Wonboo Lee ^*^,

, Jisoo Lee ^*, Minsang Kim ^**

^*Dongkuk University

^**Wefunding Corp.

이원부^*^,

, 이지수^*, 김민상^**

^*동국대학교 핀테크블록체인학과 인공지능 전공

^**주식회사 위펀딩

^†Corresponding Author(keziah@inha.ac.kr)

*본 논문은 동국대학교와 위펀딩, WRC, Morgan Stanley, Westone의 지원에 의해 연구되었습니다.

Received 2024 June 3; Revised 2024 June 25; Accepted 2024 July 3.

Trans Abstract

Purpose

This study aims to provide useful information to real estate investors by developing a profit determination model using artificial intelligence. The model analyzes the real estate markets of six selected cities from multiple perspectives, incorporating characteristics of the real estate market, economic indicators, and policies to determine potential profits.

Methods

Data on real estate markets, economic indicators, and policies for five cities were collected and cleaned. The data was then normalized and split into training and testing sets. An AI model was developed using machine learning algorithms and trained with this data. The model was applied to the six cities, and its accuracy was evaluated using metrics such as Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and R-squared by comparing predicted profits to actual outcomes.

Results

The profit determination model was successfully applied to the real estate markets of six cities, showing high accuracy and predictability in profit forecasts. The study provided valuable insights for real estate investors, demonstrating the model's utility for informed investment decisions.

Conclusion

The study identified areas for future improvement, suggesting the integration of diverse data sources and advanced machine learning techniques to enhance predictive capabilities.

Keywords: Real Estate; RWA(Real World Asset); Profit Determination Model; AI; Data Collection and Preprocessing; Result Analysis and Evaluation; Result Interpretation and Conclusion

1. 서 론

1.1 연구 배경 및 필요성

부동산 데이터 분석은 금융 시장에서 오랫동안 중요한 역할을 수행해왔다. 특히, 2008년 미국의 서브프라임 모기지 사태를 통해 이 중요성이 한층 더 부각되었다. 서브프라임 모기지는 주택 시장의 급등에 따라 은행들이 저신용자에게 고위험 대출을 제공한 것을 의미한다. 이러한 대출은 낮은 이자율을 제공하다가 시간이 지나면서 금리가 상승하거나 변동되는 특징을 가지고 있었다. 이에 따라 대출을 받은 일부 사람들은 상환 능력을 잃어버리고 많은 이들이 상환 불능 상태에 빠지면서 은행들과 투자자들에게 큰 손실을 안겼다.

Figure 1.

The U.S. National Home Price Index after the Subprime Mortgage Crisis

이 사태는 금융 시스템 전체에 영향을 미쳤고, 전 세계적인 경제적 충격을 초래했다. 이후 금융 시장은 신뢰 상실과 신용 경색으로 마비 상태에 빠지며 긴급 조치가 필요했다. 이를 통해 부동산 데이터 분석의 중요성이 더욱 강조되었다. 이러한 데이터 분석을 통해 부동산 시장의 건전성을 평가하고 위험을 감지하는 데 도움이 되며, 대출 포트폴리오 관리와 위험 최소화에도 활용된다.

특히, 데이터 분석은 주택 시장의 가격 상승과 관련하여 과열이나 위험 요소를 조기에 감지하는 데 유용하다. 이를 통해 금융 기관들은 대출 위험을 식별하고 리스크를 줄이는 데 필요한 정확한 데이터 기반 의사결정을 지원할 수 있다. 따라서, 부동산 데이터 분석은 대출 위험을 평가하고 최소화하는 데 중요한 역할을 하며, 부동산 시장의 건전성을 유지하는 데 필수적인 도구로 자리잡게 되었다.

금융위기 이후, 투자자들은 시장 변동성에 대한 위험을 분산시키기 위해 다양한 지역에 포트폴리오를 구성하는 전략을 채택하고 있다. 이는 특정 지역의 부동산 시장 문제가 전체 투자에 미치는 영향을 줄이기 위한 것으로, 투자 지역의 글로벌화가 가속화되고 있는 추세다. 글로벌 부동산 투자는 새로운 수익 기회를 창출하며, 안정적이거나 성장 가능성이 높은 시장을 제공하는 지역에 대한 관심이 높아지고 있다. 이는 투자자들이 자신의 투자 전략에 맞는 부동산 투자를 할 수 있게 한다.

글로벌 부동산 시장은 주거용, 상업용, 호텔, 물류, 오피스 등 다양한 부동산 부문에 대한 투자 기회를 제공하고 있다. 도시화와 개발의 확대로 새로운 도시 및 지역의 투자 기회가 증가하고 있으며, 글로벌 기관투자자들의 부동산 투자 비중이 증가하는 추세다. 이러한 상황에서 부동산 데이터 분석의 중요성이 더욱 부각되고 있으며, 특히 부동산 수익률 분석은 투자 성공을 위한 필수적인 요소로 인식되고 있다.

전쟁, 금리 변동, 정책적 이슈 등으로 인해 국제경제의 불확실성이 증가하면서, 부동산 시장의 예측이 더욱 복잡해지고 있다. 이에 따라 정확하고 합리적인 수익률 예측이 필요하며, 이를 위해 기존의 직관이나 경험적 지식에 의존하는 것보다는 정확한 모델과 분석이 요구되고 있다.

최근 기술의 발전으로 인해 부동산과 첨단 정보통신 기술이 융합된 프롭테크 (Proptech) 산업이 성장하고 있다. 이 산업은 빅데이터, IoT, AI 기술을 활용하여 부동산 산업에 새로운 영역을 개척하고 있다. 프롭테크는 국제적으로 확장되고 있으며, 이를 간접적으로 확인할 수 있는 지표로는 벤처캐피털의 투자금액이 있다. 예를 들어, CB Insights에 따르면 글로벌 시장에서의 프롭테크 관련 투자는 2011년에 40건으로 약 1억 8,000만 달러였지만, 2016년에는 277건으로 약 26억 달러로 급증했다.

프롭테크 산업은 글로벌 종합 부동산 서비스 회사 JLL (Jones Lang LaSalle)에 따르면 중개 및 임대, 부동산 관리, 프로젝트 개발, 투자 및 자금 조달로 구분된다. 이러한 다양한 영역의 발전은 부동산 시장의 예측과 분석에 새로운 가능성을 제공하고 있다. 주요 해외 기업 중 하나인 Cadre는 주로 금융 기관 및 투자자들을 대상으로 하는 부동산 투자 플랫폼으로 알려져 있다. Cadre는 기술과 데이터를 결합하여 혁신적인 솔루션을 제공하여 투자자들이 부동산 투자를 보다 쉽게 할 수 있도록 돕고 있다. 이 플랫폼을 통해 투자자들은 직접 부동산에 투자하거나 펀드를 통해 투자할 수 있으며, 고급 수준의 부동산 투자 기회에 액세스하고 자신의 포트폴리오를 다양화할 수 있다. 이러한 방식으로 Cadre는 기술과 혁신을 통해 부동산 투자의 접근성을 높이고 투자자들이 더 나은 수익을 얻을 수 있도록 지원하는 플랫폼으로 주목받고 있다.

Figure 2.

Cadre's data analysis techniques

또한, Cherre는 미국의 부동산 기술 기업으로, 공공 데이터, 유료 데이터, 그리고 기업 내부 데이터를 종합하여 빅데이터화한다. 이후, 특허를 받은 데이터 분석 방법론과 인공지능을 활용하여 이 데이터를 분석하고 가공한 후, 기관에게 판매한다. Cherre는 분산되고 정제되지 않은 다양한 출처의 데이터를 실시간으로 수집하여 일원화된 분석 데이터를 제공한다. 이를 통해 대형 투자기관, 은행, 헤지펀드, 연기금, 보험사, 자문사 등에게 투자 의사결정에 도움을 준다.

Figure 3.

Cherre platform technology utilization

우리나라의 프롭테크 기업은 중개 및 임대 부문에서 IT 기술을 적극적으로 활용하고 있다. 이들은 주로 공인중개사와 고객을 연결하는 중개 서비스를 제공하며, 이러한 서비스는 초기에는 ‘네이버 부동산’과 ‘다음 부동산’과 같은 포털 기업에서 시작되었다. 이러한 기업들은 시장 수요의 증가와 함께 아파트 시장에 큰 영향을 미치고 있다. 이어서, ‘직방’과 같은 빅데이터 기반 서비스가 부상하였다. 이들은 이전에는 주로 매물 정보를 제공하는 데 초점을 맞추었지만, 이제는 부동산에 관한 종합적인 정보를 제공하는 데 중점을 두고 있다. 이러한 빅데이터 기반의 부동산 중개 서비스는 매수자들에게 다양한 정보를 제공하여 보다 합리적인 의사결정을 돕고 있다.

한편, 부동산 관리 부문에서는 우리나라가 선진국에 비해 발전이 더디지만, 최근에는 부동산 운영의 중요성이 부각되고 있다. 특히 주거용 부동산 시장의 확장으로 임대 관리 서비스에 대한 기대가 커지고 있다. 대표적인 서비스로는 ‘아파트너’와 ‘홈버튼’이 있으며, ‘아파트너’는 전국적으로 다양한 아파트 단지에 다양한 관리 서비스를 제공하고 있다. ‘홈버튼’은 임대료 수납부터 행정 업무, 생활 서비스에 이르기까지 임차인과 임대인 모두를 위한 포괄적인 서비스를 제공한다.

Figure 4.

Korean proptech companies

부동산 투자 및 리서치 부문에서 기술 기반 회사의 수는 상대적으로 적다. 예를 들어, 2015년 설립된 위펀딩은 자체 조사한 데이터, 제3자를 통해 수집한 데이터, 공공 데이터 등을 활용한 빅데이터 분석을 통해 물류시장 및 상업용 시장에 대한 리서치 보고서를 발간하고 있다. 이를 바탕으로 기술 기반의 온라인 자산운용업을 운영하고 있다.

프롭테크 산업이 서비스업의 새로운 영역으로 주목받으면서, 대한민국 정부는 공공 데이터의 개방과 같은 다양한 노력을 기울이고 있다. 이 산업은 IT기술을 통한 혁신을 추구하고 있으며, 부동산 산업의 발전과 더불어 성장할 수 있다. 국내외에서 글로벌 부동산의 수익률을 예측하는 연구는 진행되고 있지만 아직 활발하지 않다. 글로벌 부동산 시장은 다양한 도시의 특성과 투자 환경이 서로 다르기 때문에, 이에 대응하는 연구가 필요하다. 또한, 부동산 섹터에 따라 각각의 산업과 수익률에 영향을 미치는 요인이 다르기 때문에, 이러한 다양성을 고려한 연구가 필요하다.

이러한 이유로, 글로벌 수익률 결정 모델에 대한 프롭테크 기술의 필요성이 점점 커지고 있다. 부동산 시장의 복잡성과 다양성을 고려할 때, 프롭테크 기술은 빅데이터, 인공지능 등을 활용하여 미래의 부동산 시장 동향을 예측하고 수익률을 결정하는 데 중요한 역할을 할 것으로 기대된다. 이와 관련된 학술적 연구가 더욱 활발히 진행되어야 할 시점이다.

본 연구는 AI를 활용하여 부동산 수익률 결정 모델을 개발할 계획이다. 부동산 시장은 다양한 요인에 의해 영향을 받으며, AI 기술을 사용하면 대량의 데이터를 신속하고 효율적으로 처리할 수 있는 장점이 있다. AI는 과거 데이터와 현재 트렌드를 기반으로 미래의 부동산 시장 동향을 정확하게 예측할 수 있으며, 이를 통해 투자자들이 보다 나은 투자 결정을 내릴 수 있게 도와줄 것이다.

향후 이 모델을 발전시켜 투자자들에게 개인화된 부동산 투자 추천을 제공하고, 실시간으로 부동산 시장 변화를 모니터링하고 분석하는 데에 AI 기술을 활용할 수 있다. 결국, AI를 통해 의사 결정 프로세스를 자동화하는 것이 최종 목표다.

이 연구에서는 서울, 뉴욕, 런던, 파리, 도쿄 등 글로벌 부동산 데이터를 활용하여, AI와 빅데이터 분석 기술을 적용한 부동산 수익률 예측 모델을 제안한다. 이 제안된 모델을 사용하여 주거용, 상업용, 호텔, 물류, 오피스 등 부동산 투자의 주요 섹터들의 미래 가치를 정확히 예측하고 분석함으로써, 투자자들에게 유용한 정보를 제공할 예정이다.

1.2 연구 방법론 및 접근 방식

본 연구는 부동산 시장에서의 수익률 예측을 위한 방법론과 접근 방식을 연구한다. 아래는 각 단계별로 세부적으로 정리된 연구 과정이다:

(a) 데이터 수집 및 전처리 : 연구에 필요한 데이터를 수집하고, 이를 전처리하는 과정이다. 수집된 데이터는 다섯 개 도시와 다섯 개 섹터에 대한 것으로, 시계열 데이터가 아닌 구조화된 형태를 가지고 있다. 이러한 데이터는 기계 학습과 딥러닝에서 주로 사용되며, 본 연구에서는 Tabnet 모델을 활용하여 전처리 과정을 요구하지 않는다.

(b) AI 모델 개발 : 수집된 데이터를 기반으로 부동산 수익률을 예측하기 위해 다양한 AI 알고리즘을 사용하여 모델을 개발한다. 주로 사용되는 알고리즘은 Tabnet 모델로, 이는 Decision Tree 기반의 접근 방식과 Deep Neural Networks의 장점을 결합한 형태를 가지고 있다.

(d) 결과 분석 및 평가 : 모델의 적용 결과를 분석하고, 모델의 정확성과 예측력을 평가하기 위해 다양한 회귀 분석 모델을 사용한다. 이를 통해 부동산 투자자에게 유용한 정보와 가치를 제공한다

(e) 결과 해석 및 결론 도출 : 분석 결과를 종합하여 결론을 도출하고, 향후 연구 방향 및 부동산 시장 예측 모형의 개선 방안에 대해 논의하고 그 방향성을 도출한다.

위와 같은 방법론과 접근 방식을 통해 부동산 시장에서의 투자에 대한 의사 결정을 지원하고, 향후 부동산 시장의 변화에 대응할 수 있는 지표를 제시하는 것이 이 연구의 목표이다.

2. 선행연구

AI를 활용한 부동산 시장 분석 및 예측을 위한 선행 연구는 다양한 분야에서 진행되고 있다. 이를 통해 부동산 평가, 가격 예측, 머신 러닝 모델과 인공 신경망 모델의 결합, 데이터 분석 기술 등 다양한 방법이 제안되고 있다.

부동산 평가 및 가격 예측을 위한 연구에서는 과거 거래 데이터를 기반으로 한 통계적 모델부터 머신 러닝 및 딥러닝 기법을 활용한 모델까지 다양한 방법이 사용된다. 이러한 모델은 주택 시장의 가격 동향을 예측하고 향후 부동산 가격 변동을 추정하는 데에 활용된다. 특히, 머신 러닝 모델과 인공 신경망을 결합한 연구는 부동산 시장의 복잡한 패턴과 동적인 특성을 반영하여 예측 정확도를 향상시키는 데에 주목받고 있다. 이러한 모델은 다양한 특성과 변수를 고려하여 부동산 가격을 예측하고, 효율적인 투자 전략을 수립하는 데에 활용된다.

데이터 분석 기술을 활용한 연구는 대규모 부동산 데이터를 분석하여 시장 동향을 파악하고 향후 추세를 예측하는 데에 중점을 두고 있다. 이를 통해 부동산 시장의 특성과 투자 가능성을 조사하고, 효율적인 투자 전략을 개발하는 데에 활용된다.

이러한 다양한 연구들은 부동산 시장의 복잡성을 이해하고 예측력을 향상시키는 데에 기여하고 있으며, 향후 부동산 시장 분석 및 예측에 있어서 중요한 역할을 할 것으로 기대된다.

2.1 국내 학술연구 및 기업 사례

국내 기업에서는 부동산 빅데이터 및 인공지능 전문 기업인 빅밸류가 AI를 활용하여 국내 최초의 빌라 시세 조회 솔루션인 '로빅 (LOBIG)'을 개발하고 상용화했다. 로빅은 연립 및 다세대 주택에 대한 자동화된 가치평가 정보를 제공하여 부동산 정보 시장의 공백을 채우고 있다. 이를 통해 시세 정보 수집과 제공이 어려운 부분을 보완하고, 부동산 정보 수집에 필요한 비용과 시간을 절약해 주고 있다.

Figure 5.

LOBIG AI price calculation process

또한, 공감랩은 연립 및 다세대 주택을 대상으로 자동화된 시세 산정 기법을 적용한 주택 정보 플랫폼 ‘하우스머치’를 운영하고 있다. 또한, 상업용 부동산 가치 평가 솔루션을 개발하는 자이랜드는 자동화된 부동산 가치평가 서비스를 제공하고 있다. 이 서비스는 실거래가, 임대료, 유동인구 등 다양한 데이터를 활용하여 빅 데이터를 구축하고, 주거 및 상업용 부동산의 시세 데이터와 부동산 관련 이슈, 정책, 재건축 및 건설 계획 등을 반영한 ‘인공지능 감정평가’ 시스템을 지향하고 있다.

Figure 6.

HouseMuch system configuration diagram

학술적으로는 경희대학교 부동산학과에서 AI 기술을 활용하여 서울시 오피스 건물의 심미성 측정과 임대료 추정 모형 적용 연구를 진행하였다. 이 연구에서는 건물의 심미성을 컴퓨터 비전과 머신 러닝 기술을 활용하여 측정하고 임대료를 추정하였다. 서울시 오피스 건물의 사진을 통해 디자인 수준을 전문가 평가하고, 컴퓨터 비전으로 추출한 이미지 특성 값 벡터를 머신 러닝하여 전체 표본의 심미성을 측정하였다. 이 연구에서는 XGBoost 모델의 적합도가 회귀분석보다 월등히 높은 것으로 나타났다. 이 연구 결과를 토대로, 향후 부동산 가치 추정과 관련하여 변수 설정 문제를 보완하고 추정 모형을 정교화하는 연구를 계속할 예정이다. 또한, 부동산 산업에서는 가치 창출을 위한 데이터 연결과 응용의 필요성을 주장한 연구가 있다. 또한, 블록체인 기술을 활용한 등기제도를 활성화하기 위한 법제도 개선 방안을 논의한 연구도 진행되었다.

이처럼 국내에서도 AI를 활용한 부동산 가치 측정 연구가 진행되었지만, 활발하게 진행되고 있지는 않다. 학술적인 연구에서는 기존의 가치 측정에 대한 활용성 측면의 연구가 많이 이루어지고 있으며, 새로운 가치 측정 모델에 대한 연구는 상대적으로 적은 편이다. 이에 정부는 부동산 산업을 투명하고 건전한 고부가가치 산업으로 육성하기 위하여 2018년 6월 20일 부터 ｢부동산서비스산업 진흥법｣을 본격 시행하였다. 2020년 12월 24일에는 부동산서비스산업의 고부가가치화와 신뢰 확보를 위한 ‘제1차 부동산서비스산업 진흥 기본계획’을 발표하였다. 이에는 프롭테크 등 유망 신산업이 부가가치를 창출할 수 있도록 집중 육성한다는 내용을 포함하고 있다.

성장이 느린 부동산 산업이 기술의 발전으로 빨라지고 있다. 4차 산업혁명의 IT 기술을 바탕으로 부동산 산업에 다양한 시도들이 나타나며 프롭테크 성장이 가속화되고, 관심이 높아지고 있다.

Figure 7.

Proptech investment status^¹⁾

2.2 해외 기업의 사례 및 학술 연구

해외에서는 부동산 시장 분석과 예측에 AI와 빅데이터 분석 기술이 많이 활용되고 있다. 부동산 시장과 관련된 다양한 분야에서 이러한 기술과 방법론을 활용하여 부동산 시장 데이터를 수집, 분석하여 부동산 가격 예측, 부동산 개발 계획, 투자 기회 분석 등의 정보를 제공한다.

미국 최대 부동산 정보 제공업체인 Zillow는 빅데이터와 인공지능을 활용하여 주택 가격 예측 모델을 개발하였으며, 부동산 시장 데이터와 함께 인구, 교통, 학군 등 다양한 요인을 고려하여 정확한 예측을 제공한다. 시애틀의 부동산 스타트업 기업 CityBldr은 빅데이터 분석과 인공지능을 활용하여 부동산 개발을 돕는 플랫폼을 제공하고 있으며, 부동산 시장 데이터와 함께 지역 정책, 교통, 인구 등 다양한 요인을 분석하여 최적의 부동산 개발 계획을 제시한다. Skyline AI는 부동산 투자 분석에 머신러닝과 딥러닝을 활용하며, 부동산 시장 데이터와 함께 인구, 교통, 경제 지표 등 다양한 요인을 분석하여 최적의 투자 기회를 찾아내는 AI 모델을 개발하고 있다. Reonomy는 부동산 데이터를 수집하여 부동산 시장 분석을 지원하는 스타트업 기업으로, 빅데이터 분석과 AI 기술을 활용하여 부동산 시장 데이터를 수집하고 분석하여 부동산 투자에 대한 인사이트를 제공하고 있다.

Figure 8.

Representative overseas proptech companies

학술적으로 “A Deep Learning Approach to Real Estate Valuation with Automated Valuation Models (AVMs)” by M. Lienhard and M. Wörnlein (2019) 논문에서는 부동산 평가를 자동화하기 위해 딥러닝 기술을 활용하는 방법을 제안하는 것을 목적으로 한다. 특히, Automated Valuation Models (AVMs)을 사용하여 부동산 가치를 결정하는 방법을 자세히 분석하고 있다. AVMs은 데이터 분석을 통해 부동산 가치를 예측하는 모델로, 이 모델을 개선하기 위해 딥러닝 기술을 도입하여 정확도를 높이는 방법을 제시하고 있다.

또한, “Predicting Residential Real Estate Prices Using Machine Learning Techniques” by P. Bao, D. K. Tse, and X. Li (2018)에서는 머신 러닝 기술을 사용하여 주택 가격을 예측하는 모델을 제안하였다. 데이터는 국가 통계 데이터베이스에서 수집되었으며, 여러 머신 러닝 모델을 비교하여 성능을 분석하였다. 모델의 성능 평가는 평균 제곱근 오차 (Root Mean Square Error, RMSE)와 평균 절대 오차 (Mean Absolute Error, MAE)를 사용하여 이루어졌으며, 새로운 모델이 기존의 모델보다 우수한 성능을 보였다.

“A Hybrid Machine Learning Model for Real Estate Price Prediction” by S. Fan, J. Zhang, and X. Du (2019)에서는 부동산 가격 예측에 머신 러닝 모델과 인공 신경망 모델을 결합하여 새로운 하이브리드 모델을 제안하였다. 이 모델은 지역적인 특성을 고려하여 더욱 정확한 예측을 가능하게 했다. 연구진들은 부동산 시장의 특성을 고려하여 집값 결정에 영향을 미치는 다양한 요인들을 분석하였다. 그리고, 이러한 요인들을 기반으로 다양한 머신 러닝 모델과 인공 신경망 모델을 학습시켰다. 이후, 이 두 모델의 예측 결과를 조합하여 하이브리드 모델을 구축하였으며, 연구 결과, 제안한 하이브리드 모델은 다른 기존 모델들과 비교하여 더욱 정확한 예측을 보여주었다.

이 밖에도, “Predicting Real Estate Prices Using Convolutional Neural Networks” by S. Kavulya, S. P. Karumuri, and V. K. Agarwal (2020)에서는 합성곱 신경망 (Convolutional Neural Network)을 사용하여 부동산 가격 예측 방법을 제안하였다. 또한, “Predicting Real Estate Prices using Random Forest Regression”이라는 논문에서는 랜덤 포레스트 (Random Forest) 회귀 분석을 사용하여 부동산 가격을 예측하는 방법을 제안하였다.

“Real Estate Price Forecasting using Machine Learning Techniques: A Comprehensive Review” by S. B. Shukla, S. S. Wagh, and S. K. Patil (2020)에서는 부동산 가격 예측에 대한 전반적인 리뷰를 제공한다. 이 논문은 다양한 머신 러닝 모델과 데이터 분석 기술을 자세히 분석하고 각 모델의 장단점을 비교한다.

기업 사례와 연구를 통해 확인된 것처럼, AI와 빅데이터 분석 기술은 부동산 시장 분석 및 예측에 큰 잠재력을 가지고 있다. 이에 본 연구에서도 AI와 빅데이터 분석 기술을 활용하여 글로벌 도시의 부동산 시장을 분석하고 부동산 수익률 결정 모형을 개발할 예정이다.

3. 연구 대상 도시 선정

3.1 글로벌 부동산 시장의 현황 분석

2008년 글로벌 금융위기 이후, 부동산 투자는 전반적으로 더욱 활발해졌다. 이 기간 동안 글로벌 부동산 시장은 저금리 정책과 유동성 증가의 영향으로 활성화되었으며, 이로써 부동산 투자에 대한 인기가 상승하였다. 이에 따라 부동산 시장에 대한 관심이 증대되었고, 투자자들은 부동산을 안전하고 안정적인 투자 수단으로 인식하게 되었다. 특히, 전 세계적으로 인구 증가와 도시화가 진행되면서 부동산 수요가 증가하였으며, 글로벌 부동산 시장에서는 자본의 유동성이 증대되어 글로벌 자본 유입이 증가함에 따라 부동산 시장이 더욱 활성화되었다.

최근 10년간 전 세계 부동산 투자시장에서는 다음과 같은 동향이 나타나고 있다.

(a) 부동산 투자의 글로벌 증가 : 부동산 투자는 전 세계적으로 증가하고 있다. CBRE에 따르면, 2012년에는 전 세계 부동산 투자액이 1조 4000억 달러였지만, 2019년에는 1조 9000억 달러로 증가하였다.

(b) 부동산 투자의 다양화 : 최근에는 전통적인 부동산 투자 대신 다양한 부동산 관련 분야에 투자하는 추세가 강해지고 있다. 예를 들어 부동산 기반의 스타트업, 쉐어오피스, 호텔 등 부동산 관련 산업들에 대한 투자가 증가하고 있다.

(d) 부동산 투자 유형의 변화 : Deloitte는 부동산 투자 유형의 변화에 대해 강조하고 있다. 2010년부터 2020년까지, 상업용 부동산 투자 비중은 감소하고 주거용 부동산 투자 비중은 증가하였다.

(e) 테크놀로지의 역할 : 부동산 투자에 테크놀로지의 역할이 점차 더 커지고 있다. CBRE는 부동산 투자 기업이 인공지능, 빅데이터 및 기타 디지털 기술을 적극적으로 활용하고 있다는 것을 강조하고 있다.

(f) ESG의 중요성 증대 : ESG (환경, 사회, 지배구조) 기준이 부동산 투자에 중요한 역할을 하고 있다. PwC는 ESG 기준을 충족하는 부동산에 대한 투자가 점차 더 많아질 것으로 예상하고 있다.

(g) 코로나19의 영향 : 코로나19 팬데믹은 부동산 투자 시장에 영향을 미쳤다. Deloitte는 코로나19 팬데믹으로 인한 경제적 충격으로 인해 투자자들이 안정적이고 신뢰성 있는 자산에 더 많은 관심을 기울이고 있다고 강조하고 있다.

3.2 부동산 투자의 섹터 구분

부동산 투자에서는 각 섹터를 구분하는 것이 부동산 시장의 특성과 투자 기회를 분석하는 데 중요한 역할을 한다. 아래 표는 부동산 투자 포트폴리오를 구성하는 데 고려되는 일반적인 주요 섹터를 보여준다.

Table 1.

Real estate investment sector

상기 섹터 구분에서 데이터 수집이 불가능한 특수목적 부동산을 제외하고, 아래 5개의 주요 섹터를 분석 대상으로 선택하였다.

3.3 다각도로 살펴본 글로벌 도시들의 특징 분석 및 선택

3.3.1 정량적

경제와 부동산 투자 측면에서 선정된 각각 5개와 3개의 기준을 토대로 상위 10개 도시를 선정하고, 각 도시마다 1위는 10점, 10위는 1점을 부여하여 그 합계가 높은 순으로 5개 도시를 선정하였다.

경제 측면에서는 GDP, 대기업 수, 경제 순위 등의 기준으로 선정되었으며, 도시 경쟁력 측면에서는 2021년 Global City Competitiveness Index (GCCI) 보고서, 2020년 Global Cities Index (GCI) 등의 기준을 사용하여 순위를 매겼다.

Table 2.

Selection criteria for economic and real estate investment measures

부동산 측면에서는 오피스 빌딩 수, 리츠 설정 금액, 부동산 거래 금액 등의 기준을 사용하였으며, 이는 CBRE, Deloitte, JLL 등의 기업에서 발표한 보고서를 바탕으로 하였다. 또한, FTSE EPRA Nareit Global Real Estate Index Series와 2020 상반기 RCA (Real Capital Analysis)를 기준으로 순위를 매겼다.

이러한 기준을 바탕으로 경제와 부동산 측면에서 선정된 5개 도시는 서울, 뉴욕, 도쿄, 런던, 파리다. 이 중에서는 뉴욕이 가장 높은 총점인 77점으로 1위를 차지하였으며, 그 뒤를 이어 도쿄, 서울, 런던, 파리 순이었다.

Table 3.

Total scores of 6 cities

3.3.2 정성적

서울, 뉴욕, 도쿄, 런던, 파리는 국제적으로 유명한 대도시로, 세계적인 경제 중심지로서 인정받고 있다. 이들 도시는 각종 산업 분야에서 선도적인 기업과 기관이 입지하여 글로벌 경제에서 주요한 역할을 수행하고 있다. 또한, 문화, 예술, 역사, 자연 등에서도 유명하며 많은 관광객이 방문하는 인기 있는 여행지이기도 하다. 이들 도시는 교통 및 인프라가 잘 발달되어 있으며, 현대적이고 다양한 건축물들이 입지하고 있다. 또한, 국제적인 학문, 연구, 문화, 경제, 정치 등 다양한 국제적인 행사들이 개최되는 장소이기도 화다. 이들 도시는 다양한 역사와 문화를 가지고 있어서, 많은 관광객들이 문화 체험을 하러 방문하기도 한다. 이들 도시에서는 매년 다양한 축제들이 열리며, 지역 주민들과 외국인들이 함께 즐길 수 있는 문화적인 활동들이 활발하게 진행된다. 또한, 글로벌 부동산 현황을 살펴볼 때 필수 주요국인 미국, 일본, 한국이며 해당 중요 국가의 대표적인 도시들이다. 그리고, 런던과 파리는 글로벌 부동산 경기 사이클을 분석하는데 유럽 국 중에서 필수국인 국가의 주요 도시다.

빅데이터를 활용한 글로벌 부동산 가격 분석에 대한 학술적 연구에서는 주택가격 버블 가능성이 높은 5개국 (호주, 캐나다, 이스라엘, 뉴질랜드, 스웨덴)을 선정하여 의사결정 트리 모형의 회귀분석을 진행하기도 하였다.

3.3.3 결정

본 연구에서는 정량적과 정성적인 분석을 종합하여 전통적으로 전세계적으로 경제를 이끌어가고 있는 주요국의 주요도시인 서울, 뉴욕, 도쿄, 런던, 파리를 대상으로 수익률 결정 모델을 개발하였다.

4. 데이터 수집과 전처리

4.1 개요

5개 도시의 2005년부터 2022년까지 18개년의 데이터를 수집하였으며, 데이터의 종류는 국가, 도시, 산업, 부동산 지표로 4가지로 분류된다. 이 데이터들은 Tabular 데이터로, 전통적인 데이터베이스 시스템에서 사용되는 데이터 형식과 유사한 형태를 가지고 있으며, 엑셀 스프레드시트나 SQL 테이블과 비슷한 구조를 갖추고 있다.

Table 4.

Overview of collected data

4.2 데이터의 종류별 설명

4.2.1 국가 지표

각 도시는 속한 국가의 거시경제 변수에 영향을 미치므로 국가 단위의 지표를 수집했다. 각 국가별로는 면적, 인구, 가구수 등 기본적인 데이터 뿐만 아니라 GDP (Gross Domestic Product), CPI (Consumer Price Index), 기준금리 등과 같은 경제 지표를 수집했다.

GDP는 국내총생산을 나타내며, 한 국가에서 특정 기간 동안 생산된 재화와 용역의 시장 가치를 측정하는 지표다. 이는 한 나라의 경제규모를 나타내는 중요한 지표로 널리 사용된다. 이 연구에서도 해당 국가의 경제 수준을 측정하기 위해 GDP 데이터를 수집했다. CPI는 소비자물가지수를 의미한다. 이 지수는 소비자가 구입하는 상품이나 서비스의 가격 변동을 나타내며, 해당 국가의 물가 상승률 (인플레이션)을 측정하는 데 사용된다. 이 연구에서는 각 국가의 소비자물가지수를 수집하여 물가 상승률을 분석하고자 한다.

4.2.2 도시 지표

각 도시별로 면적, 인구, 인구밀도, 가구수 등의 기본적인 데이터뿐만 아니라 GRDP (Gross Regional Domestic Product)와 각 섹터 별 특성을 나타내는 경제적 지표를 수집했다.

GRDP는 해당 지역의 총생산을 나타내는 지표로, 도시의 경제 규모와 활동 수준을 파악하는 데 사용된다. 이를 통해 각 도시의 경제적 특성을 이해하고 분석할 수 있다. 또한, 각 섹터 별 특색을 나타내는 지표들을 수집했다. 이러한 지표들은 각 도시의 주요 산업이나 경제 활동을 파악하고, 해당 도시의 경제 구조를 이해하는 데 도움을 준다. 이러한 데이터를 통해 각 도시의 경제적 특성과 성장 동력을 분석할 수 있다.

Table 5.

Major country and city indicators for each city

4.2.3 산업 지표

각 부동산 섹터는 다른 산업에 속하므로 해당 섹터가 속한 산업의 데이터를 수집했다. 수집된 지표들은 각 국가 및 도시별로 상이하며, 해당 시장의 규모를 결정하거나 영향을 미치는 지표들로 수집했다. 이러한 데이터는 각 부동산 섹터의 특성과 시장 동향을 이해하고 분석하는 데 도움을 준다. 각 섹터가 속한 산업의 데이터를 수집함으로써 해당 도시 또는 국가의 부동산 시장을 더 정확하게 파악할 수 있다.

Table 6.

Major industry indicators for each investment sector

리테일 섹터에서는 리테일 종사자 수와 리테일 매출 등을 수집했다. 이러한 지표들은 해당 도시의 리테일 시장 규모를 측정할 수 있는 중요한 지표로 활용된다. 물류 섹터에서는 이커머스의 매출과 택배시장 규모를 통해 해당 도시의 물류 시장 규모를 측정했다. 또한, 스마트폰 보급률을 선정하여 물류 시장 변화에 큰 영향을 끼치는 지표로 수집했다. 오피스 섹터에서는 금융 및 보험업 사업체 수와 종사자 수를 통해 오피스 시장 규모를 파악했다. 호텔 섹터에서는 해외 여행객과 국내 여행객의 수를 수집하여 해당 도시의 호텔 시장 규모를 측정했다. 또한, 호텔의 전체 객실 수, ADR (평균 객실 요금), RevPAR (판매 가능한 객실 평균 요금)를 수집하여 영향도를 확인했다. 주거 섹터에서는 주택가격지수, 평균 주택 가격, 총 거래 가격 등을 수집했다. 또한, 실업률도 주택가격에 영향을 미치는 지표로써 수집하여 영향도를 체크했다.

4.2.4 부동산 지표

부동산 지표로는 각 섹터 별 부동산의 공급 및 거래, 임대료 등을 수집했다. 이를 위해 MSCI (Morgan Stanley Commercial Index)와 한국의 부동산 리서치를 수행하는 WRC (Wefunding Research Center)의 데이터를 활용했다. 이러한 데이터는 글로벌 부동산 투자 수익률을 조사하는 데 중요한 역할을 한다.

Table 7.

Key real estate indicators by each investment sector

또한, 각 도시의 섹터별 수익률을 조사하여 수집하였다. 이러한 데이터는 개발할 딥러닝 모델의 예측 수익률과 비교 분석하는 데 사용되었다.

Figure 9.

List of collected data

4.3 데이터의 특징 및 전처리 과정

수집된 5개 도시의 5개 섹터의 데이터는 정형 데이터이며, 엑셀 시트에서 흔하게 볼 수 있는 테이블 형태의 데이터다. 각 섹터에 대한 feature는 컬럼에 위치하고, 각 도시의 데이터는 row에 위치한 구조를 가지고 있다.

Figure 10.

Tabular data

이러한 데이터는 구조화된 형태로, 행과 열로 구성되어 있으며 각 행은 개별 기록을, 열은 해당 기록의 특성 (속성, 변수)을 나타낸다. Tabular 데이터는 기계 학습, 특히 딥러닝에서 정형 데이터로 다루어지며, 많은 비즈니스 및 연구 분야에서 중요한 데이터 형태로 평가받는다. 이는 전통적인 머신러닝 알고리즘과 딥러닝 모델에 모두 적용 가능하다. 또한, 본 연구에서는 Tabnet 모델을 활용하여 전처리 과정을 요구하지 않는다.

5. 수익률 예측 딥러닝 모델 개발

본 연구에서는 2021년까지의 데이터를 사용하여 2022년의 수익률을 예측하는 모델을 개발하였다. 이를 위해 딥러닝과 회귀분석을 비교하여 모델의 예측 성능을 검증하였다.

딥러닝 분야에서는 대부분 이미지, 음성, 언어와 같은 비정형 데이터에서 높은 성능을 보이지만, 정형 데이터에 대한 딥러닝 모델도 연구되고 있다. 이 중에서 본 연구에서는 TabNet이라는 모델을 사용하였다. TabNet은 Decision Tree 기반 모델과 Deep Neural Networks의 장점을 결합한 모델로, 데이터의 특성을 잘 이해하면서도 높은 성능을 보인다. TabNet은 전처리 과정이 필요 없으며, 경사하강법을 사용하여 최적화되는 구조를 가지고 있어 end-to-end 학습에 유연하게 적용할 수 있다. 또한, sequential attention을 사용하여 feature 선택의 이유를 추적하여 모델의 해석 가능성을 확보하였다. 이러한 특징들은 모델의 성능을 향상시키고, 동시에 모델의 해석력을 유지하는 데 도움이 된다.

Table 8.

Advantages and disadvantages of TabNet deep learning model

따라서 본 연구에서는 TabNet을 통해 정형 데이터를 사용하여 수익률을 예측하는 모델을 개발하고, 회귀분석과 비교하여 모델의 성능을 검증하였다. 결과적으로 TabNet이 높은 예측 성능과 해석 가능성을 모두 가지고 있어, 향후 부동산 투자에 대한 의사 결정을 지원하는 데 유용할 것으로 기대된다

6. 수익률 결정 모형 적용 및 결과 분석

6.1 딥러닝을 통한 수익률 결정 모형 결과 확인

개발한 딥러닝 모델에 수집한 데이터를 적용하여 딥러닝 모델의 예측 신뢰성을 검증하였다. 신뢰성 검증은 2005년부터 2021년까지의 데이터를 학습 표본으로 하여 모델을 학습시키고, 2022년의 데이터를 통하여 2022년 수익률을 예측하였다. 예측한 수익률과 실제 수익률 값을 비교하여 신뢰성을 검증하였다. 결과는 Figure 11과 같다.

Figure 11.

Deep learning results

딥러닝을 통한 수익률 예측 결과, 정확도는 낮은 수준으로 오차율은 45% 이상으로 나타났다. 서울은 주거를 제외한 리테일, 물류, 오피스, 호텔 섹터에서, 뉴욕은 리테일과 주거, 호텔 섹터에서, 런던은 대부분의 섹터에서 상대적으로 준수한 신뢰도를 보여주었다. 예측 결과의 신뢰도 및 예측 정확성을 파악하기 위해서 성능 지표를 활용하여 신뢰도 측정을 하였다.

6.2 딥러닝을 통한 수익률 결정 모형 신뢰도 측정

사용한 성능 지표는 MSE, RMSE, MAE의 지표를 사용하였다. MSE는 실제 값과 예측 값의 차이를 제곱하여 평균한 값으로 에러의 넓이의 합의 평균을 나타낸다. MSE 값이 작을수록 모델의 정확도가 높다고 판단된다.

Figure 12.

MSE

MSE 값은 에러의 제곱의 평균으로 실제 에러보다 큰 에러들의 평균을 가지는 특성이 있다. 그래서 MSE값에 √ 루트를 씌워 RMSE 값을 사용하여 정밀도를 향상시켰다.

MAE는 실제값과 예측값의 차이를 절대값으로 변환하여 평균한 값으로, 모든 오차의 절대값을 평균한 것이다. MAE 값이 작을수록 모델의 정확도가 높다고 판단된다. MAE는 에러의 크기가 그대로 반영되는 지표로 이상치가 많을 때 사용하면 용이하다.

Figure 13.

MAE

위 3가지 성능 평가 지표를 기반으로 모델의 신뢰도를 측정한 결과, 모든 섹터의 평균 MSE 값은 약 462이며, RMSE 값은 약 11.7, MAE 값은 약 10.5의 수준을 보였다. 다만, 런던과 서울, 뉴욕의 경우에는 뉴욕의 오피스 섹터와 런던의 물류, 서울의 주거 섹터를 제외하면 MSE 값이 약 5.5정도로 낮은 수준을 보이며, RMSE 값과 MAE 값도 상대적으로 낮은 수준을 보였다. 이는 이 세 도시의 딥러닝 모델이 상대적으로 더 나은 성능을 보였음을 시사한다.

Figure 14.

Performance indicators

6.3 회귀분석을 이용한 딥러닝 성능 검증

본 연구에서는 사용하는 데이터가 정형 데이터로, 회귀분석이 딥러닝보다 좀 더 좋은 성능을 나타낸다는 것을 고려하여 회귀분석을 이용한 수익률 예측 모델을 개발하고, 이를 딥러닝 수익률 예측 모델과 비교하였다.

6.3.1 회귀분석 개요

본 연구에서는 선형 회귀 (Linear Regression), 의사결정트리 (Decision Tree), 랜덤포레스트 (Random Forest), LGBM (Light Gradient Boosting Machine) 등 4가지 회귀분석 모델을 활용하여 수익률 예측 모형을 개발하였다.

(a) 선형회귀 (Linear)

선형 회귀는 설명변수와 목표변수 간의 관계를 통계적으로 모델화하여 목표변수를 설명하거나 예측하는 방법론이다. 이를 통해 주요 설명변수를 탐색하고 예측 문제를 해결하는 데에 널리 사용된다. 선형 모델은 특히 샘플에 비해 특성이 많을 때 잘 작동하며, 데이터 분석 및 해석에 있어서 가장 흔히 사용되는 방법 중 하나다.

선형 회귀의 분석 절차는 크게 4가지로 나눌 수 있다. 먼저 데이터의 경향성을 확인하고, 그 다음 모델의 적합성을 평가한다. 이어서 회귀계수를 계산하고 유의성을 확인하며, 마지막으로 적절한 모델을 선택한다. 이 중에서 데이터 경향성 확인 단계에서는 목표변수와 설명변수 간의 관계를 산점도 행렬을 통해 시각화하고 상관관계를 분석한다. 이를 통해 변수 간의 선형 관계와 이상치 여부를 확인할 수 있다.

2개의 연속형 변수 간의 관계 확인을 위해 좌표 평면에 데이터를 행렬 형태로 표시하는 산점도를 시각화한다. 이를 통해 설명변수 (X)의 변화에 따른 목표변수 (Y)의 추이를 어느정도 확인하실 수 있을 뿐만 아니라 이상치 유무도 확인할 수 있다.

Figure 15.

Example of occupancy matrix

또한, 상관관계를 분석하여 변수 간의 선형관계를 측정할 수 있다. 상관계수는 -1부터 1까지의 값으로 표현되며, 절댓값이 클수록 상관관계가 크다고 해석된다. 음의 상관관계는 한 변수가 증가할 때 다른 변수가 감소하는 관계를 의미하고, 양의 상관관계는 두 변수가 함께 증가 또는 감소하는 관계를 나타낸다.

요약하자면, 선형 회귀는 데이터의 선형 관계를 모델링하여 목표변수를 설명하고 예측하는 강력한 통계적 방법론이다. 데이터 분석에서 이용되는 다양한 방법 중 하나로서, 분석 결과를 신뢰할 수 있도록 데이터의 특성을 잘 이해하고 적절한 분석 절차를 따라야 한다

(b) 의사결정트리 (Decision Tree)

의사결정트리 (Decision Tree) 학습법은 결과 데이터를 학습하는 지도 학습의 한 유형이다. 결과 데이터가 연속적인 값인 경우 회귀 (Regression)를 사용하고, 카테고리로 나누어진 경우 분류 (Classification)를 사용한다. 이 연구에서는 결과 데이터가 하나의 수치로 표현되므로 회귀를 사용하여 분석하였다.

Figure 16.

Example of pruning

의사결정트리는 질문을 순차적으로 던져서 의사결정을 하는 머신러닝 모델이다. 이 모델은 시각화하기 쉬워서 비전문가도 이해하기 쉽고, 데이터의 스케일에 영향을 받지 않는 장점이 있다. 그러나 모델이 가진 데이터 범위를 벗어나면 새로운 데이터를 예측할 능력이 제한된다. 또한, 사전 가지치기를 사용해도 과대적합되는 경향이 있어 일반화 성능이 떨어질 수 있다.

가지치기 (Pruning)는 트리의 크기를 조절하기 위한 방법으로, 큰 트리를 만든 뒤 적절한 크기로 가지치기하여 모델을 최적화한다. 이 방법을 통해 현재의 트리에서는 성능이 좋지 않더라도 깊이가 더 깊어질 때 성능이 향상되는 경우를 발견할 수 있다.

c) 랜덤포래스트 (Random Forest)

랜덤포레스트 (Random Forest) 분석은 의사결정트리(Decision Tree) 모델을 여러 개 훈련시켜서 그 결과를 종합해 예측하는 앙상블 기법 중 하나다. 이를 통해 알고리즘의 안정성과 정확성이 향상되고 일반화 및 성능이 우수하다는 평가를 받고 있다. 또한, 랜덤포레스트는 파라미터의 조정이 용이하고 데이터의 스케일 변화에 대해 민감하지 않다. 하지만, 랜덤포레스트의 개별 트리 분석이 어렵고 트리 분기가 복잡해지는 경향이 있다. 또한, 텍스트와 같이 차원이 크고 희소한 데이터에는 성능이 떨어질 수 있다. 더불어 학습 데이터를 추가해도 모델 성능을 개선하는 것이 어려울 수 있다.

Figure 17.

Random Forest

(d) LGBM (Light Gradient Boosting Machine)

Light GBM (Light Gradient Boosting Machine)은 그래디언트 부스팅 (Gradient boosting) 방식의 트리 기반 학습 알고리즘으로, 다른 알고리즘이 트리를 수평으로 확장하는 것과는 달리 트리를 수직으로 확장한다. 이는 기존의 알고리즘이 수평으로 확장하여 포화 트리를 만드는 반면, Light GBM은 최대 Delta loss가 증가하도록 잎의 개수를 조정하여 트리를 확장하는 Left-wise Tree Growth 방식을 채택한다. 이로 인해 Leaf-wise 알고리즘은 다른 Level-wise 알고리즘보다 더 낮은 손실을 달성하는 경향이 있다. 그러나 데이터가 작을 경우 과적합이 발생할 수 있으므로 Max Depth를 줄여주는 것이 좋다.

Figure 18.

Leaf-wise tree and level-wise tree

‘Light’라는 이름에 걸맞게 Light GBM은 빠른 속도와 적은 메모리 사용량을 가지고 있다. 또한, 결과의 정확도가 높고 GPU를 활용할 수 있는 장점을 갖추고 있어 널리 사용되고 있다. 그러나 데이터의 크기가 작을 경우 overfitting에 민감할 수 있으며, 이러한 경우에는 기존의 머신러닝 알고리즘이 더 나은 성능을 보일 수 있다. 보통 데이터의 개수가 10,000개 이상일 때 Light GBM을 사용하는 것이 좋다. 또한, Light GBM을 학습시킬 때는 범주형 변수를 숫자형 변수로 변환하여 사용한다. 이 때 가장 널리 쓰이는 방법은 원-핫 인코딩 (One-hot encoding)인데, 트리 모델에서 범주의 개수가 많은 변수를 원-핫 인코딩하면 트리가 언밸런스해지고, 훈련 시간이 증가하며 과적합할 위험이 높아질 수 있다

6.3.2 회귀분석을 통한 수익률 결정 모형 개발

회귀 분석 결과를 종합해 본 결과, 선형 회귀를 포함한 다른 회귀 모델들 중에서 가장 널리 사용되는 선형 회귀 모델은 예측 성능이 상대적으로 낮았다. 이는 수집된 데이터의 특성이 충분하지 않거나 데이터가 비선형성을 가지고 있어서 발생한 것으로 추론된다. 그러나 선형 회귀 모델은 결과를 해석하고 설명하는 데 유용한 정보를 제공하기 때문에, 해당 모델을 통해 각 특성이 수익률에 미치는 영향을 자세히 살펴보았다.

Figure 19.

Regression analysis predicted value results

한편, 나머지 회귀분석 모델들은 예측 성능이 우수한 것으로 나타났다. 특히 랜덤포레스트 모델은 MSE, RMSE, MAE 등의 성능 지표가 매우 낮은 수준을 보여 우수한 성능을 나타내고 있다. 이 모델은 예측값과 실제 수익률 사이의 작은 오차를 보이며, 가장 작은 오차율은 0.4%에 불과하며, 가장 높은 오차율도 다른 모델과 비교하여 큰 차이가 나지 않았다.

Figure 20.

Performance indicators for each regression analysis model

따라서 이러한 회귀 분석 결과를 바탕으로 랜덤포레스트 모델과 딥러닝 모델의 성능을 비교하여 딥러닝 모델의 성능을 심층적으로 검증할 예정이다. 이를 통해 수익률 예측 모델의 성능 향상을 위한 새로운 방향을 모색하고자 한다.

6.3.3 회귀분석을 이용한 딥러닝 성능 검증

딥러닝 모델의 예측값과 실제 수익률 간의 오차율은 최대 약 200000%를 초과하는 경우가 있으며, 최소 오차율은 45% 수준으로 나타났다. 이에 비해 랜덤포레스트 모델은 최대 오차율이 약 68%로 제한적이고, 최소 오차율은 0.4%로 딥러닝보다 훨씬 우수한 예측력을 보여주고 있다.

Figure 21.

Comparison of random forest and deep learning performance

Figure 22.

Error rate of deep learning and random forest

또한, 딥러닝과 랜덤포레스트 모델의 성능 지표를 비교하면, 딥러닝 모델은 모든 지표가 10 이상의 값을 보이는 반면, 랜덤포레스트는 모든 지표가 0.01 미만의 수준을 보이고 있다. 이러한 성능 차이는 평균적으로 약 161의 차이를 보이고 있다.

Table 9.

딥러닝과 랜덤포레스트의 오차율

Figure 23.

Comparison of overall deep learning performance and regression analysis performance

그러나 특정 도시인 뉴욕, 런던, 서울의 경우 딥러닝 모델의 성능이 전체적인 딥러닝 모델보다는 낮지만, 회귀분석과 비교하면 비교적으로 준수한 성능을 보이고 있다.

Figure 24.

Overall deep learning performance and deep learning performance for three cities. Comparison with regression analysis performance

6.4 소결

현재 딥러닝 모델의 성능은 데이터 부족으로 인해 회귀분석 모델에 비해 낮은 수준을 보이고 있다. 이는 딥러닝 모델이 효과적으로 학습하고 높은 예측 정확도를 달성하기 위해서는 대규모의 고품질 데이터가 필요하기 때문입니다. 회귀분석은 비교적 적은 데이터로도 유의미한 결과를 도출할 수 있어 현재 데이터 환경에서는 더 적합한 방법론으로 간주될 수 있다.

그러나 앞으로 데이터가 지속적으로 축적됨에 따라 상황은 크게 변할 것으로 예상된다. 특히 다양한 데이터 소스가 통합될 경우, 딥러닝 모델의 성능 향상 가능성은 매우 높다. 예를 들어, 현재 연구에서 사용된 데이터뿐만 아니라 경제 지표, 산업 지표 등 다양한 추가 데이터를 포함시키면 딥러닝 모델은 더 풍부한 정보 기반 위에서 학습할 수 있게 된다. 추가적으로 데이터의 양뿐만 아니라 데이터의 다양성도 딥러닝 모델의 성능을 향상시키는 중요한 요소다. 경제 지표나 산업 지표 같은 비정형 데이터나 시계열 데이터가 포함되면, 딥러닝 모델은 이질적인 데이터 간의 복잡한 관계를 학습하고 예측력을 높일 수 있다. 이러한 데이터는 딥러닝 모델이 더 많은 패턴을 인식하고 더 정교한 예측을 가능하게 한다. 또한, 데이터 전처리 기술의 발전과 데이터 증강 기법의 도입도 딥러닝 모델의 성능 향상에 기여할 수 있다. 예를 들어, 부족한 데이터를 보완하기 위해 데이터 증강 기법을 사용하거나, 노이즈가 많은 데이터를 정제하는 기술이 발전하면, 딥러닝 모델은 더 정확한 학습을 할 수 있게 된다.

결론적으로, 현재는 데이터 부족으로 인해 딥러닝 모델의 성능이 회귀분석 모델에 비해 낮을 수 있지만, 앞으로 데이터가 계속해서 축적되고 다양한 추가 데이터를 고려하게 되면, 딥러닝 모델의 활용 가능성은 더욱 높아질 것이다. 이는 더 정확하고 신뢰성 있는 예측을 가능하게 하여 다양한 산업 분야에서 딥러닝 모델이 중요한 역할을 할 수 있는 기반을 마련하게 될 것이다.

7. 결론 및 향후 연구 방향

7.1 연구 결과에 대한 해석

본 연구는 지난 18년간의 경제적 지표를 이용하여 TabNet 딥러닝 모델을 활용한 부동산 수익률 예측 결과를 확인했다. 예측치와 실제 결과치 사이에 상당한 차이가 있었으며, 이는 모델의 한계를 명확히 드러냈다. 연구는 약 2년 동안 진행되었고, 고비용의 데이터 수집과 모든 사용 가능한 데이터를 활용하였음에도 불구하고, 분석 모델의 정확도가 낮았다. 이러한 결과는 회귀분석과 비교했을 때 더욱 두드러졌다. 이는 딥러닝 모델이 효과적으로 학습하고 높은 예측 정확도를 달성하기 위해 대규모의 고품질 데이터가 필요하기 때문이다. 반면, 회귀분석은 비교적 적은 데이터로도 유의미한 결과를 도출할 수 있어 현재 데이터 환경에서는 더 적합한 방법론으로 간주될 수 있다.

그러나 앞으로 데이터가 지속적으로 축적되고 다양한 데이터 소스가 통합될 경우, 딥러닝 모델의 성능 향상 가능성은 매우 높다. 경제 지표, 산업 지표 등 다양한 추가 데이터를 포함하면 딥러닝 모델은 더 풍부한 정보 기반 위에서 학습할 수 있게 된다. 또한, 데이터의 양뿐만 아니라 데이터의 다양성도 딥러닝 모델의 성능을 향상시키는 중요한 요소다. 경제 지표나 산업 지표 같은 비정형 데이터나 시계열 데이터가 포함되면, 딥러닝 모델은 이질적인 데이터 간의 복잡한 관계를 학습하고 예측력을 높일 수 있다. 이러한 데이터는 딥러닝 모델이 더 많은 패턴을 인식하고 더 정교한 예측을 가능하게 한다.

본 연구는 부동산 수익률 결정 모델을 개발함으로써 분석 대상 도시의 선택, 각 섹터와 부문에 대한 데이터 수집의 중요성, 그리고 데이터의 출처에 대한 심도 있는 고민을 통해 분석의 기본적인 틀을 제공했다. 이러한 고민과 분석 틀은 향후 연구의 방향성을 제시하고, 데이터 수집 및 처리 방법에 대한 통찰을 제공할 것으로 기대된다. 향후 연구에서는 이러한 한계를 극복하고, 더 정확한 예측을 위한 모델 개선에 초점을 맞출 예정이다. 결론적으로, 현재는 데이터 부족으로 인해 딥러닝 모델의 성능이 회귀분석 모델에 비해 낮을 수 있지만, 앞으로 데이터가 계속해서 축적되고 다양한 추가 데이터를 고려하게 되면, 딥러닝 모델의 활용 가능성은 더욱 높아질 것이다. 이는 부동산 투자 시장에서 더 나은 예측 모델 개발과 데이터 분석 방법론의 발전에 기여할 것이다.

7.2 본 연구의 한계

7.2.1 데이터 수집의 한계

본 연구는 18년간 다섯 개 도시와 다섯 개 섹터를 대상으로 데이터를 수집하였으나, 수익률 분석에 필요한 데이터 양이 충분하지 않았다. TabNet과 같은 딥러닝 모델은 대규모 데이터셋을 필요로 하며, 소규모 데이터셋을 사용할 경우 과적합의 위험이 있었다. 또한, 부동산 투자는 장기간에 걸쳐 이루어지기 때문에 데이터 축적 속도가 느려 상대적으로 적은 데이터 양이 딥러닝 모델의 성능을 제한하는 주요 요인으로 작용하였다.

이러한 문제를 해결하기 위해 추후 연구에서는 부족한 데이터를 보완하기 위해 데이터 증강 기법을 사용하거나, 노이즈가 많은 데이터를 정제하는 기술을 활용하면, 딥러닝 모델은 더 정확한 학습을 할 수 있을 것다. 이를 통해 딥러닝 모델의 성능을 향상시킬 수 있을 것으로 기대된다.

7.2.2 딥러닝 모델의 한계

Tabular 데이터를 활용한 TabNet 딥러닝 모델은 대규모 데이터셋이 필요하거나 복잡한 모델 구조 등의 한계를 가지고 있다. 이러한 근본적인 한계는 본 연구에서도 동일하게 존재한다.

따라서 이 모델의 신뢰도 평가 결과를 고려할 때, 실무 분석을 진행하기 전에는 참고 자료로 활용하는 것이 적합하다고 판단된다.

7.3 향후 연구 방향 (딥러닝 모델 고도화 및 포트폴리오 구성 연구)

향후 연구는 두 가지 주요 방향으로 진행될 수 있다.

첫 번째로는 딥러닝 모델의 고도화다. 현재 연구에서는 데이터 부족으로 인해 딥러닝 모델의 성능이 제한되었다. 이를 극복하기 위해 향후 연구에서는 데이터의 축적 및 보강, 데이터 전처리 기술의 발전, TabNet 모델의 고도화에 초점을 맞출 것이다. 장기간의 추가 데이터 축적을 통해 데이터의 양을 늘리고, 다양한 경제 지표와 산업 지표 등 추가 데이터를 포함시켜 데이터의 다양성을 높이는 것이 중요하다. 노이즈가 많은 데이터를 정제하고, 부족한 데이터를 보완하기 위한 데이터 증강 기법을 활용하면 딥러닝 모델은 더 정확한 학습을 할 수 있으며, 과적합의 위험을 줄일 수 있다. 또한, TabNet 모델 자체의 성능을 개선하기 위한 연구를 통해 모델의 구조를 최적화하고 새로운 알고리즘을 도입하여 예측 정확도를 높이는 방안을 모색할 것이다. 이를 통해 딥러닝 모델의 활용 가능성을 더욱 확대할 수 있을 것이다.

두 번째로는 부동산 포트폴리오 구성에 대한 연구다. 부동산 투자에서 더 나은 예측과 전략적 결정을 지원하기 위해, 향후 연구는 수익률에 영향을 미치는 요인 분석과 최적화된 부동산 투자 포트폴리오 구성에 중점을 둘 것이다. 현재 연구를 통해 도출된 수익률에 영향을 미치는 주요 요인들을 분석함으로써, 투자 결정을 위한 유용한 정보를 제공할 수 있다. 다양한 데이터 분석 기법과 AI 기술을 활용하여 최적화된 부동산 투자 포트폴리오를 구성하는 방안을 연구할 것이다. 이를 통해 투자 위험을 최소화하고, 수익을 극대화할 수 있는 전략을 개발할 수 있다. 또한, 글로벌 기관투자자들 사이에서 부동산 투자 포트폴리오 비중이 증가하고 있는 추세를 반영하여, 국제적 데이터를 활용한 연구를 통해 보다 넓은 시각에서 포트폴리오 구성 전략을 개발할 것이다.

이와 같은 연구 방향은 부동산 투자 시장에서 더 나은 예측 모델 개발과 데이터 분석 방법론의 발전에 기여할 것이며, 다양한 산업 분야에서 딥러닝 모델이 중요한 역할을 할 수 있는 기반을 마련할 것이다.

Acknowledgements

본 연구는 본 논문은 동국대학교와 주식회사 위펀딩, WRC, Morgan Stanley CI (Commercial Index), Westone의 지원으로 수행된 연구결과 중 일부임을 밝히며 지원에 감사드립니다.

Notes

¹⁾

최원희. 2023. “프롭테크 스타트업 10년 누적 투자액 5조 7278억 원… 총 456건 투자”, 플래텀 에디터 (https://platum.kr/archives/217221).

References

Arık Sercan O., Pfister Tomas. 2019;TabNet: Attentive Interpretable Tabular Learning. arXiv preprint arXiv:1908.07442.

Bae Woo-Soon. 2019. Status of Proptech Companies and Challenges for Future Development Land. p. 21–26.

Bin Jae-Ik. 2014;Analysis of Global Real Estate Market Cycles through Cases of Major European Countries and Implications. Issue Focus 2014(1):2–25.

Cho Young-Im. 2019;Real Estate Industry Revitalization Strategies through the Integration of 4th Industrial Revolution Technologies such as Blockchain, IoT, and Real Estate Information. Real Estate Focus 115:166–181.

Won Jaewoong, KIM YURIANNA, Hwang Byounghoon. 2020;Use of Artificial Intelligence Techniques to Assess Architectural Aesthetics and Estimate the Rent Price of Office Buildings in Seoul. Journal of Appraisal Studies 19(1):5–26.

Jung Su-Jin. 2018. Analysis of Growth Cases of U.S. Real Estate Platform Companies and Implications Industry Technology Research Center.

KIM SUN JU, Jang Hee Soon. 2020;The Utilization and Influence of Fourth Industrial Revolution Technology in Appraisal Work. Journal of Real Estate Analysis 6(2):83–102.

Kim Kwang-Seok. 2013;Global Real Estate Trends: Insights through Comparison of Major Countries' Real Estate Markets. Construction Economy 2013:106–120.

Kim Kyung-Hoon, Yang Da-Young, Kang Eun-Jung. 2019. Global Real Estate Price Analysis Utilizing Big Data Korea Institute for International Economic Policy.

Lee HyunJun, Shin SeongYoun, Yoon YoungSik. 2021;Korean Academic Society of Business Administration. Korea Business Review 25(2):107–133.

Legislative Policy Research Institute. 2021. Research on the Status and Improvement Directions of the Domestic and International Proptech Industry

Lienhard M., Wörnlein M.. 2019. A Deep Learning Approach to Real Estate Valuation with Automated Valuation Models (AVMs)

Ministry of Land, Infrastructure and Transport Statistics. Statistics Nuri. http://stat.molit.go.kr.

NAK HYUN JUNG, Oh Taeyeon, Kim Kang Hee. 2023. A Study on AI-based Composite Supplementary Index for Complementing the Composite Index of Business Indicators

NAK HYUN JUNG, Oh Taeyeon, Kim Kang Hee. 2023. A Study on DRL-based Efficient Asset Allocation Model for Economic Cycle-based Portfolio Optimization

Bao P., Tse D. K., Li X.. 2018. Predicting Residential Real Estate Prices Using Machine Learning Techniques

Park Kwang-dong. 2020;A Study on the Change of Real Estate Registration by Blockchain. Ilkam Real Estate Law Review 20:139–160.

Kolte R. M., Ahire R. B.. 2018. Predicting Real Estate Prices using Random Forest Regression

Shukla S. B., Wagh S. S., Patil S. K.. 2020. Real Estate Price Forecasting using Machine Learning Techniques: A Comprehensive Review

Fan S., Zhang J., Du X.. 2019. A Hybrid Machine Learning Model for Real Estate Price Prediction

Kavulya S., Karumuri S. P., Agarwal V. K.. 2020;Predicting Real Estate Prices Using Convolutional Neural Networks

Article information Continued

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted noncommercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

섹터	설명	비고
상업용 부동산	사무실, 비즈니스 파크 등	“Commercial Real Estate Investment”, 2010. Andrew E. Baum
주거용 부동산	아파트, 단독 주택, 다세대 주택 등	“Residential Real Estate Analysis”, 2012. David M. Geltner, Norman G. Miller
산업/물류 부동산	창고, 배송 센터, 제조 시설 등	“Industrial Real Estate Investment”, 2014. Peter D. Linneman
리테일 부동산	쇼핑몰, 소매점, 상점가 등	“Retail Real Estate Dynamics”, 2016. Jonathan H. Lander
호텔/레저 부동산	호텔, 리조트 등	“Hospitality Real Estate Management”, 2018. Stephen Rushmore
특수목적 부동산	병원, 학교, 정부 건물 등	“Special Purpose Real Estate”, 2015. Karen E. Rubin

	데이터 개수	출처
국가	8	OECD
도시	5	OECD 및 각 도시 통계 자료
산업	1~4	OECD 및 각 국 발표 통계자료
부동산	3~6	MSCI, WRC
합계	14~21

투자 섹터	주요 지표	출처
주거	주택가격 지수, 주택시장 소비 심리 지수 등	OECD 및 각 국 발표 통계자료
상업	도매 및 소매업 종사자 수, 매출액 등
호텔	관광객수, ADR (Average Daily Rate), 객실점유율 (Occ.) 등
물류	이커머스 매출 및 비중, 스마트폰 보급률, 택배시장규모 등
오피스	금융 및 보험업 사업체 수, 종사자 수, 매출액 등

투자 섹터	주요 지표	비고
주거	임대료, 공실률, 누적 공급 면적, 신규 공급 면적, 거래 금액 등	OECD, WRC, MSCI, 각국의 부동산 리서치 회사 자료
상업	임대료, 공실률, 누적 공급 면적, 신규 공급 면적, 거래 금액 등
호텔	임대료, 공실률, 누적 공급 면적, 신규 공급 면적, 거래 금액 등
물류	임대료, 공실률, 누적 공급 면적, 신규 공급 면적, 거래 금액 등
오피스	임대료, 공실률, 누적 공급 면적, 신규 공급 면적, 거래 금액 등

특성	장점	단점
모델 설계	결정 트리 (DT) 기반 모델과 딥러닝 (DNN)의 장점을 결합함.	복잡한 구조로 인해 모델 설계와 최적화에 어려움이 있을 수 있음.
Sequential Attention	모델의 의사 결정 경로 추적이 가능하여 해석성이 높음.	Attention 메커니즘은 계산 과정에서 추가적인 리소스를 요구할 수 있음.
End-to-End 학습	복잡한 전처리 없이 데이터를 직접 학습할 수 있음.	딥러닝 모델의 일반적인 단점으로, 많은 양의 데이터와 상대적으로 높은 계산 비용이 필요함.
데이터 유형	정형 데이터에 최적화되어 있으며, 특히 테이블 형태의 데이터에서 우수한 성능을 보임.	비정형 데이터 (예: 이미지, 음성)에는 적합하지 않음.
학습 효율성	경사 하강법을 기반으로 하는 학습 방식으로, 데이터의 특징을 자동으로 학습하고 최적화할 수 있음.	데이터의 복잡성에 따라 학습 시간이 길어질 수 있음.
Interpretability	Feature 선택 이유를 추적할 수 있어, 모델의 해석 가능성이 향상됨.	딥러닝 모델에 비해 해석이 쉬운 편이지만, 전통적인 통계 모델에 비해서는 여전히 해석하기 어려울 수 있음.

경제	GDP	경제기본지표
	대기업 수	부동산 시장의 주 수요자자
	경제 순위	Economic Intelligence Unit (EIU)는 데미스트 지수 (Democracy Index)를 비롯하여 다양한 경제, 정치, 사회적 지표를 분석하여 다양한 지수를 발표하고 있다. 이 중에서 대표적인 지수 중 하나는 EIU의 Global City Forecast이며, 이를 바탕으로 각 도시들의 경제 순위를 확인할 수 있음
	도시경쟁력	2021년 Global City Competitiveness Index (GCCI) 보고서
	GCI	2020년 Global Cities Index (GCI) 보고서에서는 세계적인 도시들을 경쟁력, 지배력, 문화적 영향력 등의 지표를 통해 순위화하고 있음
부동산	오피스 빌딩 수	CBRE, Deloitte, JLL
	리츠 설정 금액	2021년 기준 FTSE EPRA Nareit Global Real Estate Index Series
	부동산 거래금액	RCA 데이터

도시	주요 지표	출처
서울	GDP, CPI, 기준금리, 실업률, 인구, 인구밀도, 가구수, 도시화율, 면적, GRDP 등	OECD 및 각 도시 통계 자료
뉴욕	GDP, CPI, 기준금리, 실업률, 인구, 인구밀도, 가구수, 도시화율, 면적, GRDP 등
런던	GDP, CPI, 기준금리, 실업률, 인구, 가구수, 도시화율, 면적, GRDP 등
파리	GDP, CPI, 기준금리, 실업률, 인구, 가구수, 도시화율, 면적, GRDP 등
도쿄	GDP, CPI, 기준금리, 실업률, 인구, 가구수, 도시화율, 면적, GRDP 등

	딥러닝 오차율	Random Forest 오차율
data_뉴욕_리테일	350.5%	19.9%
data_뉴욕_물류.xlsx	23154.0%	67.8%
data_뉴욕_오피스.xlsx	99062.0%	9.4%
data_뉴욕_주거.xlsx	994.5%	12.2%
data_뉴욕_호텔.xlsx	5876.4%	0.4%
data_도쿄_리테일.xlsx	71183.5%	3.5%
data_도쿄_물류.xlsx	776.0%	7.6%
data_도쿄_오피스.xlsx	19455.3%	8.1%
data_도쿄_주거.xlsx	19631.3%	13.1%
data_도쿄_호텔.xlsx	98769.4%	48.5%
data_런던_리테일.xlsx	7312.4%	0.8%
data_런던_물류.xlsx	271.7%	28.3%
data_런던_오피스.xlsx	7359.1%	3.0%
data_런던_주거.xlsx	6158.0%	7.5%
data_런던_호텔.xlsx	6803.9%	14.9%
data_서울_리테일.xlsx	2742.9%	37.7%
data_서울_물류.xlsx	4308.5%	9.6%
data_서울_오피스.xlsx	2596.1%	17.1%
data_서울_주거.xlsx	202026.8%	3.1%
data_서울_호텔.xlsx	3105.8%	5.5%
data_파리_리테일.xlsx	14043.3%	9.9%
data_파리_물류.xlsx	45.4%	36.6%
data_파리_오피스.xlsx	13489.6%	15.9%
data_파리_주거.xlsx	38190.5%	10.4%
data_파리_호텔.xlsx	10430.5%	30.6%

한계	설명	비고
대규모 데이터셋 필요성	충분한 양의 데이터가 주어졌을 때 최적의 성능을 나타냄	소규모 데이터셋 사용 시 과적합 위험
복잡한 모델 구조	전통적인 딥러닝 모델들에 비해 구조가 복잡	최적화 및 해석 과정이 어려움
높은 계산 비용	복잡한 구조와 데이터 처리 방식으로 인해 계산 비용 증가	자원 제한 환경에서 문제 발생 가능
정형 데이터에 한정된 적용성	주로 정형 데이터에 특화되어 비정형 데이터셋에는 적용 어려움	모델 활용 가능성 제한
해석 가능성에 대한 한계	다른 딥러닝 모델보다 해석 가능성 높지만 여전히 어려움	전통적 통계 모델에 비해 해석의 어려움과 복잡성