작품 가격 추정을 위한 기계 학습 기법의 응용 및 가격 결정 요인 분석
Price Determinant Factors of Artworks and Prediction Model Based on Machine Learning
Article information
Trans Abstract
Purpose
The purpose of this study is to investigate the interaction effects between price determinants of artworks. We expand the methodology in art market by applying machine learning techniques to estimate the price of artworks and compare linear regression and machine learning in terms of prediction accuracy.
Methods
Moderated regression analysis was performed to verify the interaction effects of artistic characteristics on price. The moderating effects were studied by confirming the significance level of the interaction terms of the derived regression equation. In order to derive price estimation model, we use multiple linear regression analysis, which is a parametric statistical technique, and k-nearest neighbor (kNN) regression, which is a nonparametric statistical technique in machine learning methods.
Results
Mostly, the influences of the price determinants of art are different according to the auction types and the artist 's reputation. However, the auction type did not control the influence of the genre of the work on the price. As a result of the analysis, the kNN regression was superior to the linear regression analysis based on the prediction accuracy.
Conclusion
It provides a theoretical basis for the complexity that exists between pricing determinant factors of artworks. In addition, the nonparametric models and machine learning techniques as well as existing parameter models are implemented to estimate the artworks’ price.
1. 서 론
기계 학습은 경험적 데이터를 토대로 새로운 지식과 능력을 개발하는 컴퓨팅 기술을 말한다(Baek, Choe, and Lim 2018; Korea Consumer Agency 2017). 기계 학습 기법 중 하나인 k-최근접 이웃(k nearest neighbor:kNN)은 주어진 표본 집합 내에서 특정 데이터와 가장 가까이 위치한 k개의 값을 이용하여 해당 값을 예측하고 분류하는 비모수 기법의 알고리즘이다. kNN의 기본 알고리즘은 분류(Classification)와 회귀(Regression) 두 가지 목적에서 활용되며 종속변수가 범주형인 경우 분류, 연속형인 경우 회귀로 구분된다. kNN 알고리즘이 분류에 사용될 경우, 알고자 하는 데이터의 종류는 다수결의 원칙에 따라 가장 가까이에 있는 k개의 데이터 중에서 가장 많은 수를 차지하는 종류의 값으로 결정된다. 모수적 방법은 모수와 설명 변수의 결합 형태가 사전에 정해진 형태를 취한다고 가정한다. 이에 반하여 비모수적 방법은 데이터가 가진 정보로부터 직접 특성과 형태를 추출한다(Lee, C. R. 2015). 모수적 방법은 임의의 함수를 추정하기 위해 분포를 가정하지만 실제 현실에선 데이터의 분포가 사전에 알려져 있지 않은 경우가 많다. 사전에 확률분포에 대한 정보가 없을 경우 분포를 추정하기 위해 순수하게 주어진 데이터를 활용하는 비모수적 기법을 이용한다(Son and Kim 2012). 회귀분석과 kNN은 공통적으로 미래의 값을 예측하는 데 이용된다. 다만 모수적 기법인 선형 회귀의 경우 함수의 선형 관계에 대한 가정을 근거로 하기 때문에 함수 형태가 선형이 아니라면 도출된 회귀식은 좋은 결과를 제공하기 어렵게 된다. 독립변수와 종속변수 간의 선형적 상관관계를 보장할 수 없거나 상호작용 효과가 크다면 예측 모형으로 비모수적 방법인 kNN을 고려할 수 있다(Lee, C. R. 2015).
세계 미술 시장 규모는 2018년 기준 670억 달러로 한화 약 77조원에 달한다. 세계 작품 거래량도 4,000만 건으로 2008년 세계 경제 위기 이후 최고 수준을 기록했다(Mc Andrew 2019). 미술 시장이 성장함에 따라 교환의 매개체라는 측면에서 작품 가격을 어떻게 가늠하고 평가할 것인가에 대한 논의가 함께 진행되어 왔다. 오랜 기간 작품의 가치는 딜러와 큐레이터, 비평가, 수집가와 같은 고도의 예술적 지식을 겸비한 전문가의 주관에 의존해 왔다. 다만 이러한 주관적 평가만으로는 경제적, 사회적 환경에 따라 가변적인 작품의 가격 체계를 명확히 설명할 수 없다. 따라서 불확실한 작품 가격을 잘 설명할 수 있는 합리적인 접근이 요구된다.
작품 가격에 관한 연구는 두 흐름으로 구분할 수 있다. 첫번째는 작품 가격을 결정하는 요인을 인과적으로 규명하는 것에 초점을 맞춘 설명 중심의 연구다. 두번째는 이로 인해 도출된 가격 결정 요인과 축적된 과거 거래 기록을 토대로 작품 가격을 추정하는 예측 중심의 연구다. 설명 중심의 연구는 헤도닉 가격 모형(Hedonic price model)을 토대로 작품의 특성과 작품 가격 간의 인과관계를 통계적으로 증명하는 연구이다. 헤도닉 가격 모형은 재화의 가격이 해당 재화에 내포된 특성들에 의해 결정된다는 가정을 전제로 재화에 내재된 특성들의 가격과 양에 근거하여 가격을 추정하는 방법이다(Lee, Y. M. 2008). 즉, 작품의 크기, 재료, 작가 명성과 같은 작품의 여러 특성의 개별 값들로 이루어진 회귀 모형을 도출하고 이들 변수의 유의 확률을 검증함으로써 작품의 가격 결정 요인을 규명할 수 있다는 것이다. 예측 중심의 연구는 반복 거래 모형(Repeat-sales model)이 사용된다. 반복 거래 모형은 2회 이상 거래된 재화의 거래 기록을 토대로 가격을 추정하는 방식이다. 반복 거래 모형은 헤도닉 모형만큼 많은 정보량을 요구하지 않으며 변하지 않는 작품의 특성으로 인해 특성 요인에 대한 가격 변동을 고려하지 않아도 된다는 장점이 있어 작품 가격 지수 연구에 폭넓게 이용되어 왔다(Hong 2016). 이러한 두 방향의 연구는 한계점을 가진다. 첫째 현실에 존재하는 작품 가격 결정 요인들 간의 상관관계가 충분히 고려되지 못한다. 이로 인해 많은 연구들이 표본 집단을 달리 하여 독립변수가 종속변수인 작품 가격에 미치는 단편적인 영향만 검증하였다. 따라서 작품의 여러 특성들 간의 상호작용 효과를 실증적으로 검증할 수 있다면 정확한 가격 모형을 개발할 수 있을 것이다. 두번째는 가격 예측모형에는 선형의 가정이 필요하다는 것이다. 회귀분석은 해석이 용이할 뿐만 아니라 회귀식의 가정들이 충족된다면 정확한 예측이 가능하다. 다만 변수 간 선형 관계가 약하거나 표본 특성이 회귀분석을 요구하는 가정들을 충족하지 못할 경우 도출된 회귀식이 정확한 예측치를 제공하지 못한다. 미술 시장은 보이지 않는 작품의 특성으로 인해 공개되는 재화에 대한 정보가 상대적으로 제한적이다. 작품은 작가마다 창작물의 특성이 다르며 대량 생산될 수 없다. 이로 인해 작품의 경우 회귀 분석이 요구하는 여러 가정들을 충족하지 못할 수 있다. 따라서 연구의 목적이 정확한 가격 추정에 있다면 변수 간의 선형 관계를 전제로 하는 회귀모형 뿐 아니라 비선형성을 고려한 새로운 방법론이 활용되어야 한다.
본 연구는 2014년부터 2018년까지 5개년의 경매 데이터를 토대로 작품 가격의 결정 요인 간 상호작용 효과를 검증하고 기계 학습 기법 중 하나인 k-최근접 이웃(k-Nearest Neighbor)을 작품 가격 추정 방법으로 이용한다. 구체적으로 경매 유형과 작가 명성을 조절 변수로 한 회귀분석을 실시함으로써 가격 결정 요인 간 존재하는 상호작용 효과를 검증할 것이다. 이후 k-최근접 이웃 회귀와 다중 선형 회귀분석(Multiple linear regression)을 통해 구축된 예측 모형 간의 적합도를 비교한다.
앞으로 전개될 본 논문의 구성은 다음과 같다. 2장에서는 연구주제의 이론적 배경을 검토하며 작품 가격 결정 요인과 작품시장에 대해 소개한다. 3장에서는 표본과 변수를 정의하고 가설을 설정한다. 4장에서는 가설 검증 결과를 제시한다. 5장에서는 선형 회귀와 k-최근접 이웃 회귀의 작품 가격 예측 성능을 비교한다. 6장에서는 연구 결과를 토대로 결론을 제시한다.
2. 이론적 배경
2000년대 들어 미술 시장이 유례없는 호황을 맞이하면서 작품 가격에 대한 경제학적 연구는 크게 증가하였다. 작품 가격 체계의 원칙을 규명하는 것이 연구의 주요 내용이었고 헤도닉 가격 모형이 자주 이용되었다(Jung and Park 2013). 헤도닉 가격 모형은 인간에게 효용을 제공하는 재화의 특성 요인의 양에 의해 가격이 결정된다는 가정을 전제로 재화의 가치를 추정하는 방법이다(Lee, Y. M. 2008). 즉, 미술 작품의 크기나 재료, 작가의 명성과 같은 재화의 특성을 변수로 하는 회귀 모형을 구성하고 도출된 회귀식과 독립변수의 통계적 유의성을 검증함으로써 작품 특성과 가격 간의 인과관계를 규명한다. 작품의 특성은 작가 특성 요인과 작품 특성 요인, 시장 특성 요인 세가지 범주로 나뉜다(Worthington and Higgs 2006). 작가 특성 요인으로는 작가의 명성과 작고 여부가 있으며 한국의 경우 작가의 출신 학교와 성별에 따라서도 작품 가격은 다르게 형성된다. 미술계에서 작가의 명성이 높을수록(Schönfeld and Reinstaller 2007; Ursprung and Wiermann 2011), 생존 작가보다 작고 작가인 경우(Cho and Kim 2009; Worthington and Higgs 2006), 작가의 성별이 남성인 경우(Joo 2016) 작품 가격이 높게 형성된다. Joo(2016)는 역사적으로 여성 작가들이 주류 미술에서 소외되어 왔으며 이로 인해 여성 작가의 거래와 전시 기회가 상대적으로 제한되어 왔음을 지적하였다. Joo(2016)의 세계 경매 자료를 토대로 한 실증 연구 결과에 따르면 성별은 작품 판매기회와 전시 기회에 영향을 미친다. 이로 인해 여성 작가의 작품 판매가가 남성에 비해 낮게 형성된다. Choi, Chung and Shin(2013)은 아트 페어 시장에서 작가의 출신 학교가 서울대학교와 홍익대학교인 경우 그렇지 않은 작가보다 작품 판매 가격이 높게 형성됨을 실증적으로 제시하였다. 이러한 현상이 발생하는 원인 중 하나는 서울대와 홍익대의 경우 다른 대학에 비해 역사가 길고 졸업생의 수가 많아 해당 분야에 대한 특수한 인적 네트워크를 형성하기 때문이다(Choi, D. B., Chung, and Shin 2013). 작품 특성 요인은 작품에 사용된 재료와 바탕 소재, 크기처럼 작품의 물리적 특성 등을 고려한다. 작품 가격은 작품의 크기가 클수록 높게 형성되고(Ursprung and Wiermann 2011; Worthington and Higgs 2006; Nahm 2008) 한국화가 다른 장르에 비해 낮게 형성된다(Nahm 2011; Park and Shin 2012). 또한, 작품의 바탕 소재가 무엇인지에 따라서도 작품 가격은 다르게 형성된다(Nahm 2011; Park and Shin 2012). 시장 특성 요인은 경매 유형과 경매사의 종류, 거래 시기 등 작품 거래가 이루어진 시장의 특성 등을 포함한다. 시장 특성 요인으로는 경매 유형을 고려할 수 있다. Park and Shin(2012)의 연구에 따르면 가격 결정 요인의 영향력은 오프라인보다 온라인 경매에서 더 약하게 나타나며 오프라인 경매 작품이 온라인 경매보다 추정가 대비 높은 가격에서 거래된다. 작품 가격 결정 요인에 관한 선행 연구를 정리하여 <표1>로 제시하였다.
작품 가격 결정 요인을 규명하는 연구의 목적은 효율적인 시장 거래를 위해 객관적인 가격 지표를 개발함으로써 작품 시장을 보다 명확히 이해하는 것이다. 뉴욕 대학교의 마이클 모제스(Michael Moses)와 메이 지안핑(Mei Jianping) 교수가 2002년 개발한 메이&모제스 예술 지수(Mei-Moses Art Index)는 1875년부터 125년 이상 축적된 반복 거래 데이터를 토대로 가격을 산정한다. 메이&모제스 예술 지수는 세계적인 경매사인 소더비가 공식적으로 인수한 후로 60,000회 이상의 반복 거래 데이터를 반영하여 작품 가치를 측정하고 있다(Sotheby's 2018). 이외에도 메이 & 모제스 예술 지수는 글로벌 금융 기업 모건 스탠리(Morgan stanley)와 바클리 은행(Barkley bank)이 실제 자산을 평가하는데 활용하는 등 미술 시장에서 가장 인정받는 가격 지수 중 하나라고 할 수 있다(Chang 2013). 아트프라이스 인덱스(Art Price Index)는 프랑스의 미술 시장 분석 기관인 아트 프라이스(Art Price)가 1987년 발표한 작품 가격 지수로 전 세계 미술 시장에 참여하고 있는 130만 명 이상의 회원들의 응답을 기반으로 지수가 산정된다(Arterma's 2018). 한국의 경우 한국미술품감정협회가 개발한 한국 미술 시장 가격지수(Korea Art Market Price Index)와 한국미술시가감정협회에서 발표한 미술 작품 가격지수(Korea Art Price Appraise Association Index), 그 외에 KS-호당 가격지수, 화가 경쟁력 지수 등이 있다. 오랜 시간 축적된 거래 기록을 토대로 개발된 국외의 가격지표를 미술 시장의 역사가 짧은 국내 시장에 적용하기에는 어려움이 따른다. 반면 한국에서 개발된 지수들은 산출방식이 복잡하고 체계적인 검증이 이루어지지 않아 시장 참여자들의 이해가 부족한 실정이다(Nahm 2011; Choi, T. H. 2017).
3. 연구 설계
3.1 연구 표본
실증 연구를 위해 서울 옥션과 케이 옥션이 홈페이지를 통해 공개하는 경매 데이터 중에서 2014년 1월부터 2018년 12월까지 5년 동안 세일 및 해외 경매를 제외한 8,570개의 데이터를 연구 표본으로 선정하였다. 본 연구의 표본선정 기준은 다음과 같다. 첫째, 조각과 공예품, 설치 미술 작품처럼 부피를 가지는 작품은 측정 단위가 달라 작품간 크기 비교가 불가능 하기 때문에 넓이로 측정 가능한 회화 작품만을 표본으로 선정하였다. 둘째, 국내의 근현대작품만을 표본에 포함하였다. 20세기 이전 근현대 한국 작가의 작품은 한국화나 서예처럼 특정 장르에 치중되어 있으며 이러한 장르는 학술적 가치에 의해 수요가 특정 계층에 집중되어 있기 때문이다. 본 연구는 출생연도가 1900년도 이후인 작가의 작품을 근현대 회화로 구분하여 표본에 포함하였다.
8,570개의 표본을 훈련 데이터(Train Data)로 한 가격 예측 모형의 적합도를 평가하기 위해 2019년에 낙찰된 경매 자료 510건을 검증 데이터(Test data)으로 선정하였다. 검증 데이터의 선정 기준은 8,570건의 훈련 데이터 추출방법과 동일하다.
3.2 변수 정의
종속변수는 경매 최종 낙찰 가격을 자연로그화한 값을 사용하였다. 독립변수는 선행 연구를 통해 가격과의 상관관계가 검증된 작가의 작고 여부와 작품의 장르, 작품의 크기로 선정하였다. 작가의 작고 여부는 낙찰일을 기준으로 작고 작가인 경우 1, 생존 작가인 경우 0으로 하였다. 작품의 장르는 한국화인 경우 1, 그 외의 경우 0의 값을 가지도록 하였다. 작품 크기는 작품의 가로와 세로 길이의 곱을 자연로그화한 값이다. 이 외에 선행 연구를 토대로 작품가격과 상관관계를 가지는 것으로 나타난 작가의 출신 학교와 성별, 작품의 바탕 소재를 통제 변수로 고려하였다. 작가의 출신 학교는 같은 시기에 설립되어 다수의 유명 작가들을 배출해온 학교로 평가받는 서울대학교와 홍익대학교를 상위 학교로 구분하였고 두 학교에서 미술 전공으로 학사 학위를 받은 작가는 1, 그 외 작가는 0으로 구분하였다. 작가의 성별은 남성은 1, 여성은 0으로 구분하였다. 자료에 포함된 작가 710명의 출신 학교와 성별은 김달진미술연구소와 작가 데이터베이스 웹 사이트 뮤움에서 제공하는 작가 정보를 이용하였으며 부족한 부분은 보도 자료와 관련 서적을 통해 보충하였다. 작품의 바탕 소재는 캔버스와 종이, 하드보드와 기타 소재로 구분하였다. 조절 변수인 경매 유형은 온라인 경매로 거래된 작품은 1, 오프라인 경매는 0의 값으로 구분하였다. 작가 명성은 작가별로 최고 낙찰가와 전체 평균 낙찰가, 낙찰가 총액을 계산한 후, 가장 높은 순위를 기록한 작가를 100%로 두고 차등으로 순위를 매긴 후 그 백분율 값들의 평균을 사용하였다. 예를 들어 특정 작가의 최고 낙찰가 순위가 전체 작가들 중 정확히 50% 수준에 위치하면 50의 값이 부여되며 마찬가지로 평균 낙찰가, 낙찰가 총액까지 점수화 한 후 세 개의 값의 평균을 사용하는 식이다. <표 2>에서는 변수에 대한 정의와 관련 내용을 설명하고 있다.
3.3 가설 설정
온라인 시장은 오프라인 거래의 시공간적 한계를 극복함으로써 구매자의 거래 비용을 획기적으로 낮추었다(Kim, D. H. and Kim 2004). 전 국민의 평균 소득이 증가하고 예술에 대한 관심이 늘어남에 따라 미술 작품을 소유하려는 욕구도 동시에 늘어났다. 이러한 흐름에 따라 2018년 온라인 작품 시장 규모는 한화 약 7조 원으로 사상 최고치를 기록하였다(Mc Andrew, 2019). 온라인 시장은 작품을 소장하려는 욕구가 있으나 높은 진입 장벽으로 미술 시장에 참여할 수 없었던 신규 수집가를 미술 시장으로 끌어들임으로써 시장 수요를 확대하였다. Highfill & O’Brien(2007) and Park & Shin(2012)의 연구에 따르면 온라인 작품 구매자는 작품의 투자 이익 외에 미술 작품 본연의 심미적, 정서적 가치를 우선시하는 소비 성향을 가진다. 중저가 작품은 오랜 기간에 걸쳐 완만하게 가격 변화가 이루어지므로 투자를 목적으로 한 시장 참여가 상대적으로 적기 때문이다. 따라서 온라인 경매를 통해 구입하는 작품은 투자수익을 목적으로 하기 보다 직접 작품을 소유하고 집안을 장식하기 위한 소비재로서 활용되는 것으로 볼 수 있다. 이에 따라 작품 가격 결정 요인의 영향력이 경매 유형에 따라 다를 것으로 판단하여 가설 1을 구성하였다. Park & Shin(2012)은 2010년부터 2011년까지 수집한 3,108개의 경매 데이터를 바탕으로 가격결정 요인의 영향력이 경매 유형별로 다르게 나타난다고 추론하여 가설을 검증하였다. 검증 결과 작가 명성과 작품의 바탕 소재에 따른 낙찰 가격의 변화는 경매 유형별로 차이를 보였지만 낙찰가에 미치는 작품 크기의 영향은 경매 유형별로 유의한 차이를 보이지 않았다. 본 연구에서는 2014년부터 2018년까지 5년 동안 거래된 8,570개의 온라인과 오프라인 경매 데이터를 바탕으로 이전에 고려되지 않았거나 통계적으로 유의하지 않았던 작가의 작고 여부와 작품의 장르, 작품의 크기를 독립변수로 하여 다음과 같이 세분화하였다.
H1: 작품 가격 결정 요인의 영향력은 온라인 경매와 오프라인 경매 유형에 따라 다르다.
H1-1: 작가의 작고 여부가 낙찰 가격에 미치는 영향력은 온라인 경매와 오프라인 경매 유형에 따라 다르다.
H1-2: 작품의 장르가 낙찰 가격에 미치는 영향력은 온라인 경매와 오프라인 경매 유형에 따라 다르다.
H1-3: 작품의 크기가 낙찰 가격에 미치는 영향력은 온라인 경매와 오프라인 경매 유형에 따라 다르다.
일반 재화와 달리 예술 작품은 작가의 영감과 철학이 투영된 창작물이다. 따라서 누구의 작품인지는 작품 가격 산정에 있어 중요한 요인이다. 작품이 자신의 부를 과시하고 사회적 위상을 높일 수 있다는 인식이 근대에 들어 증대됨에 따라 작가 명성은 작품을 선택하는 경우에 더욱 중요한 요인이 되었다(Joo 2016). 가격을 결정하는 기준의 부재가 작품 크기에 따라 적정 가격을 산출하는 호당가격제의 도입을 정당화한 것처럼 작품 가격의 불확실성은 작품의 교환 가치를 작가의 명성에 의존하게 만들었다. 작품의 여러 특성들 간에는 상관관계가 존재한다. 예를 들어 작가의 사망 효과는 작가가 쌓아 온 명성의 정도에 따라 달라질 수 있다. 작가가 입지를 확고히 하기 전에 사망한 경우 충분한 양의 평가와 거래가 이루어지기 어렵기 때문이다(Ursprung and Wiermann 2011). 누구의 작품인지가 낙찰 가격에 미치는 영향력은 학술적, 직관적으로 자명한 것으로 여겨져 왔음에도, 작품 가격 결정 요인에 관한 연구들은 변수간 상호작용을 고려하지 않고 단일 변수로서 작품 가격에 미치는 영향력을 확인하는 데 그치고 있는 실정이다. 이에 따라 작품 가격 결정 요인의 영향력이 작가의 명성 정도에 따라 다르다고 추론하여 가설 2를 구성하였다.
4. 가설 검증
최종 선정된 8,570개의 표본에 대한 통계치를 <표 3>으로 제시하였다. 작고 작가의 평균 작품 낙찰가는 약 3,600만 원으로 생존 작가의 2,100만 원에 비해 1.7배 높은 가격에 매매되는 것으로 나타나 낙찰가에 대한 사망 효과가 존재하는 것으로 판단된다. 반면 비(非) 서울대, 홍익대 출신의 작가들과 여성 작가의 평균 낙찰가가 그렇지 않은 경우에 비해 높은 것으로 나타났다. 이를 통해 미술계의 문제점으로 지적되는 학력 주의와 여성 작가의 소외 현상이 미약하다고 여겨질 수 있다. 다만 최고 낙찰가 기준 10위에 포함되는 작가들 전부가 20세기 초반 출생으로 10명 중 7명이 해외에서 대학을 졸업한 점, 여성 작가 작품의 낙찰가 총액 80%를 여성 작가 중에서 최고 낙찰가액을 기록한 천경자의 작품들이 차지하는 점을 고려할 때, 미술계의 학력 주의와 여성 소외 현상이 미약하다고 단정짓기는 어렵다. 온라인 경매를 통해 낙찰된 작품 수는 오프라인에 비해 1.7배 많은 반면 평균 낙찰가는 오프라인이 온라인에 비해 20배 높은 가격에 매매되고 있는 것으로 나타났다. 이는 온라인 경매가 오프라인에 비해 소액 다건으로 작품을 매매한다는 것을 보여준다. 2014년에서 2018년까지 작품 낙찰 건수는 계속해서 늘어나가고 있는 것으로 나타났다.
작품 특성이 가격에 미치는 영향을 검증하기 위해 <표 2>의 변수들을 투입하여 회귀분석을 실시하였다. <표 4>는 다중 선형 회귀분석의 결과이다. 분석 결과 바탕 소재가 기타인 경우를 제외한 모든 변수의 회귀 계수가 유의수준 5% 내에서 유의하였다. 구체적으로 작가의 명성이 높고 작고한 경우, 작품의 크기가 클수록 작품 가격이 높게 형성되는 것으로 나타났다. 반면 온라인 경매 낙찰품과 한국화는 낮은 가격에 거래되는 것으로 나타났다. 바탕 소재 별 회귀계수도 유의하여 작품 소재가 무엇인지에 따라서 작품 가격이 다르게 형성되는 것으로 판단된다. VIF가 10을 넘지 않아 다중공선성에는 문제가 없는 것으로 나타났다.
<표 5>는 경매 유형과 작가 명성을 조절 변수로 한 회귀분석 결과다. 조절 회귀분석은 상호작용항과 관심 변수들을 모두 투입한 한 번의 회귀분석 이후 상호작용항의 유의성을 검증하는 동시 입력 방식과 독립변수와 조절 변수, 상호작용항을 단계적으로 투입하여 회귀식의 설명력을 확인하는 위계적 방식이 있다. 많은 연구에서 조절 효과 검증을 위해 위계적 방식을 주로 사용하지만 두가지 방식 모두 동일한 해석이 가능하다. 이에 따라 본 연구는 동시 입력방식을 사용하여 가설을 검증하였다. Echambadi & Hess(2007) and Hayes(2013)는 상호작용항의 높은 다중공선성을 해소하기 위해 시행하는 평균 중심화(Mean centering)가 무익하다고 주장하였다. 이는 평균 중심화를 거치더라도 회귀 모형의 설명력과 상호작용항의 부호, 유의확률이 변하지 않기 때문이다. 이에 따라 많은 연구들이 평균 중심화를 연구자의 판단에 따라 부분적으로 시행하고 있다. 마찬가지로 본 연구는 평균 중심화를 고려하지 않고 상호작용항을 구성하였다.
조절 회귀분석 결과 가설 1-2를 제외한 상호작용항의 회귀 계수가 유의수준 1% 내에서 유의하여 가설 1-1과 1-3, 2-1과 2-2, 2-3은 지지되었다. 작품의 장르와 경매 유형의 상호작용항은 유의수준 5%에 미치지 않아 가설 1-2는 지지되지 않았다. 따라서 선행 연구를 통해 검증된 가격 결정 요인의 영향력은 경매 유형과 작가 명성에 따라 다르게 나타나는 것으로 해석할 수 있다. 이를 통해 가격 결정 요인의 영향력을 검증하기 위해 표본의 특성을 고려한 연구 설계가 필요함을 확인할 수 있었다.
5. kNN 회귀와 선형 회귀의 비교
<표 4>에 제시된 변수들을 입력한 다중 선형 회귀분석(Multiple Linear Regression)과 kNN 회귀를 실시하였다. 선형 회귀와 kNN 회귀 모두 동일 표본을 활용하였으며 변수와 그 측정치 모두 동일하다. 모형 간 적합도를 비교하기 이전, 변수 간 선형 관계의 정도를 파악하였다. 평활 스플라인 함수를 도출함으로써 선형성의 정도를 확인할 수 있다(Ryu and Park 2016). <그림 2>는 작품 가격에 대한 작가 명성과 작품 크기의 평활화 함수를 보여준다. 작품 크기가 일정 수준에 이른 후에 가격이 상승하는 것으로 나타나 작품 크기의 비선형 효과를 확인할 수 있었다. 작가 명성이 높아짐에 따라 가격도 상승하는 것으로 나타났으며 명성이 높을수록 그 변화의 폭이 크다. 모형의 성능은 예측 오차 지표인 MAE와 MAPE, RMSE 값을 계산하여 비교하였다. 예측 오차가 작을수록 우수한 성능을 보이는 것으로 판단할 수 있다. kNN의 경우 k의 값에 따라 예측율이 다르므로 k를 1에서 100까지 하여 오류율을 측정한 후 가장 낮은 오류율을 보이는 k의 오류율을 회귀 모형과 비교하였다.
<표 6>에는 측도 별 오류율의 크기를 오름차순으로 기록하였다. MLR은 다중 선형 회귀(Multiple linear regression)의 줄임으로 MLR의 오류율은 k의 값에 관계없이 동일하다. <표 6>을 보면, 모든 기준에서 MLR보다 kNN 회귀의 오류율이 더 낮음을 확인할 수 있다. k가 6일 때 kNN 회귀의 오류율은 MAE 0.5014, MAPE 0.0325, RMSE 0.6798로 회귀 모형의 오류율보다 평균 20%가량 낮다. 세 가지 적합도 평가 지표로 모형의 예측 성능을 비교한 결과, kNN 회귀의 예측력이 선형 회귀보다 우수하였다.
k가 1부터 30일때까지 오류율의 변화를 <그림 3>을 통해 시각화 하였다. 추세 변화가 있는 실선이 kNN 회귀의 오류율이며 점선이 MLR의 오류율이다. k가 1인 경우, 예측치는 가장 가까이에 있는 훈련 데이터의 값과 정확히 일치하므로 다른 k값에 비해 오류율이 현저히 높다.
6. 결론
수리적 모형을 활용하는 사회과학 연구의 초점은 독립변수와 종속변수의 관계를 밝히는 것으로, 설명 중심의 모형이 주류를 이루어 왔다(Lee, C. R. 2015). 작품 가격에 관한 설명 중심의 연구는 미술 시장의 불균등한 정보 분배로 인해 요인 간 존재하는 다양한 상호작용 효과를 고려하지 못하고 있다. 동시에 섣불리 가치를 판단할 수 없는 예술품의 속성으로 인해 작품 가격 예측 모형을 개발하려는 시도 또한 요원한 실정이다. 방법론적으로도 정확한 작품 가격 추정을 위한 연구는 여러 가정을 요구하는 모수 모형에 근거하고 있어 예측 가격의 신뢰성에 의문이 제기될 수 있다. 이러한 현실을 반영하여 본 연구는 선행 연구를 바탕으로 작품 가격 결정 요인 간에 존재하는 상호작용 효과를 규명하고 작품 가격 추정을 위해 선형 회귀분석과 k-최근접 이웃을 이용하였다.
본 연구는 2014년부터 2018년까지 서울 옥션과 케이 옥션이 제공하는 작품 거래 데이터 중에서 8,570건의 경매 데이터를 표본으로 선정하였다. 도출된 예측 모형의 적합도를 비교하기 위해 2019년에 이루어진 경매 데이터 510개를 앞선 표본과 동일한 방법으로 추출하여 예측 데이터로 활용하였다.
본 연구의 결과는 다음과 같다. 첫째, 회귀분석을 통한 가설검증 결과, 경매 유형이 작품 장르와 작품 가격과의 관계에 미치는 영향(H1-2)을 제외하고 경매 유형과 작가의 명성 정도가 작품 가격 결정 요인(작가의 작고 여부, 작품 장르, 작품 크기)의 영향력을 조절하는 것으로 나타났다. 따라서 작품 가격을 결정하는 여러 요인의 영향력은 구매 조건이나 작품의 특성에 따라 상이한 것으로 추정할 수 있다. 둘째, 선형 회귀와 kNN 회귀의 모형 적합도를 비교분석한 결과, kNN 회귀 모형의 예측 성능이 선형 회귀에 비해 우수하였다. 독립 변수와 종속 변수 간의 비선형적 상관관계는 모수 모형의 성능 저하를 초래한다(James and others 2013). 작품은 특성과 효용에 대한 정보가 사전에 알려져 있지 않고 변수 간 함수 형태에 관한 실증 연구 또한 부족하다. 따라서 본 연구의 데이터가 모수 모형이 요구하는 여러 가정을 충족한다고 전제하기엔 어려움이 따른다. 이로 인해 비모수 모형인 kNN의 예측 성능이 선형 회귀보다 우수했던 것으로 추론할 수 있다.
본 연구의 의의는 다음과 같다. 첫째로 작품 가격 예측에 있어 기계 학습 기법을 처음으로 응용한 사례로 작품가격 예측 분야 연구의 방법론적 확대에 기여한다. 작품 가격 연구는 헤도닉 가격 모형에 기반한 회귀 모형에 의존해왔으며 국내에서 개발된 여러 가격 지표들은 산출 방법이 복잡하여 현실에서 잘 활용되지 못하고 있다. 본 연구에서는 기계 학습 기법 중 kNN 회귀를 방법론으로 채택하였다. 이후 선형 회귀와의 비교 분석을 통해 작품 가격 예측모형으로서 기계 학습 기법의 활용 가능성을 제시하였다. 추후 kNN 외에 서포트 벡터 머신(Support vector machine), 인공 신경망(Artificial neural network), 랜덤 포레스트(Random forests) 등 다양한 기계 학습 기법을 활용한다면 정교한 예측 모형을 개발할 수 있을 것이다. 두번째로 경매 유형과 작가 명성에 따른 작품 가격 결정 요인의 영향력 변화를 검증함으로써 작품 가격이 단일한 원리에 의해 결정되는 것이 아님을 실증적으로 제시하였다. 특히 작품은 속성이 표면에 드러나지 않으므로 추후 다양한 변수를 개발하여 예측 모형에 적용한다면 신뢰성 높은 작품 가격 추정이 가능할 것이다. 세번째로 정보 수집의 어려움으로 인해 국내의 선행 연구들이 표본으로 비교적 단기인 1년 또는 특정 작가의 작품만을 포함했던 것과 달리 본 연구는 5년간 경매 시장에서 이루어진 8,570건의 경매 자료를 표본으로 하여 결과의 타당성을 높이고자 하였다.
본 연구의 한계점은 다음과 같다. 첫째로 표본이 경매 시장에 한정되어 예측 모형의 활용 가능성을 화랑과 아트페어 같은 비경매 시장으로 확대하지 못한 데 있다. 추후 연구를 통해 비경매 시장이 표본으로 고려된다면 안정적인 가격 지수를 산출하고 불투명한 미술 시장에 대해 명확한 시장 논리의 근거를 제시할 수 있을 것이다. 두번째 한계점은 변수 정의의 문제다. 본 연구는 주요 변수로 활용된 작가 명성의 값을 누적 경매 낙찰가에 근거하여 정량화하였다. 다만 과거 거래 가격 만으로 작가 명성을 일반화하는 것은 정보의 유실이 많아 무리가 따른다. 앞으로는 작가 명성과 같은 질적 가치를 객관적으로 반영하기 위한 심도 있는 연구가 이루어지길 기대한다.