탐색적 자료 분석 및 연관규칙 분석을 활용한 잔류농약 부적합 농업인 유형 분석

Pattern Analysis of Nonconforming Farmers in Residual Pesticides using Exploratory Data Analysis and Association Rule Analysis

Article information

J Korean Soc Qual Manag. 2021;49(1):81-95
Publication date (electronic) : 2021 March 25
doi : https://doi.org/10.7469/JKSQM.2021.49.1.81
*Experiment Research Institute, National Agricultural Products Quality Management Service
김상웅*, 박은수*, 조현정*, 홍성희*, 손병철*, 홍지화*,
*국립농산물품질관리원 시험연구소
Corresponding Author(hongjh19@korea.kr)
*이 논문은 2016년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. 2016R1D1A1B03935397).
Received 2021 January 8; Revised 2020 January 31; Accepted 2021 February 18.

Trans Abstract

Purpose

The purpose of this study was to analysis pattern of nonconforming farmers who is one of the factors of unconformity in residual pesticides.

Methods

Pattern analysis of nonconforming farmers were analyzed through convergence of safety data and farmer’s DB data. Exploratory data analysis and association rule analysis were used for extracting factors related to unconformity.

Results

The results of this study are as follows; regarding the exploratory data analysis, it was found that factors of farmers influencing unconformity in residual pesticides by total 9 factors; sampling time, gender, age, cultivation region, farming career, agricultural start form, type of agriculture, cultivation area, classification of agricultural products. Regarding the association rule analysis, non-conformity association rules were found over the past three years. There was a difference in the pattern of nonconforming farmers depending on the cultivation period.

Conclusion

Exploratory data analysis and association rule analysis will be useful tools to establish more efficient and economical safety management plan for agricultural products.

1. 서 론

농산물의 생산∙유통 시 농약이 과량으로 잔류하는 경우 소비자의 농약 섭취로 인하여 건강에 해를 끼칠 수 있다. 이러한 이유로 국내에서는 식품위생법 제7조(식품 또는 식품첨가물에 관한 기준 및 규격)에 의거하여 농산물의 농약잔류허용기준을 설정하고 있다. 농림축산식품부 국립농산물품질관리원에서는 안전한 먹거리 공급과 우리 농산물의 경쟁력 향상을 위해 국내에서 생산 및 유통되는 농산물 품목을 대상으로 매년 농산물 안전성 조사를 실시하여 국민건강 보호와 안정적인 농사 소득 증대에 기여하고 있다. 안전성 조사에서 부적합 판정이 나올 경우, 관계 기관 및 해당 농가에 통보하고, 출하 연기나 용도전환 등의 방식으로 처리하여 시장에 출하되지 않도록 조치하며, 적발된 농가에서 부적합 농산물이 반복 출하되지 않도록 교육과 사후 관리 등을 하고 있다(Guideline for Conducting Safety Investigations such as Agricultural Products, 2019). 현재 농산물 안전성 조사대상은 쌀, 배추 등 1일 섭취량이 많거나 상추, 들깻잎과 같이 조리하지 않고 바로 먹는 농산물을 주요 조사대상으로 하고 있으며, 부적합 비율이 높거나 소비자의 관심이 큰 신선 채소류를 기본 관리 품목으로 지정하여 집중 조사하고 있다(SafeQ, 2021). 코로나19 발생 이후의 생산단계 사전 안전관리 체계는 접촉을 최소화하여 맞춤형 교육 및 지도를 실시해야 하지만, 이를 위한 연구가 아직 미흡한 상황이며 관련 환경 변화에 대응하기 위한 정책 수립이 갈수록 요구되고 있다. 최근 국내에서는 다양한 변화에 따른 요구에 대응하기 위한 적극행정의 일환으로 고용 취약자 파악, 도시가스 배관 위험 예측, 산불피해 최소화, 사회취약계층 선제적 발견, 탄약 등급 평가 등 다양한 공공 분야에서 빅 데이터와 기계학습 기법들이 적극 활용 되고 있다(Yoon, 2018;, Roh et al., 2020). 식품 및 유통 관련 부분에서는 수입식품 빅 데이터를 이용한 부적합 식품 탐지 시스템(Cho and Choi, 2018), 네트워크 분석을 활용한 유통 농산물 잔류농약 부적합 현황 분석(Park et al., 2018), 빅 데이터를 통한 2016년의 다이어트 실태 분석 연구(Jung et al., 2019), 딥러닝 알고리즘을 이용한 토마토에서 발생하는 여러가지 병해충의 탐지와 식별에 대한 웹 응용 플랫폼의 구축(Na et al., 2020) 등의 사례가 있다. 현재 정부 각 부처에서 추진하는 생산 및 유통단계 농산물 안전성 조사의 품목별 부적합 결과 및 현황은 온라인상에 공개되고 있고 농약의 잔류량을 예측하는 다양한 연구가 진행 중이지만(Kwon et al., 2004; Park et al., 2011), 연구 사례를 살펴보았을 때 특정 농산물의 특정 성분이나 비표면적과 같은 토양 환경에 초점을 맞춘 분석에 그치고 있어 넓은 범위에 적용할 수 있는 관련 빅데이터 분석 연구가 필요한 실정이다.

잔류농약 부적합 농산물은 결국 농산물을 재배하는 농업인에 의해 발생하기 때문에 농업인 중심의 해결 방안이 필요하다. 농림축산식품부에서는 맟춤형 농정을 추진하기 위해 농업경영체 등록제를 도입하여 경영체 정보에 관한 DB를 구축하고 있다. 구축된 등록 정보는 각종 농림사업 및 직접지불제도의 기초 자료로 활용되고 있으며 국립농산물품질관리원에서는 등록정보 전반을 집계한 연감을 발간하고 있다. 또한 2018년부터는 경영체 DB 정보 제공의 확대를 위하여 농업인력 현황, 지역농업 현황, 농지활용 현황, 청년∙여성 농업인 현황, 벼 재배 현황, 과수 재배 현황, 시설 재배 현황 등의 분석자료집도 발간하였다. 농업경영체 정보를 활용하여 통계 분석을 통해 농업직불제 소득효과를 분석한 사례가 보고된 바 있으나(Han and Chae, 2016), 다양한 분야의 데이터와 융합하여 빅 데이터 연구를 수행한 사례는 매우 미흡한 실정이다.

이에 본 연구에서는 최근 3개년(2017년~2019년)간의 농약 안전성 조사 결과의 부적합 데이터와 농업경영체 정보 데이터를 융합한 데이터를 사용하여 잔류농약 부적합 농산물을 재배하는 농업인의 유형을 분류하고 추이를 파악하기 위한 탐색적 자료분석과 연관규칙분석을 실시하였다. 그리고 부적합 농산물을 재배한 농업인들의 유형 분석을 통해서 잔류농약 부적합 문제에 대한 해결방안을 모색하고, 데이터를 기반으로 한 농업인 맞춤형 교육 지도 방안 모색과 사전 예방적 안전 관리를 위한 시사점을 찾는 기초 연구를 수행하고자 하였다.

2. 연구 수행 방법

본 연구의 연구수행 절차는 <그림 1>과 같이 먼저 잔류농약 안전성 조사 결과 데이터를 수집하여 1차 가공 후 필지 주소를 기반으로 하여 부적합 농산물을 생산한 농업 경영체 정보를 추출하였다. 그 후, 추출된 데이터를 사용하여 부적합 농산물을 생산한 농업인에 대한 유형과 추이를 분석하였다. 분석에 사용된 변수는 시료 수거시기(월), 성별(남, 여), 지역(시도), 연령(세), 영농경력(년), 농업형태(시작형태, 종사형태), 재배면적(㎡), 농산물 품목(대분류, 중분류)이다.

Figure 1.

Research Process

탐색적 자료분석은 John W. Tukey라는 통계학자가 1977년에 도입한 자료 분석 방법론으로 본격적인 데이터 분석에 앞서 그래프나 통계적인 방법을 이용하여 수집한 자료를 다양한 각도에서 관찰하고 이해하는 과정을 의미한다(Tukey, 1977). 주로 상자 그림, 도수 분포표, 히스토그램 및 다양한 그래프 등의 수치 및 시각적 방법을 통하여 데이터의 주요 특성을 요약하고 관측치의 패턴과 자료를 분석하는데 사용된다. 본 연구에서는 탐색적 자료 분석 기법을 이용하여 잔류농약 부적합 농산물에 해당되는 농업인의 빈도와 비율을 분석하고 이를 표로 나타내었다.

연관규칙분석 중 Apriori 알고리즘은 1994년 Agrawal과 Srikant가 제안한 방법으로 모든 항목 조합에 대한 지지도를 계산하는 대신에 최소 지지도 이상의 규칙만을 찾아내서 연관 규칙을 계산하는 방법이다(Agrawal and Srikant, 1994). 일반적으로 연관규칙의 유용성을 측정하는 기준은 지지도(Support), 신뢰도(Confidence), 그리고 향상도(Lift)이다(Agrawal et al., 1993). 지지도는 항목 X와 항목 Y가 동시에 일어난 사건의 비율의 의미하며, 항목 X와 항목 Y가 동시에 일어난 사건의 수를 전체 사건의 수로 나누어서 구한다. 신뢰도는 항목 X가 포함된 항목 중, 항목 X와 Y가 동시에 포함된 비율이다. 즉, 신뢰도는 항목 X에 대한 Y의 조건부 확률이라고 할 수 있다(Hahsler et al., 2005). 마지막으로 향상도는 항목 X의 사건 중 항목 Y가 포함된 사건의 비율을 전체 사건 중 항목 Y가 포함된비율로 나누어서 구한다. 향상도는 지지도와 전반적인 데이터 셋을 함께 고려한다는 장점이 있다(Hahsler et al., 2005). 예를 들어 Lift(X→Y)=2라면 X 항목에 속해있는 사람이 Y 항목에 함께 속해 있을 확률이 무작위로 선택된 사람이 Y 항목에 속해 있을 확률보다 2배 높다는 의미이다. 이를 수식으로 나타내면 아래와 같다.

- 지지도(Support)

Support(XY)=P(XY)

- 신뢰도(Confidence)

Confidence(XY)=P(XY)P(X)

- 향상도(Lift)

Lift(XY)=P(Y|X)P(Y)=P(XY)P(X)×P(Y)

연관규칙 분석의 결과는 항목들의 동시 출현 빈도수를 기반으로 우선순위가 정해지므로 데이터의 희소성과 독특한 형태의 사람들의 패턴을 찾을 수 있다. 그러나 항목의 수와 데이터의 수가 많을 경우 데이터 희소성 문제점이 제기되어 연산이 복잡해지고 계산량이 많아질 수 있는 단점이 있다(Son et al. 2015). 그리고 지지도가 매우 낮으면 소수의 관측치 만으로도 신뢰도나 향상도가 크게 영향을 받게 되어 우연에 의한 규칙이 잘못 선별될 위험도 있기 때문에 연구자의 명확한 해석과 판단이 필요하다. 또한 지지도, 신뢰도, 향상도는 각각 평가 관점이 다르기 때문에 어느 한 가지 항목을 가지고 평가하기 보다는 세가지 항목을 분석목적에 맞게 조합하여 이용하는 것이 필요하다(Eom, 2017). 본 연구에서는 상기의 지지도(Support), 신뢰도(Confidence), 그리고 향상도(Lift)를 이용하여 부적합 재배 농업인과 관련된 연관규칙을 추출하였다.

3. 탐색적 자료분석 결과

3개년(2017년~2019년)동안 수집된 부적합 농산물을 생산한 농업인의 경영체 정보는 총 2,142건이었으며, 경영체 정보나 품목에서 결측 값을 가지는 값과 중복되는 값들을 제거하고 최종적으로 1,530건(2017년: 623건, 2018년: 452건, 2019년: 455건)의 데이터를 확보하였다. 부적합 농산물을 생산한 경영체의 시료 수거시기(월), 성별, 지역(시도), 연령, 영농경력, 농업형태(시작형태 및 종사형태), 재배면적, 농산물 품목(대분류 및 중분류) 변수 정보를 활용하여 데이터 분석을 수행하였다.

지난 3년간(2017년~2019년) 부적합 농산물이 가장 많이 생산된 월은 8월이 13.92%(213건)로 가장 많았고 다음으로 10월 12.88%(197건), 11월 10.98%(168건), 7월 9.87%(151건), 6월 8.43%(129건) 등의 순으로 나타났다. 특히, 2019년의 7-8월에 부적합 농산물이 생산된 비율이 2017~18년도에 비해 증가한 것으로 나타났다. 지난 3년간(2017년~2019년) 부적합 농산물을 생산한 농업인의 성별은 남성이 84.25%(1,289건)로 여성 15.75%(241건)로 나타났다. 지난 3년간(2017년~2019년) 부적합 농산물을 생산한 농민의 연령 평균값은 61.73세이고, 60대가 36.34%(556건)로 가장 많았다. 그 뒤로 50대 26.01%(398건), 70대 20.65%(316건), 40대 9.87%(151건), 80대 3.53%(54건), 30대 3.27%(50건), 20대 0.33%(5건) 순으로 나타났다. 지난 3년간(2017년~2019년) 부적합 농산물이 생산된 지역은 경기도가 25.69%(393건)로 가장 많았고 다음으로 경상북도 13.40%(205건), 전라남도 13.20%(202건), 충청남도 12.03%(184건), 경상남도 10.00%(153건), 충청북도 6.47%(99건), 전라북도 6.21%(95건), 강원도 4.84%(74건) 등의 순으로 나타났다. 특히 2019년에 경상북도에서 부적합 농산물이 생산된 비율이 2017~2018년도에 비해 감소한 것으로 나타났다. 지난 3년간(2017년~2019년) 부적합 농산물을 생산한 농민의 영농경력의 평균값은 30.95년이고, 40년 이상 50년 미만이 21.50%(329건)로 가장 많았다. 그 뒤로 30년 이상 40년 미만 20.78%(318건), 10년 이상 20년 미만 17.19%(263건), 20년 이상 30년 미만 14.77%(226건), 50년 이상 13.20%(202건), 10년 미만 12.55%(192건) 순으로 나타났다. 지난 3년간(2017년~2019년) 부적합 농산물을 생산한 농민의 농업시작형태는 전 생애 농업에 종사가 62.88%(962건)로 다른 산업에서 전환 37.12%(568건)보다 많았다. 지난 3년간(2017년~2019년) 부적합 농산물을 생산한 농민의 농업종사형태는 전업이 91.24%(1,396건)로 겸업 8.76%(134건)보다 많았다. 지난 3년간(2017년~2019년) 부적합 농산물이 생산된 농지의 재배면적의 평균값은 3,413.48㎡이고, 1,000㎡ 이상 2,000㎡ 미만이 26.86%(411건)으로 가장 많았다. 그 뒤로 2,000㎡ 이상 3,000㎡ 미만이 20.52%(314건), 1,000㎡ 미만이 18.50%(283건), 3,000㎡ 이상 4,000㎡ 미만이 13.27%(203건) 등의 순으로 나타났다. 지난 3년간(2017년~2019년) 생산된 부적합 농산물의 대분류는 총 27종이고 엽경채류가 34.05%(521건)으로 가장 많았다. 그 뒤로 과실류 10.85%(166건), 조미채소류 10.13%(155건) 등의 순이었다. 지난 3년간(2017년~2019년) 생산된 부적합 농산물의 중분류는 총 124종이고 벼가 6.73%(103건)으로 가장 많았다. 그 뒤로 기타(엽경채류) 5.03%(77건), 상추 4.71%(72건), 깻잎 3.99%(61건) 등의 순이었다.

위의 분석으로 3년간(2017년~2019년) 잔류농약 부적합 농산물을 생산한 농업인의 패턴을 분석하였다. 농업인 변수 정보 중 부적합이 가장 많이 나타난 유형을 분석한 결과 시료 수거 시기 월(8월), 성별(남성), 연령(60대), 지역시도(경기도), 영농경력(40년 이상 50년 미만), 농업시작형태(전 생애 농업에 종사), 농업종사형태(전업), 재배면적(1,000㎡ 이상 2,000㎡ 미만), 농산물 품목 대분류(엽경채류), 농산물 품목 중분류(벼)에서 부적합 빈도 및 비율이 높게 나타났다. 그러나 조사년도 별로는 부적합 유형이 다르게 나타나 사전 예측을 위한 알고리즘 개발은 어려운 것으로 사료된다. 따라서 3년 동안의 연관 있는 항목을 찾아 농업인의 세부 유형을 확인하고자 연관규칙 분석을 실시하였다.

4. 연관규칙 분석 결과

연관규칙 기법의 특성상 항목 수가 많아질수록 유의미한 결과가 도출되지 않을 수 있기 때문에 농산물 품목 중분류를 제외하고 시기(월), 성별, 지역(시도), 연령, 영농경력, 농업시작형태, 농업종사형태, 재배면적, 농산물 품목(대분류)의 총 9개의 변수를 사용하였고, 유의미한 연관규칙 도출을 위한 기본 조건으로 최소 항목 3개, 최대 항목 8개, 최소 지지도 1%, 최소 신뢰도 50%로 설정하였다. 일반적으로 향상도가 1이 넘으면 연관이 있다고 판단하지만 항목수에 비해 표본이 많지 않기 때문에 우연적으로 향상도가 1보다 높게 나올 수 있다고 판단하여 본 연구에서는 향상도가 2보다 높을 때 유의미한 연관규칙이라고 판단하였다.

지난 3년간(2017년~2019년) 잔류농약 부적합 농산물이 발생한 농업인의 정보를 기반으로 R(Ver. 4.0.2, Bell Labs, USA)을 이용하여 연관규칙 분석을 위의 기준으로 실시한 결과, 총 352개의 규칙이 도출되었으며 그 결과는 <Table 1>과 같다. 상위 대부분의 규칙이 경기도 지역 및 엽경채류와 연관이 있음을 볼 수 있었다. 이는 각 변수에서 해당 항목이 다른 항목들에 비해 높은 비율을 차지하기 때문인 것으로 보인다. 한 두개의 항목이 각각의 변수 내에서 지나치게 높은 비율을 차지한다면 다른 항목에 대한 규칙을 찾기가 어렵다. 따라서 지역이 경기도인 농업인과 품목 대분류가 엽경채류인 농업인을 각각 제거하고 앞선 분석과 같은 기준으로 연관규칙 분석을 실시하였다. 경기도 지역을 제거하고 연관규칙을 분석한 결과, <Table 2>와 같이 총 113개의 규칙이 도출되었고, 엽경채류를 제거하고 연관규칙분석을 실행한 결과 <Table 3>과 같이 총 90개의 규칙이 도출되었다.

Association rule analysis of unconformity products for 2017∼2019 (Top 10)

Association rule analysis of unconformity products for 2017∼2019 except Gyeonggi-do (Top 10)

Association rule analysis of unconformity products for 2017∼2019 except leaf vegetables (Top 10)

<Table 2>의 상위 3개 결과를 해석하면, 1번에서 지지도는 약 0.01로 나타났는데 이는 전체 잔류농약 부적합 농산물 생산 농업인 중에서 1~6월에 부적합 농산물을 생산한 남성의 경력이 10년 미만인 경우와 겸업을 하고 있는 케이스가 동시에 나타나는 확률이 1%를 차지한다는 것 의미한다. 신뢰도는 0.5로 나타났고, 이는 1~6월 사이에 남성의 경력이 10년 미만인 농업인 중에서 1~6월 사이에 남성의 경력이 10년 미만인 농업인과 겸업을 하는 농업인이 모두 나타나는 확률이 50%가 된다는 것을 의미한다. 그리고 향상도는 약 5.12로 나타났는데 무작위로 겸업을 하는 농업인이 선택되는 경우에 비해 1~6월 사이에 남성의 경력이 10년 미만인 농업인이 겸업을 하는 농업인에 함께 속해 있을 확률이 약 5.1배 높아진다는 것으로 해석할 수 있다. 2번의 부적합 연관규칙의 경우 향상도는 약 3.7로 나타났는데 이는 경상북도에서 농산물을 생산하는 농업인 대비 성별이 남성이고 전업농이며 약용작물류를 재배하는 농업인 중에 경상북도에서 농산물을 생산하는 농업인에 속해 있을 확률이 약 3.7배 높아진다는 규칙을 설명한다. 3번의 부적합 연관 규칙을 살펴보면, 전체 농업인 중에 재배면적이 1,000㎡ 미만을 등록한 농업인 대비 9~12월에 특용 작물류를 재배하는 농업인이 재배면적이 1,000㎡ 미만을 재배하는 경우에 함께 속해 있을 확률이 약 3.5배 향상한다는 것을 의미한다.

<Table 3>의 상위 3개 결과를 해석하면, 1번 부적합 연관규칙의 향상도는 전체 농업인 중에 경기도에 등록된 농업인 대비 다른 산업에서 전환하여 과채류를 재배하는 농업인이 경기도에서 등록된 농업인에 속해 있을 확률이 약 4.5배 향상된다는 것을 의미한다. 2번 연관규칙으로는 전체 농업인 중에 재배면적이 1,000㎡ 미만 농업인 대비 9~12월 사이에 전업으로 특용작물을 재배하는 농업인이 재배면적 1,000㎡ 미만으로 등록된 농업인에 속해 있을 확률이 약 3.9배 높아짐을 의미한다. 3번 연관규칙을 살펴보면 전체 농업인 중에 재배면적이 1,000㎡ 미만 농업인 대비 다른 산업에서 전환하여 특용작물을 생산하는 농업인 중에 재배면적을 1,000㎡ 미만으로 등록한 농업인에 속해 있을 확률이 약 3.6배 향상한다는 것을 알 수 있다.

경기도와 엽경채류 항목을 제거하고 난 후의 분석 결과는 제거하기 전보다 다양한 조합의 연관규칙이 상위에 나타남을 확인할 수 있었으며, {경상북도-약용작물류}, {전라남도-과실류}, {충청남도-과일과채류} 등의 일반적인 분석으로는 얻기 힘든 부적합 농산물을 생산한 농업인의 연관규칙을 발견할 수 있었고, 표에 기재된 연관규칙 외에도 다양한 규칙을 확인할 수 있었다. 이러한 분석은 농산물 잔류농약 안전성 검사 대상을 선정하거나, 사전예방을 위한 교육 대상자를 선정하는 데 도움이 될 수 있을 것으로 생각된다.

시기에 따라서 수확되고 생산되는 농산물에 차이가 있기 때문에 연관규칙을 실제 업무에 활용 가능성을 검토하기 위해서는 시기별 연관규칙을 분석할 필요가 있다. 국립농산물품질관리원에서 매월 게시하는 잔류농약 부적합 발생에 대한 ‘PLS 대응 부적합 발생 주의보’에서도 시기마다 지역, 품목, 성분 등에 차이가 있음을 볼 수 있다. 하지만 월별로 나누어 분석을 진행하기에는 분석에 사용된 데이터의 양이 부족하다고 판단하여 지난 3년간(2017년~2019년) 잔류농약 부적합 농산물이 발생한 농업인의 데이터를 분기별로 구분하여 연관규칙 분석을 실시하였다. 그 결과, 1분기는 1,033개, 2분기는 268개, 3분기는 180개, 4분기는 223개의 규칙이 도출되었으며, 자세한 결과는 <Table 4>~<Table 7>과 같이 나타났다.

Association rule analysis of unconformity products for first quarter in 2017∼2019 (Top 10)

Association rule analysis of unconformity products for second quarter in 2017∼2019 (Top 10)

Association rule analysis of unconformity products for third quarter in 2017∼2019 (Top 10)

Association rule analysis of unconformity products for fourth quarter in 2017∼2019 (Top 10)

1분기 부적합 연관규칙에는 {광주광역시-남성-60대-재배면적 2,000㎡ 이상~3000㎡ 미만-과일 과채류}, {광주광역시-남성-60대-전 생애 농업에 종사-재배면적 2,000㎡ 이상~3,000㎡ 미만-과일 과채류} 등과 관련된 규칙이 상위에 나타났고 2분기 연관규칙에는 {재배면적 6,000㎡ 이상~7,000㎡ 미만-경기도-남성-영농경력 40년 이상 50년 미만-엽경채류}, {재배면적 6,000㎡ 이상~7,000㎡ 미만-경기도-남성-영농경력 40년 이상 50년 미만-전업-엽경채류} 등의 규칙이 상위에 나타났다. 3분기 연관규칙으로는 {과실류-전라남도-영농경력 10년 이상 20년 미만}, {경상북도-다른 산업에서 전환-전업-약용작물류} 등과 관련된 규칙이 상위에 나타났다. 4분기 연관규칙으로는 {근채류-제주도-남성-전 생애 농업에 종사}, {근채류-제주도-남성-전 생애 농업에 종사-전업} 등의 규칙이 나타났다. 분기별로 나타난 부적합 연관규칙 1~2위를 살펴보면 1분기에는 농산물 품목(대분류) 중 과일 과채류가 부적합 연관 상위규칙에 포함되었고, 2분기에는 엽경채류가 부적합 연관 상위규칙에 나타났다. 3분기에는 과실류 및 약용작물류가 포함된 연관규칙이 상위 연관규칙으로 나타났고, 4분기에는 근채류 품목이 포함된 연관규칙의 향상도 값이 높게 나타나는 경향을 보여주었다. 전체 데이터를 사용했던 <Table 1>의 결과와는 다르게 경기도와 엽경채류의 규칙은 물론 다른 연관규칙 또한 상위 규칙에 나타나는 것을 볼 수 있었다. 이는 예상했던 대로 시기별로 잔류농약 부적합 농산물을 재배하는 경영체의 패턴에 차이가 있음을 나타내며, 시기별로 규칙을 도출하는 것이 잔류농약 부적합 농업경영체 조사에 활용할 때 의미가 있을 것으로 생각된다. 그리고 1분기의 규칙이 1,033개의 규칙으로 다른 분기에 비해 유독 많은 규칙이 도출됨을 볼 수 있는데, 이는 해당 분기의 데이터 양이 209건으로 다른 분기에 비해 적기때문에 사전 조건에 의해 걸러지는 규칙이 적어 의미 없는 조건이 많이 포함되어 나타난 결과로 사료된다. 추후 지속적인 연구를 통하여 의미 있는 규칙 도출을 위한 사전 조건에 대한 연구가 필요할 것으로 보인다.

5. 결 론

본 연구는 기존의 잔류농약 부적합 결과를 농산물의 품목과 농약 성분 관점에서 분석하지 않고 농산물을 생산하는 농업인, 즉 사람에게 초점을 두고 분석을 수행하였다. 이에 따라 특정 농산물 품목이나 지역에 그치지 않고 넓은 범위에서 적용 가능한 부적합 농산물에 관한 데이터 분석 연구임에 큰 의의가 있다. R을 활용하여 년도에 따라 잔류농약 부적합 생산 농업인 정보의 현황과 추이를 살펴보았고, 연관규칙 분석을 통해 세부적인 항목들의 연관규칙과 유형을 분석하는 방법을 제안하였다. 이를 통해 연관규칙 분석은 다양한 잔류농약 부적합 패턴을 이해하는데 중요한 방법으로 사용될 수 있음을 확인하였다.

분석 결과, 경기도 지역에서 엽경채류를 생산하는 농업인에게서 부적합이 많이 나타났음을 알 수 있었고, 이외에도 활용 가능한 연관 규칙들을 도출할 수 있음을 확인하였다. 농산물 안전성 시료 수집 대상을 선정하거나 사전에 부적합 농산물 발생 확률이 높은 농가를 예측하여 미리 맞춤형 교육을 하는데 본 연구의 결과로 나온 규칙들을 우선적으로 활용을 한다면 보다 효율적이고 경제적인 농산물 안전 관리 방안을 구현할 수 있을 것이라 사료된다. 추후 연관규칙 분석 결과를 바탕으로 시료 수거 검사, 농가 교육∙지도에 활용하여 그 타당성을 검증할 필요가 있다고 생각된다.

본 연구의 한계점으로는 잔류농약 안전성 조사에서 부적합으로 판정된 농산물의 재배지 주소를 기반으로 농업인 정보를 수집하는 단계에서 해당 주소에 경영체 정보가 없는 경우, 필지 소유주가 기업이나 업체인 경우, 경영체 정보가 있더라도 결측값이 다수 포함되어있는 경우, 한 필지에 여러 경영체가 있는 경우 등 분석에 사용되기 어려운 관측 대상들이 포함되어 있어서 데이터의 완전성이 부족했다는 점이 있다. 그리고 오직 부적합으로 판정된 데이터만을 이용했기 때문에 변수에서 해당 항목이 많이 차지한다고 하더라도 실제로 해당 항목의 경영체가 부적합 농산물을 생산할 확률이 높아서 많이 차지하는 것인지 아니면 해당 항목에 해당하는 농업인의 수 그 자체가 다른 항목에 비해 많기때문에 그런 것인지를 정확하게 설명하기 어렵다는 점이다. 추후에 적합 농업인을 포함한 더 많은 데이터와 정확한 데이터를 수집하여 여러 기준으로 다양한 분석 연구를 수행하고, 실제 검증을 통한 정확성 확인 연구가 필요할 것으로 사료된다.

References

Agrawal R, Imielinski T, Swami A. 1993. Mining Association Rules between Sets of Items in Large Databases. Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data Washington DC: May. 1993. p. 207–216.
Agrawal R, Srikant R. 1994. Fast Algorithms for Mining Association Rules. Proceedings of the 20th International Conference on Very Large Data Bases VLDB. Santiago de Chile: p. 487–499.
Cho SG, Choi GH. 2018;Study on Anomaly Detection Method of Improper Foods using Import Food Big Data. The Journal of BigData 3(2):19–33.
Eom W. 2017;Association Analysis for MRA Results of Defense R&D. Journal of the Korean Society for Quality Management 45(3):309–326.
Guideline for Conducting Safety Investigations such as Agricultural Products. 2019;National Agricultural Products Quality Management Service Regulation :214.
Hahsler M, Grün B, Hornik K. 2005;A rules – A Computational Environment for Mining Association Rules and Frequent Item Sets. Journal of Statistical Software 14(15):1–25.
Han SH, Chae GS. 2016;An Evaluation of Direct Payment on Agricultural Income Effect using Farm Manager Registration. Information Journal of the Korea Academia-Industrial Cooperation Society 17(5):195–202.
Jung EJ, Chang UJ, Jo KA. 2019;Analysis of Dieting Practices in 2016 using Big Data. Korean Journal of Food Science and Technology 51(2):176–181.
Kwon HY, Kim JB, Lee HD, Ihm YB, Kyung KS, Park IH, Choi J. 2004;Estimate of Pesticide Residues in Tomato Varieties using Ratio of Surface Area to Weight. The Korean Journal of Pesticide Science 8(1):30–37.
Na MH, Cho WH, Kim SK. 2020;A Construction of Web Application Platform for Detection and Identification of Various Diseases in Tomato Plants Using a Deep Learning Algorithm. Journal of the Korean Society for Quality Management 48(4):581–596.
Park HK, Noh HH, Lee KH, Lee JY, Park YS, Kang KW, Lee EY, Yun SS, Jin CW, Kyung KS. 2011;Residual Characteristic of Chlorpyrifos in Squash and Estimation of Its Residues Before Harvest. The Korean Journal of Pesticide Science 15(4):463–470.
Park JW, Seo JH, Lee DH, Na KI, Cho SY, Bae MJ. 2018;Evaluation of Results in Pesticide Residues on Incongruity Commercial Agricultural Commodities using Network Analysis Method. Journal of Food Hygiene and Safety 33(1):23–30.
Roh YC, Cho NW, Lee D. (2020)A Study on Determinants of Stockpile Ammunition using Data Mining. Journal of the Korean Society for Quality Management 48(2):297–307.
SafeQ. [Internet]. 2021. National Agricultural Products Quality Management Service. Available from: naqs.go.kr/safeq/service/safetyResearchMethods.do.
Son JE, Kim SB, Kim HJ, Cho SZ. 2015;Review and Analysis of Recommender Systems. Journal of the Korean Institute of Industrial Engineers 41(2):185–208.
Tukey JW. 1977. Exploratory Data Analysis MA, Addison-Wesley. Reading:
Yoon JS. 2018. Bigdata Use Case Dictionary Busan, Dataedu: p. 6.

Article information Continued

Figure 1.

Research Process

Table 1.

Association rule analysis of unconformity products for 2017∼2019 (Top 10)

No. Condition Result Support Confidence Lift
1 Type of agriculture=Full-time, Area=6,000m2 or more less than 7,000m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.0118 0.9 3.5038
2 Gender=Male, Type of agriculture=Full-time, Area=6,000m2 or more less than 7,000m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.0111 0.8947 3.4833
3 Month=6∼9, Area=10,000m2 or more less than 15,000m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.0105 0.8889 3.4605
4 Month=6∼9, Type of agriculture=Full-time, Area=10,000m2 or more less than 15,000m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.0105 0.8889 3.4605
5 Area=10,000m2 or more less than 15,000m2, Main category=Leaf vegetables Type of agriculture=Full-time, Cultivation region= Gyeonggi-do 0.0176 0.871 3.3907
6 Area=10,000m2 or more less than 15,000m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.0176 0.871 3.3907
7 Area=6,000m2 or more less than 7,000 m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.0124 0.8636 3.3622
8 Gender=Male, Area=6,000m2 or more less than 7,000m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.0118 0.8571 3.3369
9 Gender=Male, Area=10,000m2 or more less than 15,000m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.015 0.8519 3.3163
10 Gender=Male, Type of agriculture=Full-time, Area=10,000m2 or more less than 15,000m2, Main category=Leaf vegetables Cultivation region= Gyeonggi-do 0.015 0.8519 3.3163
Total 352 rules

Table 2.

Association rule analysis of unconformity products for 2017∼2019 except Gyeonggi-do (Top 10)

No. Condition Result Support Confidence Lift
1 Month=1∼6, Gender=Male, Career=less than 10years Type of agriculture= Dual work 0.0106 0.5 5.1216
2 Gender=Male, Type of agriculture=Full-time, Main category=Medicinal plants Region= Gyeongsangbuk-do 0.0106 0.6667 3.6975
3 Month=9∼12, Main category=Industrial crops Area= Less than 1,000m2 0.0106 0.75 3.5383
4 Type of agriculture=Full-time, Main category=Medicinal plants Region= Gyeongsangbuk-do 0.0114 0.619 3.4334
5 Gender=Male, Career=50years or more, Main category=Fruits Region= Jeollanam-do 0.0123 0.6087 3.4261
6 Gender=Male, Career=50years or more, Type of agriculture=Full-time, Main category=Fruits Region= Jeollanam-do 0.0123 0.6087 3.4261
7 Agricultural start form=Switch from other industry, Main category=Industrial crops Area= Less than 1,000m2 0.0114 0.7222 3.4073
8 Gender=Male, Career=50years or more, Agricultural start form=Engaged in agriculture all life, Main category=Fruits Region= Jeollanam-do 0.0106 0.5714 3.2164
9 Gender=Male, Career=50years or more, Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time, Main category=Fruits Region= Jeollanam-do 0.0106 0.5714 3.2164
10 Gender=Male, Main category=Medicinal plants Region= Gyeongsangbuk-do 0.0106 0.5714 3.1693
Total 113 rules

Table 3.

Association rule analysis of unconformity products for 2017∼2019 except leaf vegetables (Top 10)

No. Condition Result Support Confidence Lift
1 Agricultural start form=Switch from other industry, Main category=Fruit vegetable Region= Gyeonggi-do 0.0119 0.6 4.4514
2 Month=9∼12, Type of agriculture=Full-time, Main category=Industrial crops Area= Less than 1,000m2 0.0129 0.8125 3.8853
3 Agricultural start form= Switch from other industry, Main category=Industrial crops Area= Less than 1,000m2 0.0149 0.75 3.5864
4 Gender=Male, Type of agriculture=Full-time, Main category=Medicinal plants Region= Gyeongsangbuk-do 0.0119 0.5217 3.5811
5 Gender=Male, Career=50years or more, Main category=Fruits Region= Jeollanam-do 0.0139 0.6087 3.5707
6 Gender=Male, Career=50years or more, Type of agriculture=Full-time, Main category=Fruits Region= Jeollanam-do 0.0139 0.6087 3.5707
7 Month=9∼12, Main category=Industrial crops Area= Less than 1,000m2 0.0139 0.7368 3.5235
8 Month=7∼9, Gender=Male, Main category=Fruit and fruit vegetable Region= Chungcheongnam-do 0.0109 0.5238 3.4771
9 Month=7∼9, Gender=Male, Type of agriculture=Full-time, Main category=Fruit and fruit vegetable Region= Chungcheongnam-do 0.0109 0.5238 3.4771
10 Type of agriculture=Full-time, Main category=Medicinal plants Region= Gyeongsangbuk-do 0.0129 0.5 3.4319
Total 90 rules

Table 4.

Association rule analysis of unconformity products for first quarter in 2017∼2019 (Top 10)

No. Condition Result Support Confidence Lift
1 Gender=Male, Age=60s, Area=2,000m2 or more less than 3,000m2, Main category=Fruit and fruit vegetable Region=Gwangju 0.0144 0.6 31.35
2 Gender=Male, Age=60s, Agricultural start form=Engaged in agriculture all life, Area=2,000m2 or more less than 3,000m2, Main category=Fruit and fruit vegetable Region=Gwangju 0.0144 0.6 31.35
3 Gender=Male, Age=60s, Type of agriculture=Full-time, Area=2,000m2 or more less than 3,000m2, Main category=Fruit and fruit vegetable Region=Gwangju 0.0144 0.6 31.35
4 Gender=Male, Age=60s, Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time, Area=2,000m2 or more less than 3,000m2, Main category=Fruit and fruit vegetable Region=Gwangju 0.0144 0.6 31.35
5 Age=60s, Area=2,000m2 or more less than 3,000m2, Main category=Fruit and fruit vegetable Region=Gwangju 0.0144 0.5 26.125
6 Age=60s, Type of agriculture=Full-time, Area=2,000m2 or more less than 3,000m2, Main category=Fruit and fruit vegetable Region=Gwangju 0.0144 0.5 26.125
7 Age=60s, Type of agriculture=Full-time, Area=2,000m2 or more less than 3,000m2, Main category=Fruit and fruit vegetable Region=Gwangju 0.0144 0.5 26.125
8 Age=60s, Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time, Area=2,000m2 or more less than 3,000m2, Main category=Fruit and fruit vegetable Region=Gwangju 0.0144 0.5 26.125
9 Region=Jeollanam-do, Career=50years or more, Area=2,000m2 or more less than 3,000m2 Main category= Root vegetable 0.0144 0.6 20.9
10 Region=Jeollanam-do, Age=70s, Career=50years or more, Area=2,000m2 or more less than 3,000m2 Main category= Root vegetable 0.0144 0.6 20.9
Total 1,033 rules

Table 5.

Association rule analysis of unconformity products for second quarter in 2017∼2019 (Top 10)

No. Condition Result Support Confidence Lift
1 Region=Gyeonggi-do, Gender=Male, Career=40years or more less than 50years, Main category=Leaf vegetables Area=6,000m2 or more less than 7,000 0.0112 0.5 12.75
2 Region=Gyeonggi-do, Gender=Male, Career=40years or more less than 50years, Type of agriculture=Full-time, Main category=Leaf vegetables Area=6,000m2 or more less than 7,000m2 0.0112 0.5 12.75
3 Region=Gyeongsangnam-do, Gender=Male, Agricultural start form=Engaged in agriculture all life, Area=2,000m2 or more less than 3,000m2 Main category= Wild vegetable 0.0112 0.6667 7.6774
4 Agricultural start form=Switch from other industry, Main category=Industrial crops Type of agriculture=Dual work 0.0112 0.8 6.9659
5 Gender=Male, Agricultural start form=Switch from other industry, Main category=Industrial crops Type of agriculture=Dual work 0.0112 0.8 6.9659
6 Gender=Male, Age=60s, Career=40years or more less than 50years, Type of agriculture=Full-time, Main category=Condiment vegetable Region= Gyeongsangnam-do 0.0112 0.6667 6.6111
7 Gender=Male, Age=60s, Career=40years or more less than 50years, Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time, Main category=Condiment vegetable Region= Gyeongsangnam-do 0.0112 0.6667 6.6111
8 Region=Gyeongsangnam-do, Gender=Male, Area=2,000m2 or more less than 3,000m2 Main category= Wild vegetable 0.0112 0.5714 6.5806
9 Career=10years or more less than 20years, Agricultural start form=Switch from other industry, Type of agriculture=Full-time, Area=2,000m2 or more less than 3,000m2 Gender=Female 0.0112 1 6.2632
10 Region=Gyeongsangnam-do, Agricultural start form=Engaged in agriculture all life, Area=2,000m2 or more less than 3,000m2 Main category= Wild vegetable 0.0112 0.5 5.7581
Total 268 rules

Table 6.

Association rule analysis of unconformity products for third quarter in 2017∼2019 (Top 10)

No. Condition Result Support Confidence Lift
1 Region=Jeollanam-do, Career=10years or more less than 20years Main category=Fruits 0.0132 0.7778 6.1410
2 Agricultural start form=Switch from other industry, Type of agriculture=Full-time, Main category=Medicinal plants Region= Gyeongsangbuk-do 0.0113 0.75 6.0114
3 Gender=Male, Agricultural start form=Switch from other industry, Type of agriculture=Full-time, Main category=Medicinal plants Region= Gyeongsangbuk-do 0.0113 0.75 6.0114
4 Age=60s, Career=10years or more less than 20years, Type of agriculture=Full-time, Area=1,000m2 or more less than 2,000m2 Region= Gyeongsangbuk-do 0.0113 0.75 6.0114
5 Age=60s, Career=10years or more less than 20years, Agricultural start form=Switch from other industry, Type of agriculture=Full-time, Area=1,000m2 or more less than 2,000m2 Region= Gyeongsangbuk-do 0.0113 0.75 6.0114
6 Region=Jeollanam-do, Career=20years or more less than 30years Main category=Fruits 0.0113 0.75 5.9216
7 Region=Jeollanam-do, Career=20years or more less than 30years, Type of agriculture=Full-time Main category=Fruits 0.0113 0.75 5.9216
8 Age=60s, Career=10years or more less than 20years, Agricultural start form=Switch from other industry, Area=1,000m2 or more less than 2,000m2 Region= Gyeongsangbuk-do 0.0113 0.6667 5.3434
9 Region=Gyeonggi-do, Age=60s, Career=40years or more less than 50years, Agricultural start form=Engaged in agriculture all life, Main category=Leaf vegetables Gender=Female 0.0113 0.8571 5.3344
10 Region=Gyeonggi-do, Age=60s, Career=40years or more less than 50years, Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time, Main category=Leaf vegetables Gender=Female 0.0113 0.8571 3.3344
Total 180 rules

Table 7.

Association rule analysis of unconformity products for fourth quarter in 2017∼2019 (Top 10)

No. Condition Result Support Confidence Lift
1 Region=Jeju, Gender=Male, Agricultural start form=Engaged in agriculture all life Main category= Root vegetable 0.0115 0.7143 28.2468
2 Region=Jeju, Gender=Male, Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time Main category= Root vegetable 0.0115 0.7143 28.2468
3 Region=Jeju, Agricultural start form=Engaged in agriculture all life Main category= Root vegetable 0.0115 0.625 24.7159
4 Region=Jeju, Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time Main category= Root vegetable 0.0115 0.625 24.7159
5 Agricultural start form=Engaged in agriculture all life, Main category=Root vegetable Region=Jeju 0.0115 0.5556 24.1667
6 Gender=Male, Agricultural start form=Engaged in agriculture all life, Main category=Root vegetable Region=Jeju 0.0115 0.5556 24.1667
7 Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time, Main category=Root vegetable Region=Jeju 0.0115 0.5556 24.1667
8 Gender=Male, Agricultural start form=Engaged in agriculture all life, Type of agriculture=Full-time, Main category=Root vegetable Region=Jeju 0.0115 0.5556 24.1667
9 Region=Jeju, Gender=Male Main category= Root vegetable 0.0115 0.5556 21.9697
10 Region=Jeju, Gender=Male, Type of agriculture=Full-time Main category= Root vegetable 0.0115 0.5556 21.9697
Total 223 rules