1. 서 론
여러 글로벌 제약 회사가 고부가 가치를 창출하기 위해서 신약을 개발하고 있지만, 신약 개발은 평균 10년 이상의 시간과 실패 비용을 포함하면 약 1조 원 이상의 투자를 필요로 하는 고비용-저효율 산업이다(DiMasi et al., 2010). 임상 시험은 비임상 시험의 데이터를 바탕으로 하므로 동물과 사람의 약동학(Pharmacokinetics, PK) 특성이 유사하지 않을 경우 비임상 시험에 성공해 임상 시험으로 넘어가더라도 임상 시험에서 실패할 수 있다(Kola, 2004; Prueksaritanout and Tang, 2012; Kang et al., 2019). 따라서 임상 시험과 비임상 시험의 PK profile의 유사성에 대한 많은 연구들이 진행되고 있다.
현재 제네릭 의약품의 허가 시 대조약과 시험약이 유사하다는 것을 생물학적 동등성 시험을 통해 증명하며, 그에 대한 자료 제출이 의무화되어 있다. 아래 Figure 1과 Table 1에서 설명한 것과 같이 PK 파라미터에는 혈중농도-시간곡선하면적(Area Under the Curve, AUC), 최고혈중농도(Cmax), 최고혈중농도 도달시간(Tmax) 등이 있으며 생물학적 동등성을 평가할 때 일반적으로 사용되는 파라미터는 AUC이다. Figure 1에 제시한 바와 같이 PK profile의 곡선하면적으로 계산되는 AUC에 대한 연구는 많이 수행되어 있지만 PK profile에 대한 연구는 비교적 부족한 상황이다. 또한 AUC가 유사하다고 PK profile 또한 유사하다고 할 수 없기 때문에 PK profile에 대한 연구는 반드시 필요하며, 생물학적 동등성 평가 시 AUC와 함께 PK profile을 고려하여 평가하는 방법이 마련되어야 한다.
유사성 평가에 대한 선행연구는 데이터 표준화(Data Scalization, DS), 쌍체 t 검정(Paired t-test, Pt-test), 평균제곱근오차(Root Mean Square Error, RMSE) 및 마할라노비스 거리(Mahalanobis Distance, MD)와 같은 통계적 분석 방법을 기반으로 유사성을 평가할 수 있는 방안을 제시하고 있다(Jung, 2018). 그러나 앞에서 제시된 선행연구들의 경우 임상 시험과 비임상 시험 PK profile의 유사성 평가에 있어 기초적인 연구일 뿐만 아니라 유사성 평가의 정확한 기준이 제시되어 있지 않아 상대적인 평가에 불과하다는 한계점이 존재한다. 따라서 유사성 평가의 신뢰성을 높이려면 동물에 따른 편차를 고려하고, 정확한 기준이 제시되어야 한다.
따라서 본 논문에서는 기존의 문제점을 개선하고 AUC와 PK profile을 함께 비교할 수 있는 프로파일 유사성 지수(Profile Similarity Index, PSI)를 제안하고자 한다. 먼저 시스템 공정능력지수 개념을 기반으로 시계열 데이터 특성을 갖는 PK profile에 적용할 수 있는 새로운 프로파일 유사성 지수(PSI)와 평가 기준을 제시하였다(Lee, 2020). 본 논문에서 제안한 프로파일 유사성 지수(PSI)를 기반으로 임상 시험과 비임상 시험 간의 편차 및 비임상 시험 데이터의 분산을 다르게 설정하여 통계적 시뮬레이션을 수행하고, 이를 통해 본 연구에서 제안하는 프로파일 유사성 지수(PSI)의 유효성을 입증하였다. 마지막으로, 실제 임상 시험과 비임상 시험 결과를 바탕으로 유사성 평가를 수행하였고, 해당 제형에서 사람과 가장 유사한 최적의 동물을 도출하였다.
2. 이론적 배경 및 선행연구
2.1 생물학적 동등성 시험
생물학적 동등성 시험은 주성분 및 함량이 동일한 두 제제 또는 제형이 동일 투여 경로의 생체이용률에 있어 통계학적으로 동등하다는 것을 입증하기 위해 시행되는 시험을 의미한다(KFDA, 2011). 국내의 경우 제네릭 의약품은 의약품의 안정성이 기 확보된 상황이어서 임상 시험(1, 2, 3상)을 거치지 않고 생물학적 동등성의 입증만으로 허가를 받을 수 있다. 생물학적 동등성의 입증 방법에는 제형에 따라 AUC, Cmax, Tmax 등의 다양한 지수를 바탕으로 유사성을 입증하여야 하는데, 그 중 AUC는 필수적으로 고려되어야 하는 파라미터이다. 생물학적 동등성의 통계적 판정 절차 중 통계 처리 과정은 식품의약품안전처 생물학적동등성시험 전문교육 매뉴얼(KFDA, 2011)을 따라 아래 식 (1)-(4)의 과정까지 수행하여야 한다. 먼저, 대조약과 시험약을 피실험자에게 투여 후 AUC, Cmax, Tmax 등의 PK 파라미터를 도출하고, 이 파라미터에 관하여 분산분석(Analysis of Variance, ANOVA) 및 동등성 검정(Two-One Sided Test, TOST)을 수행하고 그 결과를 바탕으로 판정을 내린다. AUC 측면의 생물학적 저 PK 파라미터를 자연로그로 변환해주며 로그 변환한 대조약과 시험약 AUC에 기하평균을 적용하여 대조약의 평균(μR) 및 시험약의 평균 (μT)을 도출 한 후 μT/μR 비로 점추정(point estimate) 값을 구한다. 세 번째로, 로그변환된 AUC를 대조약과 시험약 간의 ANOVA를 실시하여 실험 순서가 결과에 영향을 미치는지를 고려하는 순서효과(sequence effects)를 확인한 후 피실험자 간 및 개체 간, 제제 간 등의 변동 요인에 대한 유의성 여부를 검토한다. 그리고 ANOVA와 신뢰구간 검정에 대하여 로그 변환한 AUC 검출력은 식 (1)로 계산하였고, 최소검출차는 식 (2), 식 (3)으로 구하였다. 대조약에 대한 시험약 평균의 신뢰구간을 식 (4)에 따라 계산하였다.
여기서, λ(v1, α)는 비중심모수, α는 유의수준(0.05), σ는 AUC의 표준편차, n은 개수, δ*는 AUC 감지변화값을 의미한다.
식 (4)에서 ln μ T μ R l o w e r , u p p e r 는 μ T μ R 의 90% 신뢰구간을 의미하며, μT 및 μR 은 대조약 및 시험약의 평균, X ¯ T , X ¯ R 은 로그 변환한 AUC 기하평균 값, MSR 은 ANOVA의 평균제곱근잔차를 나타낸다. 이때 도출된 대조약에 대한 시험 약 평균의 점추정 값이 0.8에서 1.25 사이에 존재할 경우, 생물학적 동등성을 만족한다고 판단하고, ANOVA를 통해 확인한 순서효과와 제제 및 시기효과가 인정되지 않을 때 교차실험이 잘 성립되었다고 판단한다. 또한, 1) 검출력이 0.8(±20%) 이상이고, 2) 대조약 평균의 80%~125% 신뢰구간 사이에 시험약 평균의 90% 신뢰구간이 존재할 때 생물학적 동등성 기준을 만족한다고 할 수 있다(KFDA, 2011; Lee et al., 2000).
2.2 통계적 데이터 유사성 평가 방법
현재 임상 시험과 비임상 시험 간의 PK profile의 유사성 평가는 데이터 표준화(Data Scalization, DS), 쌍체 t검정(Paired t-test, Pt-test), 평균제곱근오차(Root Mean Square Error, RMSE), 손실함수(Loss function) 및 마할라노비스 거리(Mahalanobis Distance, MD) 등의 통계학적 방법으로 유사성 평가를 수행하고 있다. DS는 임상 시험과 비임상 시험 간의 유사성 평가를 위해 각 시점(i)의 PK profile 데이터의 스케일을 동등하게 표준화하는 기법으로 식 (5)와 같이 계산되고, Pt-test는 각 시점의 임상과 비임상의 PK profile이 얼마나 유사한지를 통계적인 값으로 계산하여 평가하는 것이다.
다음으로 RMSE는 임상 시험과 비임상 시험의 평균값이 얼마나 차이가 나는지를 산출하기 위해 식 (6)을 이용하여 유사성을 파악하며 RMSE 값이 0에 가까울수록 유사성이 높다고 판단된다. 이때 n은 총 시점 개수, i 시점에서 임상 시험의 평균값을 Hi, 비임상 시험의 평균값을 Ai라고 정의한다.
손실함수(Loss function)는 임상 시험과 비임상 시험 간의 오차를 나타낸 값으로 식 (7)과 같이 일반적으로 평균제곱오차(Mean Square Error, MSE)를 사용하여 계산할 수 있다.
MD는 한 점에서부터 분포까지의 거리를 측정하는 것으로, 유클리드 거리(Euclid Distance, ED)를 여러 차원의 공간으로 확장하여 표준화한 개념이다(Mahalanobis, 1936; Gnanadesikan and Kettenring, 1972). 아래 Figure 2와 같이, ED는 각 변수 간의 차이를 통해 계산되지만 MD는 변수 간의 차이와 공분산(covariance)을 함께 고려하여 계산한다. 또한 MD는 두 개 이상의 변수에 대하여 분석할 수 있으며, 변수들의 상관관계에 따른 확률까지 고려 가능하다(De Maesschalck et al., 2000; Brereton, 2015).
3. 연구 설계
3.1 시스템 공정능력지수(System Process Capability Index, SPCI)
관리 상태의 공정에서 생산되는 제품의 품질변동이 주어진 규격의 수준을 공정능력(process capability)이라 하며, 공정의 수준을 수치로 표현한 것을 공정능력지수(Process Capabiltiy Index, PCI)라고 한다. Cp는 자연공차에 대한 규격 폭의 비로 정의되는 가장 기본적인 PCI이고, 다음으로 제안된 Cpk는 치우침이 발생한 경우 사용되며, 가장 일반적으로 사용되는 PCI이다. Cpk 이후 제안된 Cpm은 평균과 목표값이 얼마나 떨어져 있는지 고려하였으며, Cpmk는 목표치가 규격 상·하한의 중심이 아닌 경우에도 공정능력의 평가가 가능하도록 제안한 지수이다(Chan et al., 1988). PCI의 판정 기준은 0.67 이하일 때 공정능력이 매우 부족하다고 판단하며, 1 이상이면 대체로 만족, 1.67 이상일 때 매우 만족한다고 판정한다. 시스템 공정능력지수(System Process Capability Index, SPCI)는 여러 개의 개별 항목들을 통합하여 하나의 공정능력으로 표현하는 것으로, 해당 시스템을 구성하는 개별 공정의 단일 PCI에 의해 결정된다. SPCI는 개별 항목들에 대한 PCI를 계산하고, 이들 개별 PCI를 산술·기하·절사평균 등을 사용하여 하나의 값으로 나타낸다(Lee, 2016).
3.2 프로파일 유사성 평가 지수(Profile Similarity Index, PSI)
PK profile은 시간 변화에 따른 약물의 농도를 나타낸 것으로, PK의 평균 농도값 및 편차가 시간에 따라 달라진다. 따라서 임상 시험과 비임상 시험의 PK profile에 대한 유사성을 평가하기 위해서는 각 시간대별 유사성을 평가한 후, 각 시간대별로 도출된 유사성 평가 결과를 하나의 값으로 통합시켜 전체적인 PK profile의 유사성을 평가하여야 한다. 이에 본 논문에서는 아래 Figure 3에서 보는 바와 같이 임상 PK profile의 목표값은 각 시간대별 농도 평균값으로 설정하고, 목표 규격은 실험의 편차를 바탕으로 설정하여 임상 PK profile과 비임상 PK profile의 유사성을 평가할 수 있는 공정능력지수 기반의 프로파일 유사성 지수(PSI)를 제안하였다.
Figure 3에서 보는 바와 같이, 각 시간대별 유사성 지수(SIpm, SIpmk)를 바탕으로 PK profile의 전체적인 유사성을 평가할 수 있는 지수를 제안하였다. 본 연구에서 제안하는 프로파일 유사성 지수(PSIpm, PSIpmk)는 시스템 공정능력지수의 개념을 활용하여 식 (8)-(15)와 같이 각 시간대별 가중치(ωj)를 적용할 수 있는 새로운 방법을 제시하였으며 이때 각 시간대별 가중치(ωj)는 제형의 특성에 따라 다르게 설정된다. i 시점(시간)에서의 유사성 지수(SIpm)는 i시점에서의 규격 상·하한(USLi, LSLi), i 시점의 분산 σ i 2 , i 시점의 평균 μi , i 시점의 목표값 Ti를 바탕으로 식 (8)과 같이 정의될 수 있다.
여기서 θ는 규격의 크기(θ=1, 2, ...,6)로 정의되며, 시뮬레이션 연구에서 주요 구성인자(Figure 4 참조)로 규격의 크기에 따른 지수의 변화를 제시하였다. i 시점에서 유사성 지수를 나타내는 식 (8)에 기하평균(geometric mean) 및 가중치를 적용한 유사성 지수 GSIpm은 다음 식 (9)와 같이 정의하였다.
위의 식에서 ωj는 j 번째 구간 가중치(j=1,2, ...,z)이고, vj는 j 번째 구간 시간대 수(j=1,2, ...,z)를 의미한다. 기하평균을 적용한 프로파일 유사성 지수인 식 (9)와 유사한 개념으로 산술평균(arithmetic mean)을 적용한 유사성 지수인 ASIpm을 다음 식 (10)과 같이 도출할 수 있다.
i 시점(시간)에서의 유사성 지수(SIpm)는 데이터의 평균이 규격의 가운데 있을 경우 활용할 수 있는 방법이고, 만약 데이터의 평균이 가운데 있지 않고 좌·우로 치우침이 있다면 평균의 치우침을 반영한 유사성 지수가 필요하다. 따라서 평균의 치우침이 있을 경우에 적용할 수 있는 유사성 지수인 SIpmk를 식 (11)과 같이 정의할 수 있다.
식 (8)-(13)을 통해 데이터의 평균이 규격의 가운데 있을 경우와 평균의 치우침이 있을 경우를 구분하였으며, 두 경우에서 각 시점별 유사성 지수를 기하평균과 산술평균을 활용하여 두 종류의 프로파일 유사성 지수(PSIpm, PSIpmk)를 도출할 수 있다. 먼저 데이터의 평균이 규격의 가운데 있는 경우, 두 유사성 지수(GSIpm, ASIpm) 값 중 작은 값을 선정하여 프로파일 유사성 지수(PSIpm)를 식 (14)와 같이 도출할 수 있다.
또한 데이터의 평균이 규격의 가운데 있지 않고 치우침이 있는 경우, 두 유사성 지수(GSIpmk, ASIpmk) 값 중 작은 값을 선정하여 프로파일 유사성 지수(PSIpmk)를 식 (15)와 같이 도출할 수 있다.
4. 시뮬레이션 및 사례연구
4.1 통계적 시뮬레이션
본 연구에서 제시한 프로파일 유사성 지수(PSI)의 효과를 증명하기 위해 Figure 4에서 보는 바와 같이 시뮬레이션을 수행하였다. 각 시뮬레이션을 수행하기 위해 연구 사례로 있던 데이터를 바탕으로 목표값, 목표값과의 편차가 작을 때(SB), 보통일 때(MB), 클 때(LB)의 PK profile을 가장 유사하게 추정하는 유리함수를 이용하여(Shin, 2016) True PK profile을 생성하였다. 이때 True PK profile로부터 각 시간대별 True PK 농도 데이터를 도출하여 Table 2에 제시하였으며, 이 데이터를 이용해 분산이 작을 때(SV), 보통일 때(MV), 클 때(LV)로 나누어 랜덤·반복 데이터를 생성하였다. Table 3에는 각 시간대별 표준편차의 1, 2, 3시그마 수준을 기반으로 규격의 크기가 작을 때(SS), 중간일 때(MS), 클 때(LS)로 도출하였다. 먼저, 공정능력지수는 공정의 안정화 정도를 분산성(시그마 수준)을 기반으로 하고 있으며, 평균의 치우침(bias)도 함께 고려하여 널리 활용되고 있다. 이를 바탕으로 유사성 평가 지수를 공정능력지수와 유사한 개념을 적용하였으며, 따라서 Simulation Ⅰ은 식 (8)의 θ 값을 우선 6으로 고정하여 PK profile 유사성 지수를 도출하고 비교 평가를 수행하였고, 그 결과는 Table 4에 정리하여 제시하였다. 또한 프로파일 유사성 지수(PSI)의 customization을 위해서는 θ 값의 변화에 따른 지수 값을 확인하고 추가적인 시뮬레이션이 필요하다고 판단하였다. 그래서 의약품의 생물학적 동등성 평가에 사용되는 판정 기준인 ln0.8~ln1.25(약 1시그마)를 기준으로 하여 Simulation Ⅱ에서는 규격의 크기를 SS일 때 θ=1, MS일 때 θ=2, LS일 때 θ=3을 적용하여 시뮬레이션을 수행하였고, 그 결과는 Table 5에 정리하여 제시하였다.
Simulation Ⅰ에 대한 유사성 평가 결과를 요약하여 Table 4에 제시하였다. Simulation Ⅰ은 일반적인 공정능력지수 개념을 이용하여 식 (8), 식 (11)에서 θ는 6으로 고정하여 프로파일 유사성 지수(PSI) 값을 도출하였다. 그 결과, PSIpm은 θ를 모두 6으로 고정하였기 때문에 편차에 따른 분산별로 같은 값이 산출되었으며, PSIpmk는 치우침을 반영하였기 때문에 규격마다 매우 작은 차이가 발생하였다. PSIpm과 PSIpmk는 대체로 편차와 분산이 클수록 프로파일 유사성 지수(PSI) 값이 낮게 도출되었다. 그리고 기존의 유사성 평가 방법인 RMSE는 같은 편차끼리 유사한 값이 도출되었고, Loss function은 각 편차 내 분산이 커질수록 값이 증가하는 것으로 나타났다.
Simulation Ⅱ에 대한 유사성 평가 결과를 요약하여 Table 5에 제시하였다. Simulation Ⅱ는 의약품 생물학적 동등성 평가의 판정 기준을 기준으로 하여 규격이 SS, MS, LS일 때 각각 θ는 1, 2, 3을 적용하여 시뮬레이션을 수행하였다. 그 결과, PSIpm과 PSIpmk는 편차와 분산이 크면 프로파일 유사성 지수(PSI) 값이 낮게 도출되었다. 기존 유사성 평가 방법인 RMSE는 같은 편차끼리 유사한 값이 도출되었으며, 편차가 커지면 RMSE 값도 증가하였다. 또한 Loss function은 각 편차 내 분산이 커질수록 값이 증가하는 것으로 나타났다.
4.2 사례 연구
본 사례 연구에서는 4.1의 통계적 시뮬레이션의 내용을 바탕으로 실제 임상과 비임상의 PK profile 유사성 평가를 수행하였다. Human, Anumal A(소동물), Animal B(중동물), Animal C(대동물)의 PK profile로 구성된 데이터는 아래 Figure 5와 Figure 6을 통해 그래프로 나타냈다. 아래 그림에서 보는 바와 같이 임상-비임상의 PK profile 간 scale이 차이를 보이며, 특히 Animal A(소동물)의 경우 scale의 차이가 크게 나타나는 것을 확인할 수 있다. 따라서 유사성 평가를 위해서는 DS를 수행하여야 한다.
Human 대비 Animal A, Animal B, Animal C의 PK profile 유사성 평가 결과를 아래 Table 7에 요약하였다. 우선, RMSE와 Loss function 결과, Human과 Animal C가 가장 유사하게 나타났지만 RMSE는 농도 평균의 차이를, Loss function은 농도 평균과 분산의 차이를 고려한 것으로 동물의 크기에 따른 차이는 고려하지 않고 있다. 따라서 동물의 크기 편차까지 고려한 유사성 평가 지수인 PSIpm과 PSIpmk의 결과를 보면, PSIpm의 경우 Animal A, B, C 모두 1 이상으로 나타나며 이는 유사성을 대체로 만족한다는 뜻이다. 그 중 Animal B는 값이 1.67 이상으로 유사성을 매우 만족하는 것으로 나타난다. PSIpmk의 경우, Animal A와 Animal C의 값은 0.67 이하로 유사성을 매우 만족하지 못하는 것을 뜻하며, Animal B는 1 이상으로 유사성을 대체로 만족하는 것으로 나타났다. 따라서 PSIpm과 PSIpmk를 모두 만족하는 Animal B가 Human과 가장 유사하다고 판단된다.
5. 결 론
본 연구는 임상 시험과 비임상 시험의 유사성을 평가하기 위해 프로파일 유사성 지수(PSI)를 제안하였고, 그에 대하여 프로파일 유사성 지수(PSI)와 기존의 통계적 유사성 평가 방법들을 이용하여 통계적 시뮬레이션을 수행하고, 결과를 비교·분석 하였다. 일반적인 공정능력지수 개념을 적용하여 θ를 6으로 고정하여 분석한 Simulation Ⅰ의 결과, PSIpm은 θ를 모두 같은 값으로 고정하였기 때문에 규격별로 같은 값이 도출되었고, PSIpmk는 치우침을 반영하여 규격마다 매우 작은 차이가 발생하였다. 대체로 편차와 분산이 크면 프로파일 유사성 지수(PSI) 값이 낮게 도출되었다. 그리고 기존 유사성 평가 방법인 RMSE는 같은 편차 내에서 모두 유사한 값으로 도출되었고, Loss function은 각 편차 내 분산이 커질수록 그 값도 증가하였다. 생물학적 동등성 평가 기준을 적용하여 규격이 SS, MS, LS일 때 θ를 1, 2, 3으로 적용하여 시뮬레이션을 수행한 Simulation Ⅱ의 결과, 프로파일 유사성 지수(PSI)의 편차와 분산이 커질수록 프로파일 유사성 지수(PSI) 값은 낮게 도출되었다. 기존 유사성 평가 방법인 RMSE는 같은 편차끼리 유사한 값으로 도출되었고, 편차가 커지면 값도 증가하는 것으로 나타났다. 또한 Loss function은 각 편차 내 분산이 커지면 값이 증가하는 것으로 도출되었다.
통계적 시뮬레이션 결과를 기반으로 하여 실제 임상 시험과 비임상 시험의 PK profile 유사성 평가를 수행하였다. 유사성 평가를 수행하기 전 DS 기반으로 평균 PK profile의 표준화를 진행한 뒤 Human 대비 Animal A, B, C의 PK profile에 대한 결과를 비교 분석하였다. 그 결과, 기존의 유사성 평가 방법인 RMSE 및 Loss function의 경우는 Animal C가 Human과 가장 유사하다고 나타났다. 이와 달리 PSIpm과 PSIpmk를 적용한 경우, Animal B가 가장 유사한 것으로 나타났다. 본 연구에서 제안한 유사성 지수는 시간에 따른 가중치를 부여 할 수 있으며, PK profile을 기반으로 유사성을 평가하기 때문에 단편적인 통합의 개념을 사용하는 RMSE와 Loss function의 접근법에 비하여 오류를 범할 가능성이 낮으며, 가중치의 적용을 기반으로 보다 높은 유효성을 갖는다고 할 것이다.
본 논문에서 수행한 Simulation 및 사례 연구 결과를 종합해 보면 새롭게 제안된 프로파일 유사성 지수(PSI)는 임상-비임상 시험 간의 AUC 또는 Cmax, Tmax와 같이 한 부분만 비교하는 것이 아니라 PK profile을 고려하여 시간의 흐름에 따라 전체적인 비교가 가능하다. 또한, 동물의 크기에 따라 나타나는 편차 및 반복 실험으로 인한 분산까지도 반영하여 유사성 분석이 가능하며, 의약품의 제형이나 특성에 따른 중요도를 이용해 가중치를 설정하여 분석이 가능하기 때문에 보다 정확한 유사성 분석의 토대를 제시하였다고 할 수 있다. 이러한 결과는 통계적 측면에서 임상과 비임상 시험간의 상호 관계를 보다 정확하게 평가 할 수 있는 기초 연구의 토대가 되었음을 의미한다. 그러므로 본 논문을 기반으로 향후 다음과 같은 연구가 수행되어야 할 것으로 생각한다. 임상과 비임상의 식별된 상호관계를 기반으로 각 제형에 가장 적합한 동물군을 찾고, 나아가 비임상 시험을 통해 최적의 임상 제형을 예측하고, 추가적으로 제형에 따라 달라지는 임상-비임상 간의 편차를 정확하게 반영할 수 있는 연구가 필요할 것이다.