개인별 특성이 반영된 집단 노출에 대한 확률분포 추정 모델 개발 및 수학적 자문(2019)
작성일2020-02-21기업㈜이에이치알앤씨
모더레이터
### ※ 기업체와의 비밀유지동의서에 의한 비밀유지 의무로 인하여 개략적인 내용만 서술하였습니다.
**1. 기업소개**
![이에이치알앤씨](/file/406e409248e145038c1047b44a0efd95.png)
* ㈜이에이치알앤씨는 환경 분야 생태 및 화학 독성, 제품의 위해성 평가에 대한 기술을 보유하고 있으며 해당 분야의 R&D 및 학술연구를 수행하는 연구 기업
**2. 문제배경 및 소개**
* 개인의 제품 사용 패턴(사용시간, 사용빈도, 사용량)과 사용 유무가 반영된 집단 노출 분포를 도출할 수 있는 적절한 수학적 방법 탐색
* 제품에 대한 개인 단위의 노출량 데이터 분포를 학습하고 이를 이용하여 데이터를 생성하여 사용 패턴 행렬 생성
* 설문에 응답한 3,000명에 대해서 제품별 노출량 데이터의 결측값을 채우는 적절한 방법 및 생성데이터의 해석 방법
**3. 해결 과정** (2019년 6월 ~ 2019년 12월, 7개월)
* 각 제품의 사용 패턴 설문 응답 분포를 추정하는 기존의 기업이 사용한 모수적 추정 방법에 대한 통계적 검토 제공
* 딥러닝 알고리즘인 Variational Autoencoder를 활용하여 비모수적인 방법으로 노출량 분포를 학습하고 데이터를 생성하는 방법 제시
* 데이터 분포들 간의 다른 정도를 측정할 수 있는 분포 거리 설명 제공 및 분포 거리를 통해서 생성된 데이터와 기존 데이터간의 거리 측정 정보 공유
* 생성된 분포를 해석하는 방법과 다른 제품 노출량 분포와의 독립성 검정하는 방법 제시
**4. 성과 및 향후계획**
* 기존에 기업에서 사용한 모수적 추정 방법보다 간편하게 데이터 분포를 학습하여 개인별 제품 사용 패턴 행렬을 생성. 이 행렬을 통해서 기업에서 수행하고 있는 연구에 바로 활용하였음
* 추가적으로 논의할 수 있는 내용으로 제품 사용 패턴 행렬을 부트스트랩 방식으로 생성했을 때 이 행렬이 어떤 행렬로 수렴하는지 탐색하는 문제를 생각할 수 있음