합성 데이터 세트는 개인 정보를 보호 할 수있었습니다.

Feb 20, 2019

메시지를 남겨주세요

펜 네트워크 (Penn State) 통계 전문가에 따르면 합성 네트워크는 개인 또는 기관의 개인 정보를 보호하면서 일부 데이터의 가용성을 높일 수 있습니다.


펜실베이니아 주 에버리 대학 (Eberly College of Science)의 대학원 교육 통계학 부교수 인 알렉산드라 슬라브코비치 (Aleksandra Slavkovic)는 "과학적 발견에 도움이되는 방식으로 기밀 데이터를보다 넓게 공유 할 수있는 방법론을 개발하는 데 관심이있다. "민감한 정보를 발견 할 수있는 최소한의 위험으로 기밀 데이터를 공유하고 통계적 정확성과 무결성을 보장 할 수 있다는 것이 목표입니다."


Slavkovic은 특히 컴퓨터 및 사회 과학자와의 학제 간 협력을 통해이 개인 정보 보호 문제에 대한 해결책을 발견했습니다. 그녀의 연구는 개인이나 기관과 같은 개체 간의 관계 정보를 포착하는 네트워크 데이터를 비롯한 다양한 데이터에 중점을 둡니다. 그녀는 2019 년 미국 워싱턴 DC에서 열린 과학 발전 협회 (SCA) 연례회의에서 차등 개인 정보 보호 개념 (2 월 16 일)을 만족시키는 합성 네트워크 제공에 대한 그녀의 접근 방식을보고했다.


차등 개인 정보는 개인에게 개인적 손실 수준을 수학적으로 입증 할 수있는 보증을 제공합니다.


과학자들은 연구를 위해 다른 사람들이 수집 한 데이터에 액세스하기를 원하지만 이러한 액세스는 소위 개인 식별 데이터를 제거한 후에도 개인 정보를 손상시킬 수 있습니다.


"풍부한 보조 데이터가 주요 원인"이라고 Slavkovic은 말했습니다. "데이터 수집 및 레코드 연계의 방법론 및 기술 발전으로 데이터 세트와 연결될 수있는 다양한 데이터 소스에 쉽게 액세스 할 수 있고 데이터 공유를위한 기금 기관의 요구 사항에 따라 데이터 프라이버시의 위험이 증가하고 있지만 좋은 건전한 과학적 발견을 가능하게하기 위해서는 사생활 손실을 관리하는 솔루션이 필수적입니다. "


예를 들어, HIV 마약에 관한 약물 시험에서 공개적으로 입수 할 수있는 정보는 누가 치료군에 있었고 누가 통제 집단에 있었는지 나타낼 것입니다. 치료 그룹에는 HIV로 진단받은 사람 만 포함되며 데이터 소유자가 해당 데이터 세트에서 개인 정보를 제공하지 않더라도 일부 식별 정보는 그대로 유지됩니다. 소셜 미디어 및 기타 데이터 세트에서 오늘날 많은 정보가 온라인으로 제공되므로 점을 연결하고 사람을 식별하여 HIV 상태를 잠재적으로 드러내는 것이 가능합니다.


Slavkovic은 "유권자 기록과 건강 보험 데이터라는 두 가지 데이터 세트를 연결하는 기술은 크게 향상되었습니다. "초기 연구 결과 중 하나 인 Latanya Sweeny (현재 Harvard)는 이러한 유형의 데이터를 연결함으로써 1990 년부터 미국 인구 조사에서 87 %의 인구를 출생, 성별 및 5 자리 숫자를 기준으로 확인할 수 있음을 보여주었습니다 최근에는 연구원들이 트위터와 관련 트위터 메타 데이터를 사용하여 96.7 %의 정확도로 사용자를 식별 할 수 있음을 보여주었습니다. "


Slavkovic은 데이터가 데이터베이스에 포함 된 사람이나 기관 일뿐만 아니라 데이터베이스 외부의 사람들도 사생활 침해 (직접 또는 협회)로 고통받을 수 있다고 지적합니다. 데이터 세트의 정보와 소셜 미디어의 정보가 연결되면 심각한 프라이버시가 생길 수 있습니다. HIV 상태 또는 성적 취향과 같은 것이 밝혀지면 심각한 악영향을 미칠 수 있습니다.


프라이버시는 중요하지만 수집 된 데이터 세트는 연구자에게 필수적인 정보원을 구성합니다. 현재 데이터가 예외적으로 민감한 경우에는 연구자가 연구를 수행하기 위해 물리적으로 데이터 저장소로 이동해야하므로 연구가 더 어렵고 비용이 많이 들게됩니다.


Slavkovic은 네트워크 데이터에 관심이 있습니다. 사람 또는 기관의 상호 연관성 - 노드 및 노드 간의 연결을 나타내는 정보 그녀의 접근 방식은 약간의 노드 이동, 연결 이동 또는 가장자리 변경을 통해 약간 변경되고 미러링 된 네트워크 데이터 세트를 작성하는 것입니다.


Slavkovic은 "차별화 된 사생활 보호 요구 사항을 만족시키는 동시에 새로운 네트워크를 만들어 내고 동시에 원래 네트워크의 대부분의 통계 기능을 캡처합니다.


이러한 합성 데이터 세트는 일부 연구자가 연구 요구를 충족시키기에 충분할 수 있습니다. 다른 사람들에게는 데이터 저장 장소에 가기 전에 접근법과 가설을 테스트하는 것으로 충분할 것입니다. 연구원은 저장소 사이트에서 원본 데이터를 사용할 수있는 권한을 기다리는 동안 코드를 테스트하고 탐색 적 연구 및 기본 분석을 수행 할 수있었습니다.


Slavkovic은 "동일한 유형의 변경된 데이터로 모든 통계 분석에 대한 요구를 충족시킬 수는 없습니다. "일부 사람들은 원본 데이터가 필요 하겠지만 다른 사람들은 합성 네트워크와 같은 합성 데이터로 먼 길을 갈 수도 있습니다."