■ 출처
- 대한민국 개인정보 보호위원회 보고서 : "인공지능 시대, 이미지·영상·음성·텍스트에 대한 가명처리 기준 나왔다"
https://www.pipc.go.kr/np/cop/bbs/selectBoardArticle.do?bbsId=BS074&mCode=C020010000&nttId=9899#LINK
■ 요약 배경
다양하고 방대한 데이터를 활용하여 기술적 고도화, 다양화를 이루는 AI시대, 데이터를 활용한 산업 성장은 지속되고 있지만, 데이터 활용의 법적 기준은 모호한 실정이라 AI서비스의 산업 도입에 부분적 제약을 갖는 실정이다. 특히, 전 세계 데이터 중, 약 90%를 차지하는 비정형 데이터(이미지, 영상, 음성, 텍스트 등)는 생성형AI(GPT)의 등장으로 쓰임은 급증하였지만, 정형 데이터의 '가명정보 처리 가이드라인'을 제외하고는 명확한 가이드라인이 부재하다. 하지만 24년 2월 개정위에서 부재를 보완하고자 '비정형 데이터 가명처리 기준'을 배포했다. 하여, 글쓴이는 향후 비정형 데이터 정제 및 분석에 참고할 수 있을 것이라 판단되어 요약 정리했다.
■ 요약 내용
제1장, 추진 배경
- 비정형 데이터 가명처리 기준을 확보하여, 기업·연구자의 불확실성을 해소하고 기술혁신 지원
→AI기술 발전과 컴퓨팅 자원 발달로 데이터 활용수요가 전통적 정형데이터(수치)에서 비정형 데이터(이미지, 영상, 음성, 텍스트)로 변환
→기존 가이드라인은 정형데이터 기준인 반면, 비정형 데이터 특징과 AI기술발전을 반영하지 못하는 상황
구분 | 내용 | |
정형 데이터 | 정의 | - 정해진 규칙에 맞게 구조화된 형식으로 존재하는 데이터 |
특징 | - 데이터 연산, 분석 등 데이터 처리 방식, 가명 처리 기술·방법이 비교적 단순 | |
비정형 데이터 | 정의 | - 일정한 규격이나 정해진 형태가 없이 구조화되지 않는 데이터 |
특징 | - 연구 목적·환경에 따라 데이터 처리방식·가명처리 기술과 방법이 복잡·다양 |
[표01] 데이터 정의 및 특징
제2장, 비정형 데이터 가명처리, 활용의 특수성 고려사항
- 비정형 데이터 가명처리 및 활용 시, ‘데이터 처리 맥락, 가명처리 기술한계, 재식별 공격위험 등'을 고려하여 개인식별 위험성을 낮춰야 함
구분 | 내용 |
개인 식별성 판단의 어려움 |
- 개인식별 가능정보와 그렇지 않는 정보의 구분이 상대적이며, 처리 목적·환경에 따라 다르게 판단 →얼굴CT 사진 1장일 경우, 개인식별 위험성 낮음 →여러 위치·각도에서 촬영한 얼굴CT 사진을 여러장 결합한 경우, 개인식별 위험성 증가 |
가명처리 기술의 불완전성 |
- 비정형 데이터 내 위험성이 있는 모든 항목을 완벽하게 탐지·처리할 수 있는 기술 부재 →(이미지, 영상 데이터) 해상도, 조명각도, 객체크기 등에 따라 대상 탐지가 안되는 경우 有(90~98% 수준) →(텍스트 데이터)정확하게 개인정보를 인식하지 못하여 불필요하게 삭제 |
재식별 공격 위험 |
- AI·데이터 복원기술 발달로 타정보와의 연계 및 결합 없이도 재식별 공격 위험성 증가 →음성변조 규칙을 몰라도 대화 대상의 원본 목소리 복원하는 기술 有 →모자이크 패턴을 몰라도 모자이크 사진을 원본과 가깝게 복원하는 기술 有 |
[표02] 비정형 데이터 가명처리 전 고려할 사항
제3장, 비정형 데이터 가명처리 기본원칙
- ①개인식별 위험성이 있는 정보를 판단하고, 합리적 처리 방법 및 수준 설정
→목적/환경 등에 맞춰 데이터 훼손을 최소화하고, 관리적·환경적 통제를 통해 안전성 확보 방안 적용
└연구목적 달성에 필수적인 정보항목을 남기고, 그 외 정보항목에 대한 안전조치 확보(가명처리 수준 상향 조정, 다른 정보 및 SW반입 제한)
- ②기술한계를 보완하기 위해 ‘연구 및 기술개발 기획단계’부터 위험성 검토 및 안전조치 수행
→가명처리 기술의 한계를 보완하기 위한 3가지 이행권고(상세 내용은 아래 표03과 같음)
→식별된 개인정보 침해 위험을 예방하기 위해 가명정보 활용에 참여하는 기관의 내부통제 강화 노력 必
→가명정보의 처리목적을 달성하면 신속히 가명정보를 파기하여 사후적 위험 최소화 必
구분 | 내용 |
1 | - 가명처리 기술의 적절성과 신뢰성을 확인할 수 있는 근거 작성 및 보관 |
2 | - 가명처리 기술 적용 이후, 처리 결과에 대한 자체적 검수 진행 |
3 | - 가명처리 적절성 검토 과정에서 1~2 과정을 포함하여 점검 |
[표03] 가명처리 기술 한계를 보완하기 위한 이행권고
- ③가명처리된 비정형 데이터 활용 시, 데이터 복원기술 대응을 위해 SW의 접근 및 사용 제한 방안 마련 必
→AI개발 및 활용 과정에서 나타날 수 있는 다양한 위험을 사전에 완벽하게 제거하는 것은 불가능하므로,
AI서비스 제공 과정에서도 개인식별 위험 등 정보주체 권익 침해 가능성을 지속 모니터링
-사례, 콜센터 직원 실습용 가상상담 시나리오 생성 AI개발
→직원-고객간 음성 상담정보를 가명 처리하여, 콜센터 직원들을 위한 상담 실습교육용 AI개발 사례
└(개인식별 위험성 검토) 실제 음성데이터로써 대화내용에 개인식별가능정보가 정제되지 않은 상태
└(데이터 처리방안) 음성변환 기술을 통해 텍스트로 변환하고, 개인식별 위험 항목들을 가명처리 후 활용
제4장, 비정형 데이터 가명처리 단계별 고려사항
- 개인정보 가명처리 단계별 정의
→①사전준비 : 가명정보 처리 목적을 설정·검토하고 목적에 맞는 가명처리 대상을 선정하는 단계
→②위험성 검토 : 가명처리 대상·처리 환경의 위험성을 검토하여 방법·수준에 반영하기 위한 단계
→③가명처리 : 위험성 검토 결과 및 항목별 가명처리 계획을 기반으로 실제 가명처리를 수행하는 단계
→④적정성 검토 : 외부전문가를 포함한 적절성 평가 위원회 등을 구성하여
처리 목적의 적합성, 위험성 검토 결과의 적정성, 가명처리 결과의 적정성, 목적 달성 가능성 등을 검토하는 단계
→⑤안전한 관리 : 적정성 검토 후 가명정보 활용 과정에서 재식별 가능성 등을 관리하는 단계
- 개인정보 가명처리 단계별 세부내용 및 절차
구분 | 내용 |
1단계 사전준비 |
- 개인식별 가능성 있는 항목을 도출하고 목적달성에 필요항 항목의 종류와 범위를 정의하여 가명처리 대상 선정 |
2단계 위험성 검토 |
- 비정형 데이터의 특성을 고려하여, '데이터 자체 식별 위험성'과 '처리 환경의 식별 위험성'을 종합적으로 검토한 가명처리 방법 및 수준 결정 |
- 개인식별 가능성이 높은 정보 3가지 검토 →(식별성) 비정형 데이터는 식별정보1)와 식별가능정보2)의 절대적인 구분이 어렵기 때문에 처리 목적 및 방법 등 데이터 처리 맥락을 고려하여 개인 식별 가능성을 상대적으로 판단 └(상황에 따라) 촬영 장소, 얼굴 등이 명확하고 선명한지 여부에 따라 식별 가능성이 높거나 낮아짐 └(목적에 따라) 신체특징, 걸음걸이, 이동 동선 등을 활용하여 세부적 접근할지 여부가 식별 가능성이 높거나 낮아짐
└(특이 신체 및 외형) 체형, 머리스타일, 문신, 흉터, 음색, 발음 등 └(특이 형태) 걸음걸이, 몸짓, 억양, 반복 어휘, 어법, 문체, 습관 등
→(재식별 시 영향도) 가명처리된 비정형 데이터가 재식별될 경우 특정 정보 주체에게 영향을 미치는지 여부 검토└(특이 객체 및 사물) 거주하는 집, 차종, 옷차림, 반려동물 등 └예시 : 범죄 피해현장이 촬영된 CCTV 영상, 민감한 사생활이 포함된 녹취 파일 등 |
|
- 처리 환경에 따라 발생 가능한 식별 위험성 3가지 검토 →(활용형태) 처리자 · 취급자가 보유한 정보 또는 접근 · 입수 가능 정보와 이용 범위 · 유형을 고려하여 식별 가능한 항목이 있는지 검토 └예시 : AI모델 특성에 따라 텍스트 정보를 학습하여 정보를 생성 및 출력할 경우, 추론 공격 등 노출될 위험이 높음 →(처리장소) 가명정보 이외 다른 정보의 접근 · 인수, 재식별 기술의 접근이 제한된 환경 및 장소에서 처리되는지 검토 └예시 : 모자이크된 사진을 복원시킬 수 있는 기술이 존재하는 경우, 해당 사진에 대한 식별 위험성이 높음 →(처리방법) 가명처리가 다른 정보와 연계 · 결합되거나 반복 제공 등이 예정된 경우, 식별 가능성이 높아지는 항목이 있는지 검토 └예시 : 환자를 촬영한 100장의 두경부 CT사진 활용 시 영상 재건 기술을 활용하여 3차원으로 복원해낼 수 있어 식별 위험성이 높음 |
|
3단계 가명처리 |
- 가명처리가 필요한 항목과 필요하지 않은 항목을 구분하고 가명처리가 필요한 항목은 합리적 가명처리 방법과 기준 설정 →비정형 데이터 항목 중, ①목적 달성을 위해 반드시 필요하지만 개인식별 위험성이 낮은 정보는 가명처리하지 않고 그대로 사용 가능 ②가명처리하여 목적 달성이 가능하고 개인식별 위험성이 높은 정보는 가명처리하여 활용 └예시 : 구강사진을 활용하여 충치를 분석 및 진단하는 AI모델 개발 ①충치 의심 영역으로 라벨링된 치아 부분은, 충치 분석 및 진단에 반드시 필요하므로 그대로 활용 ②충치 의심 영역 이외 일반치아 및 잇몸 부분은, 필요하지 않고 구강 내 특징을 추론 가능하여 개인식별 위험을 고려한 블러링3) 처리 - 비정형 데이터 가명처리 기술 적용 시, 기술의 적절성·신뢰성을 평가하고 근거를 작성하여 보관을 권고 →CT사진의 가장자리에 마스킹4) 솔루션 을 적용하여 가명처리한 경우, 가명처리 기능과 개체 인식률 및 처리 정확도에 대한 증빙 확보 - 비정형 데이터 가명처리의 기술적 한계를 보완하고 잔존 위험을 낮추기 위해 처리 결과에 대한 자체적 추가검수 필요 →가명처리 목적, 데이터 성격, 적용 기술 특징, 처리환경 통제 수준 등을 고려하여, 위험도에 비례한 적절한 검수방법을 적용하되, 검수 과정에서 발견된 위험을 낮추기 위한 조치사항을 기록 및 보관하고 이에 대한 적절성 검토를 받을 것을 권장 |
4단계 적정성 검토 |
- 비정형 데이터의 특성과 처리 목적 · 환경을 고려하여 합리적 방법 및 수준으로 가명처리를 수행하였는지 검토 - 가명처리에 활용한 기술의 적절성 · 신뢰성을 검토하고, 해당 기술의 한계로 인한 잔존 위험을 충분히 낮추기 위한 추가검수 진행 여부 검토 - 비정형 데이터는 가명처리 시, 데이터의 특성, 관련 기술발전 수준, 재식별 위험 등을 종합 고려해야하고, 이를 위한 전문성이 필요하므로 외부 전문가를 과반수 이상으로 구성한 인력으로 객관성·전문성 있는 검토 진행 권고 |
5단계 안전한 관리 |
- 가명정보 특례5)를 활용하여 AI모델 학습 및 개발하는 자는 AI기술과 서비스의 특성을 고려하여 사전 · 사후적 발생할 수 있는 다양한 위험을 낮추기 위한 충분한 조치 확보 필요 - AI모델을 통해 나타날 수 있는 다양한 위험을 사전에 완벽하게 제거하는 것은 기술상 불가능하므로, 잔존 위험을 최소화시키기 위한 노력에 따라 사후관리의 이행 수준을 판단 - AI서비스 운영 과정에서 개인식별 위험성 및 프라이버시 침해 가능성이 높아지지 않는지 지속적 모니터링 →위험 발생 시, 가명정보 처리 중단 및 관련 위험 제거 |
1)식별정보란, 특정 개인과 직접적으로 연결되어 다른 사람과 구분되는 개인정보를 의미(주민등록번호, 여권번호 등)
2)식별가능정보란, 단일 항목으로 식별 가능성이 없으나, 가명처리 대상 항목과 결합할 경우 식별 가능성이 높아지는 개인정보를 의미
3)블러링란, 초점이 맞지 않은 사진처럼 영상을 부드럽게 만드는 필터링 기법을 의미
4)마스킹이란, 무언가를 덮어 가리는 행위로써 정보를 변경하는 필터링 기법을 의미
5)가명정보 특례란, 개인정보 처리자가 공익적 목적을 위해 정보 주체의 동의없이 가명정보를 처리할 수 있다는 규정을 의미