NER을 활용한 한국어 개인정보 마스킹 모델

개인간의 대화 및 SNS를 통해 본인도 모르게 유출되는 개인정보를 자동으로 마스킹하여, 개인정보 유출에 의한 피해를 방지하는 모델 작성 프로젝트

1. Preparing Dataset

AI HUB 한국어 SNS 데이터셋
수집된 SNS 대화 데이터에서 개인정보에 해당하는 부분을 익명화 및 비식별화 처리한 데이터셋

1-1. 마스킹 카테고리 선택 및 개인정보 데이터 생성 전략

익명화 처리된 개인정보를 역으로 재생성

이름
: 받침에 따라 가상 이름 생성
계정
: email@domain 형태의 가상 이메일 생성
신원
: 주민등록번호 총 13자리 (123456-12345789) , "-" 유무 고려
번호
: 4자리 또는 6자리의 숫자비밀번호
전화번호
: 총 11자리의 전화번호, "-" 유무 고려
주소
: 한국에 존재하는 지명들의 무작위로 조합한 가상 주소 생성
금융정보
: 은행명과 계좌번호 조합

1-2. 데이터 전처리 및 생성

Code(ipynb)

2. NER Modeling

2-1. KoBERT 학습

3. 사용 예시

References