개인간의 대화 및 SNS를 통해 본인도 모르게 유출되는 개인정보를 자동으로 마스킹하여, 개인정보 유출에 의한 피해를 방지하는 모델 작성 프로젝트
- AI HUB 한국어 SNS 데이터셋
수집된 SNS 대화 데이터에서 개인정보에 해당하는 부분을 익명화 및 비식별화 처리한 데이터셋
익명화 처리된 개인정보를 역으로 재생성
- 이름
: 받침에 따라 가상 이름 생성 - 계정
: email@domain 형태의 가상 이메일 생성 - 신원
: 주민등록번호 총 13자리 (123456-12345789) , "-" 유무 고려 - 번호
: 4자리 또는 6자리의 숫자비밀번호 - 전화번호
: 총 11자리의 전화번호, "-" 유무 고려 - 주소
: 한국에 존재하는 지명들의 무작위로 조합한 가상 주소 생성 - 금융정보
: 은행명과 계좌번호 조합