Skip to content

Latest commit

 

History

History
59 lines (35 loc) · 2.18 KB

File metadata and controls

59 lines (35 loc) · 2.18 KB

NER을 활용한 한국어 개인정보 마스킹 모델

개인간의 대화 및 SNS를 통해 본인도 모르게 유출되는 개인정보를 자동으로 마스킹하여, 개인정보 유출에 의한 피해를 방지하는 모델 작성 프로젝트

1. Preparing Dataset

image

1-1. 마스킹 카테고리 선택 및 개인정보 데이터 생성 전략

익명화 처리된 개인정보를 역으로 재생성

  1. 이름
    : 받침에 따라 가상 이름 생성
  2. 계정
    : email@domain 형태의 가상 이메일 생성
  3. 신원
    : 주민등록번호 총 13자리 (123456-12345789) , "-" 유무 고려
  4. 번호
    : 4자리 또는 6자리의 숫자비밀번호
  5. 전화번호
    : 총 11자리의 전화번호, "-" 유무 고려
  6. 주소
    : 한국에 존재하는 지명들의 무작위로 조합한 가상 주소 생성
  7. 금융정보
    : 은행명과 계좌번호 조합

image

1-2. 데이터 전처리 및 생성

2. NER Modeling

image

image

2-1. KoBERT 학습

Code(ipynb)

3. 사용 예시

image

References