Skip to content

在信息化时代,互联网中存储着海量多模态、多类型的资源。这些资源中包含了大量网络公害数据,例如黄赌毒、电信诈骗、网络敲诈、网络谣言、虚假新闻等。其中,数据的载体包括文本、图像、音频、视频,并且以非结构化或者半结构化形式存在。构建面向网络公害治理的知识图谱的任务是对这些海量多模态、多类型的网络公害数据进行知识抽取,提取相关的实体和关系,并且以结构化方式组织、存储。所构建的知识图谱提供接口用于对网络公害数据的查询、检索和关联分析等过程。面向网络公害治理的知识图谱构建过程及研究内容。

Notifications You must be signed in to change notification settings

NING0121/2022-Graduation-thesis

Repository files navigation

面向黑灰产的恶意变体字识别

1. 项目目录

|-- Code												// 代码运行文件夹
|		|-- soundshapecode								// 所需第三方module
|		|-- Utils											
|		|		|-- __init__.py					
|		|		|-- config.py							// 项目配置
|		|		|-- Dictionary.py						// 字典对象,word--index
|		|		|-- Variant_word.py						// 变体字 Dataset 对象
|		|		|-- VariantNeedleman_Wunsch.py			// 文本相似度对齐
|		|-- baseline.ipynb								// 基线文件
|		|-- preprocess.ipynb
|		|-- test.ipynb
|		|-- train.ipynb									// 未定
|-- Data
|		|-- Dataset
|		|		|-- data.csv
|		|		|-- train_data.csv
|		|		|-- test_data.csv
|		|-- source_vocal.pkl							// 源词表
|		|-- target_vocal.pkl							// 目标词表
|-- Logs
|-- Model
|		|-- __init__.py
|		|-- BaselineModel.py							// 基线模型系统
|		|-- CustomScheduleLearningRate.py
|		|-- MyTransformer_parts.py							
|		|-- transformer_parts.py
|		|-- TranslationModel.py							// 翻译模型
|-- Weights
Requirements.txt														
.gitignore
setup.sh												// 安装所需 module

About

在信息化时代,互联网中存储着海量多模态、多类型的资源。这些资源中包含了大量网络公害数据,例如黄赌毒、电信诈骗、网络敲诈、网络谣言、虚假新闻等。其中,数据的载体包括文本、图像、音频、视频,并且以非结构化或者半结构化形式存在。构建面向网络公害治理的知识图谱的任务是对这些海量多模态、多类型的网络公害数据进行知识抽取,提取相关的实体和关系,并且以结构化方式组织、存储。所构建的知识图谱提供接口用于对网络公害数据的查询、检索和关联分析等过程。面向网络公害治理的知识图谱构建过程及研究内容。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published