本仓库为 DeepSec 项目托管的开源中文网络安全运营语料库,包含原始语料文件、处理脚本和处理后的输出数据,旨在支持安全运营场景下的大模型训练。
raw_corpus/
:原始YAML格式语料文件,按类别组织(如:漏洞响应、后门木马、钓鱼攻击、信息泄露)。scripts/
:用于语料转换和验证的 Python 脚本。dataset/
:处理后的最终 CSV/Excel 文件,供模型训练使用。docs/
:贡献者指南和文档。
- 克隆仓库:
git clone https://github.com/deepsec-top/deepsec.git
- 阅读
docs/corpus_guidelines.md
了解贡献规则。 - 按照
docs/file_naming_convention.md
中的命名规范,通过拉取请求提交语料数据。
参考示例raw_corpus/IL/il-001-github_sensitive_information_leakage.yaml
- 漏洞响应 (
VR
):网络安全漏洞响应事件 - 后门木马 (
BT
):后门木马事件 - 钓鱼攻击 (
FA
):钓鱼攻击事件 - 信息泄露 (
IL
):信息泄露事件 - 黑客工具 (
HT
):黑客工具使用事件 - 软件供应链 (
SC
):软件供应链事件 - Web攻击 (
WA
):Web攻击事件 - 其他 (
OT
):其他事件 - 持续补充优化中...
MIT 许可证,详见 LICENSE
文件。
邮箱:admin@deepsec.top
网站:DeepSec 官网
加入社区:DeepSec 社区