电子邮件和消息
TREC2005-2007垃圾邮件数据集

1.6G

1014

1

TREC2005-2007垃圾邮件数据集

NLP,International Relations

Classification,Text

TREC2005-2007垃圾邮件数据集前往PC端下载数据

Description

TREC 2006 Spam Track Public Corpora:https://plg.uwaterloo.ca/~gvcormac/treccorpus06/about.html

是一个公开的垃圾邮件语料库,由国际文本检索会议提供,分为英文数据集(trec06p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件保留了邮件的原有格式和内容。

除TREC 2006外,还有TREC 2005和TREC 2007的英文垃圾邮件数据集(没有中文)。

文件目录形式:delay和full分别是一种垃圾邮件过滤器的过滤机制,full目录下,是理想的邮件分类结果,我们可以视为研究的标签。

```
trec06c

└───data
│   │   000
│   │   001
│   │   ...
│   └───215
└───delay
│   │   index
└───full
│   │   index 


发表评论
0评