Description
TREC 2006 Spam Track Public Corpora:https://plg.uwaterloo.ca/~gvcormac/treccorpus06/about.html
是一个公开的垃圾邮件语料库,由国际文本检索会议提供,分为英文数据集(trec06p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件保留了邮件的原有格式和内容。
除TREC 2006外,还有TREC 2005和TREC 2007的英文垃圾邮件数据集(没有中文)。
文件目录形式:delay和full分别是一种垃圾邮件过滤器的过滤机制,full目录下,是理想的邮件分类结果,我们可以视为研究的标签。
```
trec06c
│
└───data
│ │ 000
│ │ 001
│ │ ...
│ └───215
└───delay
│ │ index
└───full
│ │ index