Select Language

公开数据集

新闻相关部分的互联网信息服务器(IIS)日志数据集

新闻相关部分的互联网信息服务器(IIS)日志数据集

Scene:

Computer

Data Type:

Classification
所需积分:15 去赚积分?
  • 298浏览
  • 3下载
  • 0点赞
  • 收藏
  • 分享

Data Preview ? 2.25M

    Data Structure ?

    *数据结构实际以真实数据为准

    David Heckerman (heckerma '@' microsoft.com)


    Data Set Information:

    这些数据来自于1999年9月28日(太平洋标准时间)一整天msnbc.com和msn.com新闻相关部分的互联网信息服务器(IIS)日志。数据集中的每个序列对应于24小时内用户的页面视图。序列中的每个事件都对应于用户对页面的请求。请求不会记录在最精细的细节级别,即URL级别,而是记录在页面类别级别(由站点管理员确定)。这些类别包括「首页」、「新闻」、「科技」、「本地」、「意见」、「空中」、「杂项」、「天气」、「健康」、「生活」、「商业」、「体育」、「摘要」、「bbs」、「旅游」、「msn新闻」及「msn体育」。通过缓存机制提供的任何页面请求都没有记录在服务器日志中,因此也不存在于数据中。


    Other Relevant Information:

       * Number of users: 989818
       * Average number of vitis per user: 5.7
       * Number of URLs per category: 10 to 5000


    Attribute Information:

    Each category is associated--in order--with an integer starting with "1". For example, "frontpage" is associated with 1, "news" with 2, and "tech" with 3. Each row below "% Sequences:" describes the hits--in order--of a single user. For example, the first user hits "frontpage" twice, and the second user hits "news" once.


    Relevant Papers:

    I. Cadez, D. Heckerman, C. Meek, P. Smyth, S. White, "Visualization of navigation patterns on a Web site using model-based clustering," Journal of Data Mining and Knowledge Discovery.
    [Web link]



    Citation Request:

    This data is avaliable thanks to msnbc.com

    0相关评论
    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。