Select Language

AI社区

公开数据集

KDC-4007 库尔德语新闻和文章的数据集

KDC-4007 库尔德语新闻和文章的数据集

853K
447 浏览
0 喜欢
0 次下载
0 条讨论
NLP Classification

这个数据集最重要的特点是使用简单,并且有很好的记录,可以广泛用于有关库尔德索拉尼新闻和文章的各种文本分析研究。这些文件包......

数据结构 ? 853K

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    这个数据集最重要的特点是使用简单,并且有很好的记录,可以广泛用于有关库尔德索拉尼新闻和文章的各种文本分析研究。

    这些文件包括八个类别,即体育、宗教、艺术、经济、教育、社会、风格和健康。每个类别由500个文本文件组成,语料库的总规模为4,007个文本文件。

    该数据集和文件已经可以免费使用,以便有可重复的结果用于实验评估。

    Attribute Information:

    有四个集合。

    - ST-Ds数据集,使用库尔德语预处理步骤的方法来消除停止词。

    - pre-ds数据集,使用库尔德语预处理步骤的方法。

    - Pre+TW-Ds数据集,对Pre-Ds数据集进行了TF-IDF术语加权处理。

    - Orig-Ds数据集,没有使用任何过程,这是原始数据集。

    Relevant Papers:

    [1] Arazo M. Mustafa and Tarik A. Rashid,“ Kurdish Stemmer Pre-processing Steps for Improving Information Retrieval”, Journal of Information Science, First published date: january-01-2017, 10.1177/0165551516683617.
    [2] Tarik A. Rashid, Arazo M. Mustafa and Ari M. Saeed, 2017.'A Robust Categorization System for Kurdish Sorani Text documents'. Information Technology Journal, 16: 27-34.
    [3] Tarik A. Rashid, Arazu M. Mustafa, Ari M. Saeed Automatic Kurdish Text Classification Using KDC 4007 Dataset, accepted in Springer book, Series Title: Lecture Notes on Data Engineering and Communications Technologies: Book title: Advances in Internetworking, Data & Web Technologies, Indexing: The books of this series are submitted to ISI Proceedings, EI, Scopus, metaPress, Springerlink, 2017.

    Citation Request:

    If you have no special citation requests, please leave this field blank.

    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:20 去赚积分?
    • 447浏览
    • 0下载
    • 0点赞
    • 收藏
    • 分享