Select Language

公开数据集

频率最高的9933个最常用汉字数据集

频率最高的9933个最常用汉字数据集

Scene:

MNIST

Data Type:

Classification
所需积分:0 去赚积分?
  • 305浏览
  • 0下载
  • 0点赞
  • 收藏
  • 分享

贡献者查看主页

小小程序员

致力于人工智能业务的研究、数据集处理。

Data Preview ? 1M

    Data Structure ?

    *数据结构实际以真实数据为准

    数据的收集源于reddit用户areyde的一个简单的问题:“学习所有汉字意味着什么?”可以简化为“您可以为学习汉字制定什么目标?”

    在他看来,似乎最有用的是汉字出现的的频率。因此,他根据语料库 http://lingua.mtsu.edu/chinese-computing/statistics/char/list.php?Which=MO ,列出了所有的9,933个字符 。在本数据集中的每个汉字字符,其实都存储了以下信息:语料库中的出现次数,占该语料库的计算百分比,部首和字典代码,笔划数,发音和含义(如果存在)。

    0相关评论
    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。