Select Language

AI社区

公开数据集

人民日报词性标注语料数据(199801)

人民日报词性标注语料数据(199801)

3.37M
850 浏览
1 喜欢
7 次下载
0 条讨论
OCR/Text Detection Classification

人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份......

数据结构 ? 3.37M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份带词性标注的语料库中的1998年1月份的语料,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。

    PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。


    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:3 去赚积分?
    • 850浏览
    • 7下载
    • 1点赞
    • 收藏
    • 分享