Select Language

AI社区

公开数据集

实体专有名词数据集

实体专有名词数据集

756M
366 浏览
0 喜欢
1 次下载
0 条讨论
MNIST Classification

数据结构 ? 756M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    JRC Names 实体专有名词是欧洲媒体监控(EMM)通过每天分析约22万条新闻报道所产生的。从2004年以来,分析了数以百万计的新闻文章,最多可以使用21种语言,识别实体(主要是人员,组织,事件名称等)的名称,并检测其中的哪一种新发现的名字是彼此的变体拼写。因此,JRC Names 中的大多数命名变体都是在现实生活中采集的(包括频繁的拼写错误)。此外,对于实体集合的一个子集,软件会自动从维基百科的跨语言链接中提取许多其他语言(例如中文,泰语,日语,…)的拼写变体。对于非常频繁或重要的名称,另外手动验证命名实体资源。由于JRC名称主要是自动生成的,所以会包含一些错误。

    用处

    JRC实体专有名词,可用于查找命名实体,即使它们拼写不同,但它在计算机处理文本信息过程中也能识别,可用于例如,用于文本挖掘。该工具具有多种用途并解决了各种问题,其中包括: 1.当搜索数据库,互联网和其他存储库时,正确的名称是一个问题,因为通常找不到搜索名称的变体。这导致对文档,图像和视听内容的存储库的非最佳使用和利用。 JRC-Names允许标准化名称,从而改进检索; 2.机器翻译在翻译实体专有名词时也存在问题,因为它们不应像其他单词一样翻译;利用JRC-Names可以在翻译过程之前提取名称,并且可以用目标语言重新插入外语变体来解决这个问题; 3.两个不同语言中的实体列表通常用于学习音译规则; 4.实体可以在文本中识别和标记,以便在训练机器学习命名实体识别系统中直接利用; 5.数据来源于多国国家,可以减少不同国家观点的偏见; 6.命名实体识别对于意见挖掘的计算语言学任务,共同参考解析,总结,主题检测和跟踪,跨语言的相关文档的跨语言链接等都是有用的。

    统计信息

    JRC Names包含EMM实体数据库中一些重要的实体,如频繁搜索或手动验证或在维基百科上发现的实体。JRC名称的第一个版本(2011年9月)包含约205,000个不同的已知实体的名称,以及这些实体的大致相同数量的变体拼写。此外,它包含这些名称的许多形态上变形的变体。截至2016年3月,该资源已增至307,000个不同实体,另有333,000个变体。EMM每天都会识别新的名称,还可以从JRC的网页上每天下载包含最近发现的名称和名称拼写的文件。截至2011年7月,数据库包括27个不同脚本中拼写的名称。最常用的是拉丁语(包括英语和大多数其他欧洲语言),西里尔语(例如俄语和保加利亚语),阿拉伯语(包括波斯语),日语(汉语,平假名和片假名)和汉语汉语(简体中文)。JRC名称中的64%的名称没有额外的拼写变体。对于28%的名字,JRC名称有两到三个拼写。有3760个实体有10个拼写或更多,37个实体有超过100个拼写变体。具有最多拼写变体的名字是Muammar Gaddafi(413个拼写),Mikhail Saakashvili(256)和Mahmoud Ahmadinejad(246)。

    相关论文

    1.Steinberger Ralf, Bruno Pouliquen, Mijail Kabadjov, Jenya Belyaeva & Erik van der Goot (2011). JRC-Names: A freely available, highly multilingual named entity resource. Proceedings of the 8th International Conference Recent Advances in Natural Language Processing (RANLP). Hissar, Bulgaria, 12-14 September 2011. 2.Ehrmann Maud, Guillaume Jacquet & Ralf Steinberger (2016). JRC-Names: Multilingual Entity Name Variants and Titles as Linked Data. Semantic Web Journal (March 2016). 3.STEINBERGER Ralf,ATKINSON Martin,GARCIA DOMINGO Teofilo,VAN DER GOOT Erik LINGE Jens,MACMILLAN Charles,TANEV Hristo,VERILE Marco,WAGNER Gerhard(2017) EMM: Supporting the Analyst by Turning Multilingual Text into Structured Data 4.JACQUET Guillaume,EHRMANN Maud,STEINBERGER Ralf,VAEYRYNEN Jaakko(2016).Cross-lingual linking of Multi-word Entities and their corresponding Acronyms. 5.王志娟, 李福现. 跨语言命名实体翻译对抽取的研究综述[J]. 计算机科学, 2017, 44(s1):14-18. 6.胡亚楠, 舒佳根, 钱龙华,等. 基于机器翻译的跨语言关系抽取[J]. 中文信息学报, 2013, 27(5):191-198. 7.吴丹, 何大庆, 陆伟. 跨语言信息检索中的命名实体识别与翻译[J]. 图书情报知识, 2012(3):13-19.

    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:0 去赚积分?
    • 366浏览
    • 1下载
    • 0点赞
    • 收藏
    • 分享