Select Language

公开数据集

WikiText 英语词库 包含1亿个词汇的英文词库数据

WikiText 英语词库 包含1亿个词汇的英文词库数据

Scene:

NLP

Data Type:

Text
所需积分:10 去赚积分?
  • 583浏览
  • 1下载
  • 1点赞
  • 收藏
  • 分享

贡献者查看主页

小小程序员

致力于人工智能业务的研究、数据集处理。

Data Preview ? 373.28M

    Data Structure ?

    *数据结构实际以真实数据为准

    WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)WikiText长期依赖语言建模数据集是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。

    每个文件都包含wiki.train.tokens,wiki.valid.tokens和wiki.test.tokens。

    例子

     =黄金美元=
    
     1849年至1889年美国局对造币厂的一枚硬币作为常规问题触及了美元或金币。这枚硬币在其生命周期中有三种类型,全部由Mint Chief Engraver James B. Longacre设计。1型发行的美国硬币直径最小。
     在19世纪30年代和1840年代曾多次提出过黄金美元,但最初没有采用。国会最终因加州淘金热引起的金银供应增加而采取行动,并于1849年授权获得黄金美元。在早年,银币被囤积或出口,黄金美元在商业中找到了一席之地。国会于1853年再次宣布白银需要将该金属的新硬币变得更轻,并且由于美国内战造成的经济破坏,甚至在联邦硬币从流通中消失之前,黄金美元在商业中变得罕见。
     直到1879年,黄金才在全国大部分地区再次流通; 一旦这样做,黄金美元就没有重新获得它的位置。在最后几年,它受到了少量打击,引起了囤积者的猜测。它也需要安装在珠宝上。常规问题黄金美元最后一次袭击是在1889年; 次年,国会结束了这一系列。
     =超级马里奥土地=
    
     Super Mario Land是一款1989年版@  -  @滚动平台视频游戏,是Super Mario Land系列中的第一款,由任天堂开发并发布,作为Game Boy掌上游戏机的推出标题。在类似于1985年超级马里奥兄弟的游戏中,为小型设备的屏幕重新调整大小,玩家通过向右移动并跳过平台来避开敌人和陷阱,将马里奥推进到12级结束。与其他马里奥游戏不同,Super Mario Land位于Sarasaland,这是一种线条艺术描绘的新环境,而Mario则追求黛西公主。游戏引入了两个Gradius @  -  @风格射击游戏等级。
     在任天堂首席执行官Hiroshi Yamauchi的要求下,Game Boy创造者Gunpei Yokoi的任天堂R&D1开发了一款Mario游戏来销售这款新游戏机。这是Mario的第一个便携版本,也是第一个没有Mario创作者和Yokoi门徒Shigeru Miyamoto的版本。因此,开发团队缩小了该设备的Mario游戏元素,并使用了该系列中不一致的一些元素。预计超级马里奥土地将展示控制台,直到美国任天堂将Tetris与新游戏男孩捆绑在一起。该游戏首先在日本(1989年4月)和后来的全球范围内与Game Boy一起推出。超级马里奥兰德后来在2011年再次通过虚拟控制台重新发布了Nintendo 3DS作为发布标题,其中对该游戏的演示进行了一些调整。
     初步审查是赞美的。评论家对较小的超级马里奥兄弟感到满意,但注意到它的长度很短。他们认为它是Game Boy推出的最佳游戏之一。手持控制台立即取得了成功,超级马里奥土地最终销量超过1800万份,超过了超级马里奥兄弟3。同时期和回顾性的评论家都称赞了游戏的配乐。后来的评论批评了开发方面的妥协,并注意到超级马里奥兰德对系列规范的偏离。游戏产生了一系列续集,包括1992年超级马里奥土地2:6金币,1994年瓦里奥土地:超级马里奥土地3和2011年超级马里奥3D土地,虽然许多原始的机制没有重新审视。
     = = = Sinclair Scientific Programmable = = =
    
     Sinclair Scientific Programmable于1975年推出,其案例与Sinclair Oxford相同。它比科学大,73乘155乘34毫米(2 @。@ 9 in×6 @。@ 1 in×1 @。@ 3 in),并使用更大的电池,但也可以由电源供电电。
     它有24个@  -  @步编程能力,这意味着它在很多方面都非常有限。它还缺乏自然对数和指数函数的函数。程序中使用的常量必须是整数,编程是浪费的,在程序中使用常量需要起始和结束引号。
     然而,计算器附带的是一个包含120多个程序的库,这些程序在数学,几何,统计,金融,物理,电子,工程以及流
    0相关评论