今日GitHub热榜第一:最全中华古诗词数据库

2020-02-11 18:02量子位 / 网易

(原标题:今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词)

收录5.5万首唐诗,超过28万首宋词,还囊括了诗经、论语、蒙学等……

这个名为“chinese-poetry”、号称“最全中文诗歌古典文集数据库”的项目,今日登顶GitHub热榜第一。

截止发稿,这一项目已获得近2.5万标星,Fork超过4600,受欢迎度可见一斑。

项目发起者名为Jackey,在Teambition从事运维自动化工作。他解释了为什么要做这个仓库:

“从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。”

10大数据集

整个项目最核心的内容,就是数据集了。

目前,仓库中一共有10个数据集,分别是:全唐诗、全宋诗、全宋词、五代·花间集、五代·南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。

这些数据,都来自互联网。如何采集的?项目发起者也分享了全宋词爬取过程及数据分析。

为什么没有古诗?他也给出了解释,古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。

围绕着数据库,他也进行了一个初步的词频分析:

但这些数据集的应用,远远不止于此。

8大案例展示

在项目中,作者也放上了使用数据集的应用案例。

有基于浏览器的诗词网站,有安卓版的应用“离线全唐诗”,有简体唐诗生成(char-RNN),也诗词桌面和相关小程序等等。

而且这些项目,也大都在GitHub上开源了。

如果你有兴趣,可以收好传送门:

https://github.com/chinese-poetry/chinese-poetry

本文来源:量子位 责任编辑:廖子瑶_NBJS10040

编辑:陈红

版权与免责声明:

凡未注明"稿件来源"的内容均为转载稿,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性;


本文地址:/news/2020/02/11/2117913.html

转载本站原创文章请注明来源:永乐国际-加盟代理

点击排行
焦点

看上去很火的短视频,对创业者却是个无底洞

  美国杂志《名利场》曾经针对“青少年喜爱的明星”做过一次调 ...详情

Win10系统的便签(便利贴)在哪?

Win10系统更新成2016年周年 版,版本编号1607,。 ...详情

19999元!“小米”自行车来了 史上最贵

啄木网-青岛IT(www.zomiu.com):19999元 ...详情

2月流失20万玩家 绝地求生真的要凉了吗?

《绝地求生》自发布以来可以说是一路飙升,玩家数量每月都有很明 ...详情

万字干货总结:最全的运营数据指标解读

用户获取是运营的起始,用户获取接近线性思维,或者说是一个固定 ...详情

CopyRight 2020 www.yczhly.com, All Rights Reserved 永乐国际-加盟代理 版权所有

使用永乐国际-加盟代理前必读 | 关于我们 | 免责声明 | 隐私政策 | 版权声明 | 联系我们