儿童数据集推荐 | 《1880-2011 年 美国新生儿姓名》等

Python技术博文 2020-09-21

https://mp.weixin.qq.com/s/U-Lb5p6wbeuA8XvveYnjpw
By 超神经

场景描述:本文整理了三份来自世界各地的儿童数据集,从儿童数据集走近儿童,了解儿童,关爱儿童。

关键词:儿童数据集

设立儿童节的目的,是为了保障世界各国儿童的生存权、保健权和受教育权、抚养权,改善儿童生活。

今天,我们特地准备了一份与儿童相关的数据集,了解儿童的世界,从这些数据集开始。

1880-2011 年美国新生儿姓名

该数据集由 Kaggle 通过 Data.gov 等机构整理而成,从国家和州两个维度对新生婴儿姓名进行统计,对全网公众开放下载。

数据集中包含了 1880-2011 年间,美国部分州的统计结果,其中为保障隐私,名字(不包含姓氏)重复 5 次以内的不在统计范围内。
大小:173 MB

最近更新时间:2017.11.22(第二版)

研究方向:美国历任总统、明星、流行文化对于新生儿起名的影响等

数据集链接:
https://www.kaggle.com/kaggle/us-baby-names

儿童数据集推荐 | 《1880-2011 年 美国新生儿姓名》等

儿童语音数据数据库

该数据库发音人均为 6~12 岁儿童,人数超过 1 万名。口音覆盖七大方言区。录音文本包含作文故事、数字等儿童常用句子,以及车载、家居、语音助手的交互,精准契合实际应用场景。所有句子均由人工转写,句准确率 97%。

录音内容包括:儿童作文故事;人机交互;家居命令;数字;通用

语言:普通话

应用场景:语音识别,机器翻译,声纹识别

数据集链接:
https://www.datatang.com/webfront/dataset/937.html

美国也有与此对标的数据集。SoapBox Labs 创建了自己独特的儿童语音数据集,目前已有数千小时的儿童语音数据组成,并将其团队对儿童语音和行为模式的理解相互结合(官网地址:https://www.soapboxlabs.com/)。

儿童数据集推荐 | 《1880-2011 年 美国新生儿姓名》等

语言障碍儿童数据库

特定语言障碍影响大约 7% 的 5 岁儿童。它的特点是与同龄人相比缺乏语言能力,但没有明显的精神或身体残疾。诊断可能会很费力,因此使用 NLP 和 ML 技术自动化这一过程可能会引起儿科医生和语言病理学家的兴趣。

本研究评估了通过 CHILDES 项目获得的三个数据集。所有数据集都包含来自孩子对无字图片的叙述。

仅使用叙事语料库的选择是基于先前的研究,该研究表明它具有区分儿童语言障碍的最佳能力。第一个数据集包括来自英国青少年的样本,第二个数据来自加拿大 4 至 9 岁儿童,第三个数据来自美国 4 至 12 岁儿童。

数据集链接:
https://www.kaggle.com/dgokeeffe/specific-language-impairment

儿童数据集推荐 | 《1880-2011 年 美国新生儿姓名》等

HyperAI 超神经搜集并整理全球数百个公开数据集,还提供国内镜像下载,对科研机构和开发者们提供免费服务。

更多图像数据集,请点击「阅读原文」或访问:https://hyper.ai/datasets 获取。

相关推荐