By 超神经

场景描述：本文整理了三份来自世界各地的儿童数据集，从儿童数据集走近儿童，了解儿童，关爱儿童。

关键词：儿童数据集

设立儿童节的目的，是为了保障世界各国儿童的生存权、保健权和受教育权、抚养权，改善儿童生活。

今天，我们特地准备了一份与儿童相关的数据集，了解儿童的世界，从这些数据集开始。

1880-2011 年美国新生儿姓名

该数据集由 Kaggle 通过 Data.gov 等机构整理而成，从国家和州两个维度对新生婴儿姓名进行统计，对全网公众开放下载。

数据集中包含了 1880-2011 年间，美国部分州的统计结果，其中为保障隐私，名字（不包含姓氏）重复 5 次以内的不在统计范围内。
大小：173 MB

最近更新时间：2017.11.22（第二版）

研究方向：美国历任总统、明星、流行文化对于新生儿起名的影响等

儿童数据集推荐 | 《1880-2011 年美国新生儿姓名》等

儿童语音数据数据库

该数据库发音人均为 6~12 岁儿童，人数超过 1 万名。口音覆盖七大方言区。录音文本包含作文故事、数字等儿童常用句子，以及车载、家居、语音助手的交互，精准契合实际应用场景。所有句子均由人工转写，句准确率 97%。

录音内容包括：儿童作文故事；人机交互；家居命令；数字；通用

语言：普通话

应用场景：语音识别，机器翻译，声纹识别

美国也有与此对标的数据集。SoapBox Labs 创建了自己独特的儿童语音数据集，目前已有数千小时的儿童语音数据组成，并将其团队对儿童语音和行为模式的理解相互结合（官网地址：https://www.soapboxlabs.com/）。

儿童数据集推荐 | 《1880-2011 年美国新生儿姓名》等

特定语言障碍影响大约 7％的 5 岁儿童。它的特点是与同龄人相比缺乏语言能力，但没有明显的精神或身体残疾。诊断可能会很费力，因此使用 NLP 和 ML 技术自动化这一过程可能会引起儿科医生和语言病理学家的兴趣。

本研究评估了通过 CHILDES 项目获得的三个数据集。所有数据集都包含来自孩子对无字图片的叙述。

仅使用叙事语料库的选择是基于先前的研究，该研究表明它具有区分儿童语言障碍的最佳能力。第一个数据集包括来自英国青少年的样本，第二个数据来自加拿大 4 至 9 岁儿童，第三个数据来自美国 4 至 12 岁儿童。

儿童数据集推荐 | 《1880-2011 年美国新生儿姓名》等

HyperAI 超神经搜集并整理全球数百个公开数据集，还提供国内镜像下载，对科研机构和开发者们提供免费服务。

更多图像数据集，请点击「阅读原文」或访问：https://hyper.ai/datasets 获取。