names 美国历史名称和当前名称的参考数据集
美国姓名数据集婴儿姓名数据集以不同的方式呈现。我发现自己经常回到这些数据。其中包括对2014年在世人姓名频率的估计、自1910年以来出生姓名统计的各个部分以及性别概率。为什么这些数据如此迷人?也许是因为它们不仅记录了历史,还隐含着社会变迁的轨迹。
在世公民姓名估计通过将美国出生的出生姓名与2014年的人口年龄分布进行交叉引用,我估计了今天遇到一个名字的可能性。当然,这里有一些警告,最重要的是依赖婴儿名字并没有考虑到美国4000万外国出生的居民。然而,这样的粗略估计方法也提供了一个有趣的视角。想知道这个估计方法是如何运作的吗?其实很简单:P(alive|age)=P(age|alive)*P(alive)/P(age),其中P(age|alive)是当前人口占给定年龄的比例,P(age)是年份(2014-age)的婴儿。
若你对姓名数据感兴趣,以下是一些相关资源,可以帮助你更深入了解:
-
中文姓名性别预测.csv:提供中文姓名的性别预测数据。
-
英文姓名性别预测.csv:提供英文姓名的性别预测数据。
-
性别使用历史数据根据姓名预测性别源码:展示如何通过历史数据预测姓名的性别。
-
姓名拼音数据库:一个全面的姓名拼音数据库。
-
18802010年间全美婴儿姓名:收录了1880至2010年间的美国婴儿姓名数据。
-
统计方法来识别中文姓名:讲述如何通过统计方法识别中文姓名。
下载地址
用户评论