Replies: 2 comments 1 reply
-
OneDrive%20-%20%E5%8D%97%E4%BA%AC%E5%A4%A7%E5%AD%A6/book/qss/qss-instructor/qss-instructor-UNCERTAINTY/qss-instructor/UNCERTAINTY/china-women/china-women.html import pandas as pd
import pylab as plt
df = pd.read_csv('data/chinawomen.csv')
df['teadummy'] = [1 if df['teasown'][i] >0 else 0 for i in df.index]
df['orchdummy'] = [1 if df['orch'][i] >0 else 0 for i in df.index]
import statsmodels.formula.api as sm
model = sm.ols('sex~ post*teadummy +orchdummy + han + cashcrop', data = df).fit() #(cov_type='HC1',)
model.summary()
import matplotlib.pyplot as plt
from statsmodels.graphics.factorplots import interaction_plot
plt.style.use('ggplot')
fig = interaction_plot(
x = df['post'],
trace = df['teadummy'],
response = model.fittedvalues,
colors = ['red','blue'],
markers = ['D','>']
)
plt.xlabel('Time')
plt.ylabel('Male Ratio')
plt.legend().set_title('Tea Sown')
plt.show() |
Beta Was this translation helpful? Give feedback.
-
Quantitative Social Science 量化社会科学导论8.7今井耕介 / 2020 / 上海财经大学出版社 https://github.com/kosukeimai/qss https://qss.princeton.press/instructors/ https://dataverse.harvard.edu/dataverse/imai
https://www.researchgate.net/profile/Nancy-Qian-2 <iframe allowfullscreen="allowfullscreen" frameborder="0" height="500" scrolling="no" src="https://player.bilibili.com/player.html?aid=89387694" width="620" style="max-width: 100%;"></iframe>【经济学讲座】消失的女人和中国茶叶的价格 by Nancy Qian (钱楠筠)_哔哩哔哩_bilibili https://www.bilibili.com/video/av89387694/ Nancy Qian发表在QJE上最为人熟知的论文《中国的失踪女性与茶价:特定性别收入对性别不平等的影响》。Nancy Qian(钱楠筠),现为美国西北大学讲席教授,2005年从MIT博士毕业,其博士生导师为Esther Duflo, Abhijit Banerjee和Joshua Angrist。有趣的是,Esther Duflo的博士生导师为 Abhijit Banerjee和Joshua Angrist,因此,Nancy Qian按照辈分也应该叫Abhijit Banerjee和Joshua Angrist师公了。论出生时的国籍,Nancy Qian应被称为中国裔,Esther Duflo为法国裔,Abhijit Banerjee为印度裔,Joshua Angrist为以色列裔。 正因为Nancy Qian善于使用DID方法做有影响力的研究,在学术界某个小圈子里被称为“DID小公主”。Nancy Qian毕竟对中国国情更加熟悉,因此在凭借Missing women这篇文章成名之后,与北京大学姚洋教授、复旦大学陈硕教授、澳大利亚国立大学孟昕教授等展开了不少学术合作。 **主要观点:**本文利用中国后毛泽东时代的改革导致的特定性别(sex-specific incomes)的农业收入的外生增长来估算总收入和特定性别收入对不同性别儿童生存率的影响。增加女性收入,保持男性收入不变,可以提高女孩的生存率,而增加男性收入,保持女性收入不变,会使女孩的生存率恶化。女性收入的增加会增加所有儿童的受教育程度,而男性收入的增加会降低女孩的受教育程度,对男孩的受教育程度则没有影响。 1.Introduction P1251-1254在该部分,作者对研究动机和研究方法进行了概述。 研究动机:本文首先提出亚洲存在着较为严重的人口性别失衡:西欧国家目前的人口中有50.1%是女性,而印度和中国则只有48.4%是女性。AmartyaSen(1990,1992)将这一观察到的赤字称为“失踪妇女”。世界上大多数失踪妇女都在中国和印度。据估计这里失踪了三千至七千万名妇女。然而,作者又指出,一些富裕的亚洲地区如韩国和台湾存在着相同的性别失衡问题。在中国1970-2000年间出生的人口中,随着经济的快速增长,男性比例从51%增加到57%(详见原文图一)。 研究方法:接下来,作者阐述了如何解决收入对儿童性别影响的识别问题(女性收入的提高有可能来自很多方面):本文利用中国的两次后毛泽东时代的改革来消除遗漏变量偏差的问题。在毛泽东时代,中央计划生产目标集中在主粮(staple corps)上。在后毛泽东时代改革初期(1978-1980年),改革增加了经济作物(cash corps)的收益,其中包括了茶和果园产物。妇女在产茶方面具有相对优势,而男性在生产果园水果方面具有相对优势。因此,在适合茶叶种植的地区,由女性产生的收入增加,而在适合果园作物栽培的区域,由男性产生的收入增加。这使得作者可以使用双重差分法(DID)策略来确定性别特定收入(sex-specific incomes)增加对儿童性别结果的因果关系。为了评估特定性别收入变化的影响,作者比较了改革前后种植和不种植特定性别作物的县出生的人口队列之间的性别比例。
2. EMPIRICAL STRATEGY P1254-1266在该部分,作者阐述及论证了研究采茶的原因,概述了改革的主要内容和影响,以及针对不同问题构建了四个实证模型。 采茶VS 果园?本文用茶的价值来代替女性的工资,用果园作物的价值来代替男性的工资。作者首先检验了茶和果园作物的性别属性。其研究表明,每户家庭播种的茶叶数量和每户家庭用于产茶的耕地比例与家庭中男性劳动者比例均呈负相关。(详见原文表I,第(1)–(4)列)。每户种植的果园数量和家庭用于果园的耕地的比例与家庭中男性劳动者的比例呈正相关(详见原文表 I,第(5)–(8)列)。需要注意的是,产茶业中女性仅在摘茶这一环节具有比较优势。在1982年的人口普查中,茶叶生产(包括采摘,修剪和烘干)中有56%的劳动力是男性,而果园生产中有62%的劳动力是男性。由于女性在采摘方面具有比较优势,因此作者将这6%的差异解释为女性在采茶中的比较优势的下限估计。对非产茶与产茶县的男孩比例进行的简单横截面比较显示,后者的男孩比例减少了一个百分点,女孩的比例则增加了一个百分点(参见原文表II)。然而由于存在偏好改变等遗漏变量偏差,不能简单把这一比较作为支撑结论的论据。 改革内容及影响:在研究时期,中央将农作物分为三类。第1类包括为国家福利所必需的作物:谷物,所有油料作物和棉花。第2类是经济作物,包括果园产品和茶(Sicular1988a)。第3类包括所有其他农业作物(主要是当地的次要作物)。只有第1和第2类作物受到配额的限制。所谓的“两项改革”指的是逐渐降低计划指标的比例以及家庭联产承包责任制(HPRS)的实施。相对于第1类主粮的收入,改革增加了茶和果园产物的收入。注意到,茶类收入未超过果园产物的收入(图IIa)。尽管第1类作物的产量增加了,但增长率没有变化(图IIb)。改革后,随着采购价格的上涨,第2类农作物如瓜类和果园水果产量的增速加快(图IIc)。产茶业也有类似的增长(图IId)。 实证模型**1) 模型一:第1类和第3类作物对男孩比例的影响:**如前所述,所谓特定性别收入的增长是基于2类农作物相对于1类农作物(价格持续受到压制)和3类农作物(从未受到管制)的价值增长。因此,改革后第1类和第3类作物的价值变化对男孩比例的影响不应改变。因此,作者设计了如下模型: i 表示县,c表示人口队列,sex为男孩比例,cat1和cat3表示第1类和第3类农作物的种植量,d_L是表示人口队列是否出生在第L年的虚拟变量,Han表示汉族人口的比例。图IIIa表示了两个交互项的系数,其显示第1类和第3类作物的系数在改革前后都十分接近于0。 **2) 模型二:改革后种茶业对男孩比例的影响:**作者使用1970-1986年间出生的人口队列作为实验组,1970–1979年出生的人口队列作为对照组估计以下DID模型: tea是茶叶的种植量,orchard是果园作物的种植量,cashcrop是所有经济作物的种植量,postc是改革变量,如果个体在1979年之后出生,则等于1。如果茶价值的增加改善了女性的生存率,那么这应该反映在改革后出生的男孩所占比例的下降,β<0。相反,如果果园作物价值的增长使女孩的生存率恶化,作者们可以预期δ>0。**3) 模型三:产茶对性别比例的影响是否与改革有关:**作者进一步指出,DID方法有潜在缺陷,它可能会把改革的效果与改革前或改革后可能发生的其他变化(如性别偏好改变)的效果混淆。例如,产茶区可能相对于其他地区经历了不同的性别比趋势,这可能导致DID估计值除了反映茶价增加的影响之外,还捕获了产茶区和非产茶区之间的差异。作者通过两种办法证明了DID估计值的准确性:首先,图IIIb绘制了产茶县和非产茶县在每个出生年份队列中的男孩比例。两条线之间的垂直距离表明,在改革之前,产茶县的男孩较多,而在改革后,产茶县的男孩持续低于非产茶县。DID估算值是改革前后平均垂直距离的差。该图清楚地表明,在改革之前,产茶区的男孩比非产茶区的男孩多,而在改革后,产茶区的男孩持续低于非产茶县。因此,DID估计值将无法反映产茶区和非产茶区之间性别比例的改革前趋势差异。 其次,作者进一步回归男孩比例与出生县所种植的经济作物数量和出生年份的交互项,来更严格地检验产茶对性别比例的影响是否发生在在接近改革时点的出生年份: βL是产茶对队列L男孩比例的影响。如果增加茶价改善了女孩的生存率,则βL应保持恒定直到改革开始的时间附近,改革之后才应变为负数。同样,δL是在第L组中果园作物对男孩比例的影响。如果果园作物价格上涨恶化了女孩的生存率,则δL应该保持恒定直到改革开始的时间附近,改革之后应变为正数。 **4) 模型四:引入坡度的工具变量回归:**有两个问题需要引入工具变量,首先,由于数据获取问题,作者使用1997年的农业条件代替以前年份的农业条件,可能存在测量偏误。其次,OLS可能存在遗漏变量偏差,如改革后偏好女孩的家庭更加容易转向茶叶的种植。作者引入坡度作为产茶的工具变量。由于茶要求温暖和半湿的山顶作为生长条件。如果坡度对差异投资决策没有直接影响并且与方程式(5)中的任何其他协变量不相关,则坡度是茶叶种植量的有效的工具变量。作者将样本限制在产茶县和那些与产茶县有邻界的非产茶县。第一阶段回归: 第二阶段的回归: 3. CONCEPTUAL FRAMEWORK P1266-1267在该部分,作者基于茶价和女童存活率的关系提出了两个家庭模型,并且提出了家庭类别以及父母对孩子的对待方式的联合假设检验。 由于在本研究的最相关时期无法使用产前揭示性别的技术,因此观察到的性别失衡是出于对女孩的差异性疏忽或某些情况下对女婴的杀害所致。女孩生存的可能性随着女孩相对于男孩的需求以及性别选择成本的增加而增加。提高茶价对于提高女孩的相对存活率可以通过四个途径进行。首先,它可以通过提升父母对女儿未来相对于儿子的收入期望来增加生女孩的相对愿望。其次,如果由于某种原因女儿相对于儿子而言是奢侈品,那么家庭总收入的增加会增加女孩的相对需求。第三,增加特定于女性的收入可以提高母亲的议价能力。如果母亲比父亲更喜欢女孩,这将增加女孩的相对生存率。最后,因为必须在怀孕到一定阶段才能揭露孩子的性别,增加成年女性的劳动价值可能会增加性别选择的成本。第一种,第二种和最后一种解释与家庭决策的统一(unitary)模型和非统一(nonunitary)模型都一致。第三种解释很可能与家庭的非统一模型相一致。统一模型做出了强有力的预测,即无论哪个家庭成员将额外收入带回家,收入的增加对家庭消费都应具有相同的影响。因此,如果果园产品价格的增加对女孩存活率的影响不如茶价上涨,那么可以排除第二种解释。通过比较茶叶和果园产品价格上涨对女孩相对受教育水平的影响,可以进一步精简潜在解释的数量。在这种情况下,母亲的时间机会成本不适用。第一个解释中具有投资动机的统一家庭要求,增加女性劳动力的相对价值对女孩的教育程度的影响与增加男性劳动力的相对价值对男孩的教育程度的影响是对称的。作者通过检验茶叶价格的上涨是否与果园产品价格上涨对性别不平衡具有相同的影响,检验了家庭是统一家庭并且父母将儿童视为一种消费形式的联合假设。作者通过检验茶叶价格的上涨对女孩的教育程度是否与果园产品价格上涨对男孩的教育程度有相同的影响,检验了家庭是统一家庭并且父母将孩子视为一种投资形式的联合假设。 4. THE DATA P1268-1272**在该部分,作者详细阐述了数据来源和数据的处理标准并进行了描述性统计分析。针对可能存在的混淆变量,作者依据数据进行了排除。**作者使用1997年中国农业普查的1%样本和1990年中国人口普查的1%样本以及密歇根中国数据中心的GIS数据。样本包括来自中国南方十五个省的所有1,621个县。1997年农业普查中所有生产茶的省份都包括在内。1990年的人口普查包含有关性别,出生年份,受教育程度,部门和职业类型以及与户主的关系的数据。由于城市和农村经历了不同的计划生育政策和市场改革,作者将分析仅限于农村家庭。为了避免将估计值与移民的影响混淆,作者将数据进一步限制为报告在同一县居住超过五年的个人。这是基于出生县是那些报告已经居住五年或更长时间的人的居住县的假设。作者还根据数据排除了“独生子女政策”对女童出生率的干扰。图一表明,按出生年份划分的男性比例随时间推移是稳定的。为了保持严谨,在DID估计中作者仅使用4岁以上儿童的数据。在比较了表II中产茶县和非产茶县的描述性统计,作者认为两组之间没有突出的系统性差异。图IVa显示了产茶县的分布。较深的阴影对应于种植更多的茶树。它显示出茶叶生产县在地理上分散,这有助于减轻人们对它们在可观察到的特征(例如文化)方面与对照组上存在系统性不同的担忧。图IVb显示了中国的坡度变化,图中的阴影地区更加陡峭。通过比较图IVa中的茶叶种植县和图IVb中的丘陵地区,可以看出坡度对茶叶种植的预测能力。作者使用图IVb中所示的GIS数据来计算每个县的平均坡度。 5. EMPIRICAL RESULTS P1272 - 1279A.女童生存率表III的第(1)列显示了根据公式(2)的DID估计。结果表明,每多种植一亩茶,可使男孩的比例降低1.2个百分点。而每多种植一亩果园作物,可以使男孩的比例提高0.5个百分点;种植经济作物在总体上对性别没有影响。种植茶和果园作物的系数分别在10%和5%的水平上具有统计学意义。根据等式(3)得出的β1,δ1和ρ1的估计值绘制在图V中。它们显示,对于改革之前出生的队列,种植茶和果园作物对男孩比例的影响较为相似,并且在各个队列中保持不变。然而到了改革时期左右出生的人群,它们呈现出了不同的影响。产茶与男孩比例降低相关,而种植果园作物与男孩比例升高相关。随着时间推移,差异效应持续存在。以上这些结果使人们相信茶和果园作物的生产对男性比例的影响可以归因于后毛泽东时代的农业改革,而不是这些地区的其他变化。 作者还考虑到了队列固定效应问题(队列固定效应控制着县内各个出生队列之间的差异,且这些差异不在县之间变化)。作者纳入了县的虚拟变量与线性时间趋势的交互项来解决这一问题。为了使估算结果与2SLS估算可比,作者将样本限制为仅具有地理数据的县,并回归了与2SLS第二阶段相同的模型。表III的第(2)列显示了基本的固定效应估算。第(3)列显示了作者控制县级队列趋势后的估算值。估计结果是相似的且在5%的水平上显著。这进一步证明OLS估计的稳健性。表III的第(4)列显示了根据等式(4)进行的2SLS第一阶段估算。丘陵和产茶之间的相关性估计值λ在5%的水平上显著。列(5)显示了根据公式(5)估算的2SLS估计值。该估计值大于OLS估计值,并且具有统计意义。列(6)显示在控制了县级队列趋势之后的2SLS估计值。该估计在量级上与OLS估计相似,但不再具有统计意义。纳入趋势和不纳入趋势的估计值在统计上没有差异。没有纳入趋势的估算值较大,但估算的精度较低。第(6)列中的2SLS估计值表明,在考虑县级队列时间趋势的条件下,OLS估计值没有偏差。此外,第(3)和(6)列中的OLS和2SLS估计值在数值上几乎与第(1)列中的初始OLS估计值相同。作者再一次证明OLS具有稳健性。B. 受教育程度 该部分的分析使用了2000年人口普查中0.05%的样本中的县级-出生年份数据。实证策略与之前相同。作者以受教育年限为因变量来估计方程式(2),以检验种植茶,果园产物和所有第二类经济作物对整体教育程度的影响。然后,作者重复以上步骤,以女孩受教育程度,男孩受教育程度以及男孩和女孩之间的教育程度差异作为因变量进行估计。首先,选用虚拟变量,该变量指示县中是否种植了茶,果园或经济作物,然后改用连续变量来表示每种作物的种植量。虚拟变量:表IVA中的估算表明,产茶分别使女性,男性和所有儿童的受教育年限分别提高了0.2、0.25和0.15年。另一方面,果园产物的种植使得女性的受教育程度降低了0.23年,而对男性的受教育程度没有影响。这些估算值在1%的水平上具有统计学意义。第(4)列的估算显示,种植茶减少了男女受教育程度的差异,而种植果园则增加了这种差异。后者在1%的水平上显著。第2类经济作物的系数接近于零,在统计上不显著。连续变量:表IV的第(5)-(8)列显示估算值与第(1)-(4)列中使用虚拟变量的估算值具有相同的符号。估计数字显示,每增加一亩茶园,女性的受教育程度提高了0.38年,男性的受教育程度提高了0.5年,而每增加一亩的果园作物使女性的受教育程度降低了0.12年,对男性的受教育程度没有影响。为了观察产茶对受教育程度影响出现的时间,作者按出生年份检查了产茶的影响。作者以受教育年限为因变量来估计方程式(3),以检验不同出生年份产茶的效果。作者绘制了图VI中向量β1和δ1中每个队列L的估计系数的三年平均值。其表明1976年之前,茶叶和果园作物地区的女性受教育程度是相似的,1976年之后产茶区则有所提高,而果园作物区则有所下降。 C. 稳健性检验计划生育政策如果计划生育政策的实施在茶区和非茶种植区之间有系统的不同,那么实证策略将把茶的种植效果与计划生育政策的效果混淆。作者首先指出,没有证据表明计划生育政策在产茶区和非产茶区有系统性不同。其次,作者使用非汉族少数民族在很大程度上不受计划生育限制的事实,进行了两次额外的稳健性检验。首先,作者引入汉族比例与出生年份虚拟变量之间的交互项进行控制。接下来,作者使用仅包含少数族裔的样本重新估计方程式(2)。在这两种情况下,估计数均与主要结果相似,表明它们与计划生育政策没有混淆。结果未报告在论文中。移民如果产茶区和非产茶区之间的迁移模式差异显著,则OLS估计值可能会反映迁移的影响,而不是收入变化的影响。特别地,相对于非产茶区而言,假设1979年之前出生的女性离开产茶区的比例过高。在这种情况下,实证策略会错误地将性别失衡的变化归因于特定性别的生存率的变化,而不是迁移的变化。为了更直接地解决移民问题,作者故意高估了来自产茶区的女性移民人数。之前提出的DID估算使用的是1990年4至20岁的个人样本。2000年人口普查报告了一个人当前是否居住在其出生县。作者假设所有年龄在20岁以下,居住在非出生县的个人是那些1979年之前出生在产茶区的女性。然后,作者将这些移民数据添加到1990年的数据中,并重新估计方程式(2)。这比最初的模型看起来更加保守,因为2000年的迁移率比1990年高出大约一个数量级。即使采用这种极其保守的方法,DID估计值也几乎不会改变。结果未报告在论文中。6. INTERPRETATION P1279 - 1280实证结果具有若干理论意义。生存和教育方面的研究结果拒绝了家庭是一元家庭以及父母则认为女孩相对于男孩是奢侈品的联合假设。户内还价模型提供了一种简单的替代解释。如果母亲比父亲更看重教育,而且母亲忽视任何性别子女的成本更高,那么母亲还价能力的提高将导致男孩和女孩待遇更加平等,这在数据中反映为女孩相对生存率的提高。 7. CONCLUSION P 1281本文探讨了经济条件是否会影响女孩相对于男孩的结果这一长期存在的问题。实证结果提供了明确的肯定答案:性别不平衡和受教育程度都对性别特定收入的变化迅速做出反应。此外,在不改变男女收入相对份额的情况下增加家庭总收入对生存率或教育投资均无影响。本文的研究结果表明,女性工资劣势地位的不断恶化可能是中国失踪妇女人数增长的重要来源。同样,男女工资差距的增加可能是1980年代初观察到的农村学校入学率下降的原因之一。这些结果的政策建议很明确。减少女孩死亡率和增加对儿童的整体教育投资的一个方法是增加成年女性的相对收入。 |
Beta Was this translation helpful? Give feedback.
-
Sex Ratio and the Price of Agricultural Crops in China
In this exercise, we consider the effect of a change in the price of agricultural goods whose production and cultivation are dominated by either men or women.
This exercise is based on: Qian, Nancy. 2008. “Missing Women and the Price of Tea in China: The Effect of Sex-Specific Earnings on Sex Imbalance.” Quarterly Journal of Economics 123(3): 1251–85.
Our data come from China, where centrally planned production targets during the Maoist era led to changes in the prices of major staple crops. We focus here on tea, the production and cultivation of which required a large female labor force, as well as orchard fruits, for which the labor force was overwhelmingly male. We use price increases brought on by government policy change in 1979 as a proxy for increases in sex-specific income, and ask the following question: Do changes in sex-specific income alter the incentives for Chinese families to have children of one gender over another? The CSV data file,
chinawomen.csv
, contains the variables shown in the table below, with each observation representing a particular Chinese county in a given year. Note thatpost
is an indicator variable that takes takes 1 in a year following the policy change and 0 in a year before the policy change.birpop
biryr
cashcrop
han
orch
teasown
sex
post
https://github.com/kosukeimai/qss/blob/master/UNCERTAINTY/chinawomen.csv
Question 1
We begin by examining sex ratios in the post-reform period (that is, the period after 1979) according to whether or not tea crops were sown in the region. Estimate the mean sex ratio in 1985, which we define as the proportion of male births, separately for tea-producing and non-tea-producing regions. Compute the 95% confidence interval for each estimate by assuming independence across counties within a year (We will maintain this assumption throughout this exercise). Furthermore, compute the difference-in-means between the two regions and its 95% confidence interval. Are sex ratios different across these regions? What assumption is required in order for us to interpret this difference as causal?
Question 2
Repeat the analysis in the previous question for subsequent years, i.e., 1980, 1981, 1982, …, 1990. Create a graph which plots the difference-in-means estimates and their 95% confidence intervals against years. Give a substantive interpretation of the plot.
Question 3
Next, we compare tea-producing and orchard-producing regions before the policy enactment. Specifically, we examine the sex ratio and the proportion of Han Chinese in 1978. Estimate the mean difference, its standard error, and 95% confidence intervals for each of these measures between the two regions. What do the results imply about the interpretation of the results given in Question~1?
Question 4
Repeat the analysis for the sex ratio in the previous question for each year before the reform, i.e., from 1962 until 1978. Create a graph which plots the difference-in-means estimates between the two regions and their 95% confidence intervals against years. Give a substantive interpretation of the plot.
Question 5
We will adopt the difference-in-differences design by comparing the sex ratio in 1978 (right before the reform) with that in 1980 (right after the reform). Focus on a subset of counties that do not have missing observations in these two years. Compute the difference-in-differences estimate and its 95% confidence interval. Note that we assume independence across counties but account for possible dependence across years within each county. Then, the variance of the difference-in-differences estimate is given by:
A similar formula can be given for orchard-producing regions. What substantive assumptions does the difference-in-differences design require? Give a substantive interpretation of the results.
Beta Was this translation helpful? Give feedback.
All reactions