加里收入维持实验最终报告：劳动力供应 – 中国社会分红/基本收入研究网

作者：Kenneth C. Kehrer John F. McDonald Robert A. Moffitt

译者：刘歆瑶

来源：Final Report of the Gary Income Maintenance Experiment: Labor Supply (mathematica.org)

发布：1979年11月30日

引言

加里收入维持实验是由卫生、教育和福利部以及经济机会办公室支持的一系列协调实验之一，目的是测试负所得税（NIT）替代计划的工作激励效果和其他后果。这些实验在全国不同地区的不同人群中进行。所测试的收入支持计划在结构上与现有的福利和转移支付计划相似，但福利公式被简化，资格更为普遍，仅取决于家庭收入、家庭规模和是否有受抚养子女。

在 NIT 下，福利由保障水平（即向没有其他收入来源的家庭提供的基本福利）和税率（即当其他收入来源增加时福利减少的比率）决定。有些补助金发放给收入低于收支平衡水平的所有家庭，而最大的补助金发放给收入最低的家庭。因此，在这种计划下，福利金额会随着家庭收入的增加而减少，但家庭总收入总会随着工作收入的增加而增加。

虽然非全额退休金计划目标明确（最贫困家庭获得的福利最高），激励结构合理（总收入总是随着工作时间的增加而增加），但它仍然会产生抑制工作的因素。假定一个人的有效工资率为 FX/FY。保障水平为 YG、税率为 t%的NIT将使个人的预算时间变为 YGBX，其中 BE 为收支平衡水平，预算线在 B 以下的斜率为工资率乘以 1 减去税率。因此，国家税率的影响将是增加许多人的收入，减少他们的净工资。预计这两种效应都会减少劳动力供给。

图 1. 负所得税对劳动力供应的影响

在 20 世纪 60 年代，对替代性失业保险计划可能导致的劳动力供应减少的现有估计差别很大，以至于它们在政策规划中没有什么用处。这些估算的一个基本问题是，现有数据并不包括政策规划中所考虑的税率和保障水平的变化。也许更重要的是，这些估算所依据的是非实验数据，其中观察到的劳动力供应决策和福利参与决策可能是内生的。例如，任何关于全额残疾补助金家庭劳动力供应的非实验研究都具有潜在的选择性偏差，这是因为家庭参加全额残疾补助金部分是通过劳动力供应决策来实现的。对全美家庭经济援助委员会家庭和非全美家庭经济援助委员会家庭的劳动力供应行为进行研究，不容易解释可能导致这些家庭将自己分为两组的未观察到的特征的潜在差异。这些问题已在其他地方进行了更广泛的讨论（Moffitt 和 Kehrer，即将出版）。

为了更好地估计替代性 NIT 计划可能对劳动力供应产生的影响，经济机会办公室和人力资源部在过去十年中开展了一系列协调的收入维持实验。收入维持实验一般采用经典的实验设计，即对随机选出的一组人进行 “处理”，然后将他们的行为与没有接受处理的一组人的行为进行比较。这种设计试图消除由未观察变量引起的偏差，因为随机选择实验组和对照组中的个体，可能会导致每组中未观察变量的分布完全相同。因此，实验数据为分析人员提供了一个独立变量–治疗分配，其变化来源是真正外生的。

在本文中，我们报告了对加里试验的劳动力供给反应的一项重要研究。第一节介绍了我们在研究中使用的模型规格。在讨论了加里实验的重要特征（A 部分）之后，我们讨论了累积税率问题的性质，并推导出一个平均税率模型（B 部分）。在 C 部分中，我们探讨了劳动力供给模型的其他几个实证规范问题，并逐一介绍了我们的研究方法。我们在 D 部分重述了我们的基本模型，并纳入了 C 部分讨论的规范。

第 II 部分介绍了我们的研究结果。A 部分介绍了基本模型的结果，B 部分测试了结果对其他规格决定的敏感性。

I. 模型规格和方法问题

A. 加里实验

加里收入维持实验是印第安纳大学根据与美国卫生、教育和福利部（HEW）以及印第安纳州公共福利部签订的合同，在 1971 年至 1974 年期间进行的。在此，我们将介绍该实验的设计和实施、样本和加里劳动力市场的特点，以及对实验中劳动力供应调查结果的解释和可推广性。

在加里测试了四种不同的负所得税计划，结合了两种税率和两种保障水平。税率为 40% 或 60%，保障水平为贫困水平或贫困水平年收入的四分之三。例如，1972 年，一个四人非农家庭的官方贫困线为 4275 美元，加里的两个保障水平分别为 4300 美元和 3300 美元。福利表每六个月调整一次，以补偿生活费用的增加。

该实验既包括丈夫在场的家庭，也包括女户主家庭（即实验中没有男性的家庭，因为新泽西实验和农村实验都不是为了研究这类家庭而设计的。加里实验的目的之一是研究将一些女户主家庭从《全额扶养和发展计划》转为更慷慨的收入支助计划的效果。较低的加里保障水平（贫困水平的四分之三）每年比印第安纳州全额家庭补助计划（AFDC）的支助水平高出约 1 000 美元。加里试验的另一个目的是调查将收入支助付款资格扩大到完整家庭的后果。在印第安纳州，这些家庭一般都没有资格领取全额家庭补助金（印第安纳州没有参加全额家庭补助金-统一基金方案（AFDC-UF））。

加里实验只招收黑人家庭，资格仅限于至少有一个未满 18 岁子女的家庭。在自愿报名的 1799 个家庭中，57%的家庭被随机分配到实验性收入补助金的领取资格，其余家庭则为对照组。近 60% 的参与家庭是女户主家庭¹/。

¹/有关实验设计的详细讨论，请参见 Kehrer 等人（1975 年）。

实验组家庭有资格领取为期三年的收入补助金。所有参与家庭，包括实验组和对照组，每月都提交收入和家庭组成变化报告。实验前、实验期间每年约三次以及实验结束后，所有家庭都接受了访谈。

有男户主的家庭（几乎都是完整的夫妻家庭）通常收入较低，但一般不是极端贫困。丈夫通常是全职的工会工人，有连续工作的历史，他们能够赚取足够的收入使家庭摆脱贫困（这些家庭中只有 10% 的收入低于贫困线）。另一方面，妻子通常不外出工作（试验开始时只有 13% 的妻子有工作）。在相对较少的夫妻双方都有工作的家庭中，妻子的收入通常会提高家庭收入，以至于该家庭不再符合领取 NIT 款项的条件。因此，在所研究的夫妻家庭中，妻子临时工作以帮助 “维持生计 “的家庭并不多。

在加里进行研究的夫妻家庭不会被视为典型的福利家庭，因为他们加入了劳动大军，收入水平也不高，而且印第安纳州的夫妻家庭一般都得不到公共援助金。但是，根据在加里测试的收入补助计划，这些家庭中有许多都有资格获得适度的收入补助。因此，对加里试验的分析可以使人们了解到将收入补助计划扩大到有工作但低收入的家庭所产生的后果。另一方面，无论是丈夫（在工会工作并拥有年资）还是妻子（要么没有工作，要么所从事的工作使家庭收入超过了 NIT 计划的收支平衡水平），预计他们都不会因该试验而大幅减少工作强度。

女户主家庭一般都比所研究的夫妻家庭贫困得多。80% 以上的家庭在实验前正在领取 “有受抚养子女家庭援助计划”（AFDC）的福利金。在从 AFDC 转到实验的实验家庭中，约有四分之三的家庭收入低于贫困线。接受 AFDC 援助的女户主在刚开始参与时非常依赖福利：她们每月收入的 86% 来自公共转移支付，仅 AFDC 补助金就占其收入的一半多一点。与接受研究的妻子一样，只有 13% 的全美家庭发展援助计划女户主有工作。

在实验之前没有领取全额奖学金的女户主家庭的情况要好一些，只有 38% 的家庭收入低于贫困线。非AFDC女户主家庭约 60% 的收入来自收入（这些家庭中 40% 的女户主有工作），其余大部分收入来自食品券、社会保障和其他转移计划²/。

²/A关于加里样本的更详细描述，见 Kehre r（1977 年）。

尽管如此，所研究的女户主家庭总体上相当依赖公共转移支付。少数有工作的家庭往往从事低工资工作。因此，与丈夫-妻子家庭相比，这部分家庭更有可能通过减少劳动力供应来应对试验。

加里劳动力市场的特点对本文所报告的劳动力供应调查结果的解释和推广也有重要影响。加里的劳动力市场主要由几家大型钢铁厂和一些制造及加工厂组成。这有两个重要影响。首先，在这样一个高度制度化的劳动力市场中，通过减少每周工作时间或全年工作时间来边际减少劳动力供应的机会很少。减少劳动力供给一般必须采取完全退出就业的形式。下文介绍的结果往往证明了这一点。其次，这样的劳动力市场几乎不包含传统上由女性从事的工作³/。因此，实验中很少有女性工作，而那些工作的女性往往是全职的，并且更加以职业为导向（例如，教师），因此，她们并不是可能会对 NIT 做出反应的兼职和临时工。

³ /例如，在 Bowen 和 Finegan（1969 年，第 774 页）设计的对妇女有利的劳动力市场指数中，加里 SMSA 排名最后。

显然，人口群体和当地劳动力市场的特征与美国整体的特征并不完全相同。因此，在将结果推断为全国性的 NIT 计划之前应谨慎行事。我们分析数据的结果表明，事实上，这些特定的人口和劳动力市场特征确实影响了反应，这一点在下文中将会变得很清楚。

B. 平均税率劳动力供给模型

估算 NIT 试验效果的第一步是估算试验组与对照组的平均差异：

L = αT + Xβ + ε, (1)

其中，L 是劳动力供给的某种度量，T 是实验虚拟变量，如果在实验组，其值等于 1，如果在对照组，其值等于 0，X 是外生社会经济特征的向量，ε 是随机分布的误差项，a 和 β 是参数。在这样的模型中，系数 α 表示 “实验效应”，因为它代表了根据 X 的差异调整后的实验组与对照组的平均劳动生产率差异。

然而，对 a 的估计只是第一步，因为一个特定实验中实验与对照组之间的平均差异不能推广到不同的人群，例如收入分布不同、收支平衡以下家庭比例不同的人群。此外，它也不能推广到具有不同税率和保障的 NIT 项目中。由于这些原因，我们需要一个更具结构性的模型，以明确加里参与者所面临的特定预算约束。

根据劳动力供给的标准理论，NIT下的工作时数应是相关净工资率和相关非工资收入净额的函数。计算出的 NIT 福利等于 [G-t（WH+N）]，其中 G 为 quarantee 水平，t 为税率（或 “福利减少率”），W 为小时工资率，H 为工作时数，N 为非工资收入。由于收入按税率 t 征税，因此每小时净工资率为 W(l-t)，由于零工时的NIT收入为（G-tN），因此总的NIT收入为[G+N（l=t）]。因此，劳动力供给函数可以隐式写法表示如下：

H = f[W(l一t) , G+N(l-t) ]

在实验数据上对该函数进行估计时，可将对照组的 t 和 G 设为 0，将实验组的 t 和 G 设为正确值。

遗憾的是，NIT 预算约束的非线性使这一估算变得复杂。该时数函数仅适用于福利为正，因此收入低于收支平衡水平 G/t 的个人。对于收入大于 G/t 的个人，福利为零，边际 NIT 税率为零。从某种意义上说，这里出现的问题是个人面临 “哪种 “税率。但更准确的说法是，个人面临着多重税率，即面临着零线预算约束。对于实验家庭和对照家庭来说，问题更加复杂，因为他们在实验期间或实验之前还面临着其他税收和转移支付项目：所得税、工资税、州所得税、对有受抚养子女家庭的援助（AFDC）、食品券等。由于这些项目中的每一项都包含多个税率，因此它们的累积效应是一个高度非线性的预算约束。

文献中解决这一问题最常用的方法是估计工时方程 H = H[W(1-t’) , N’]，其中 W(l-t’) 是 “当地 “净工资，N’是 “当地 “收入截距–即个人被观测时所处区段的净工资和收入截距（Hall, 1973; Hausman and Wise, 1976; Keeley et al.）遗憾的是，这种方法存在两个严重问题。首先，税率显然是内生的，因为它通过税收和福利公式与工作时间相关。例如，在 NIT 的情况下，我们可能会得到一个虚假的负税效应，原因很简单，因为那些在实验前工作较多的人（例如，由于工作品味较高）更有可能在实验期间的当地税率为零。由于这个问题，大多数研究（包括上述研究）都使用了某种工具变量方法⁴/。该技术的第二个问题是，该函数并不能完全代表总的劳动力供给函数，因为它只能捕捉到某一细分市场中的边际劳动力供给选择。隐含的假设是，个人首先选择片段线性预算约束的一个片段，然后选择片段上的一个点。至于 “段的选择 “以及这种选择如何受到 NIT 参数的影响，则没有具体说明⁵/。

⁴/例如，Hausman 和 Wise（1976 年）效仿 Rosen（1976 年），以相同的固定工时点来评估所有个人的税率，而 Keeley 等人（1978 年）则以前段时间（入学前）的工时来评估税率。

⁵/同样显而易见的是，”分段选择 “和 “沿分段选择小时数 “并不像工具变量技术所暗示的那样是可分离的选择。理想情况下，这两种选择应该共同估算，就像一个人在整个预算约束条件下选择某一点时共同选择一样。

为了避免这些问题，Burtless 和 Hausman（1978 年）开发了一种替代技术，既避免了税率的内生性，又估计了分部选择函数。该技术牢牢地建立在个人在不同区段之间进行用途比较这一正确概念的基础上，但需要使用相当复杂的最大似然程序。在本项目中，必须对大量不同类型的方程进行估算，因此需要一种简单的替代方法。

我们的分析方法是对预算约束进行近似处理，而不是对其所有细节进行表述。具体来说，我们通过平均预算约束上的所有边际税率来平滑预算约束。个人约束条件中每一段的累计税率都按其所覆盖的工作小时数加权，然后求和得到加权平均税率。这种方法的优点是可以模拟对整个预算约束的反应，而不仅仅是对局部约束的反应（尽管它只是对整个约束的近似），而且使用的税率不是内生的。然而，由于它只是对（整个）预算约束的近似，因此必须更进一步将其视为对真实劳动力供给函数的近似⁶/。

⁶/关于解决这个问题的实验中使用的所有模型的全面讨论，请参见 Moffitt 和 Kehrer（即将出版）。

通过线性指定劳动力供给函数，可以看出该方法的含义：

H = γ + δW(l – r- t) + η(N+B_O), (2)

其中，”r “为非 NIT 收入的平均税率，”t “为 NIT 收入的平均税率。零工时的 NIT 福利为 BO，等于（G-tN）。如果一个人的工资率足够高，使其在部分约束条件下高于盈亏平衡点，那么平均化程序就会给这样的人分配一个 “t “值，该值是低于盈亏平衡点的 NIT 正税率和高于盈亏平衡点的零税率的加权平均值。对于在整个小时数范围内低于盈亏平衡点的实验者，平均 NIT 税率 “t “与低于盈亏平衡点的税率相同。因此，与其他一些实验模型不同的是，允许在注册前 “高于盈亏平衡点”（即位于约束条件的上部）的个人做出反应，尽管假定刺激（即平均税率）低于在所有时点都低于盈亏平衡点的个人。

非 NIT 税率也遵循同样的平均程序。例如，联邦所得税的边际税率在预算线的一系列段落中递增，与税级相对应。AFDC（对有受抚养子女家庭的援助）与 NIT 一样，会在某一时刻降至零，从而在约束条件中产生非线性。计算每个人的平均税率 “r “的方法是，构建该人在所有时点的整套边际税率，然后计算其平均值。

对约束条件的这种近似会在多大程度上产生有偏差的系数，这是一个经验问题。对约束条件下的税率进行平均，会丢掉很多关于约束条件下边际税率的信息，但这些税率的重要性部分会受到边际调整工时机会的影响。根据先验的理由，我们可以预期，”边际内 “税率对于那些在高度结构化的劳动力市场中工作的个人来说并不那么重要，因为这种市场使得边际调整工时变得困难。如前所述，加里的劳动力市场确实是高度结构化的，为其人口提供的兼职工作很少；因此，许多人只对收入的平均税率做出反应并非不可信。事实上，当地劳动力市场的这一制度特征正是我们建立平均税率模型的主要动机。

等式 (2) 稍作修改，但这个修改很重要，允许 NIT 变量和非 NIT 变量具有不同的系数：

H =γ + δ’W(l-r) + δ”(-Wt) + η’N + n”Bo (3)

这种分离非常重要，因为它可以避免实验刺激的效果被非实验刺激的效果 “污染”。如果对方程 (2) 进行估算，就很容易得到 δ 和 η 的估算值，而这些估算值在很大程度上是行为对非实验变量反应的结果。这就违背了进行实验的主要目的之一，即获得不同于非实验数据的估计值。当然，系数差异的显著性是一个经验问题，我们将在下文进行研究。不过，尽管分离系数具有潜在的重要性，但这是第一项以正式方式进行分离的实验研究。

鉴于我们对 “扭结预算线 “问题的特殊解决方法，仍有一些重要的计量经济学和规格问题必须加以解决。下一节将讨论方程（3）在我们现有的特定数据集上的实际经验应用。

经验规范问题

用于估计公式（3）的数据基础来自于整个试验期间定期进行的访谈。一次试验前访谈和七次试验期间访谈提供了有关收入、劳动力供应和人口特征的基本信息。每个变量都以访谈当月的月度为单位。下文将进一步讨论如何从全部注册个人中选择分析样本。

要估计方程（3），必须解决的规格和计量经济学问题包括因变量的定义、样本的选择、估计技术的选择以及其他问题。正如之前的几项研究所示，系数估计可能对其中的某些决定相当敏感（例如，Cain 和 Watts，1973 年；DeVanzo 等人，1976 年）。不幸的是，尽管许多可供选择的规格和程序都有明确的优缺点，但它们的净量化影响通常是未知的，因此没有单一的 “正确 “方法。因此，在本研究中，我们选择使用多种规格，并进行大量的敏感性测试，这些测试的性质将在下文中变得更加清晰。我们将依次讨论每个规格问题，并将(1) 选择一个首选规格，(2) 定义一组合理的替代规格，我们也将对其进行估算。在所有方面都以首选方式指定的方程称为 “基本 “模型，它将是所有敏感性检验所围绕的基准方程。

1. 因变量

基本模型中使用的因变量是每月工作时数，包括零。作为一项敏感性测试，我们估算了一个带有就业状况因变量的方程–如果有工作，则等于 1，如果没有工作，则等于 0–以间接测试工作时间是否足够灵活，允许个人对实验做出微弱的反应。如果工作时间完全不灵活，个人只能通过降低被雇用的概率来做出反应，那么工作时间方程中的系数应该等于H乘以就业状况方程中的系数，其中H是工人的平均工作时间。如前所述，加里劳动力市场的性质可能会产生这样的结果。

作为第二个敏感性测试，我们用一个 “验证的 “就业状况因变量对方程进行了估计，以测试在访谈中是否有任何少报就业情况的情况影响估计的实验反应。如果实验者和对照组存在不同程度的少报情况，可能会导致过大的劳动力供给效应，因为实验者有动机少报工时以增加 NIT 的支付。经过验证的就业状况变量是通过印第安纳州就业保障局收集的个人收入数据创建的，雇主向该局提交收入报告以获得失业保险资格认证。这些数据可能比实验访谈中收集的自我报告数据更加准确，因为这些数据是由雇主而不是个人报告的。但要注意的是，这只能从外部衡量就业状况；雇主不会报告工作时间。此外，由于许多低收入工人没有失业保险，他们的收入也没有向失业保险部报告。格林伯格等人（Greenberg et al., 1979）的另一篇论文更详细地论述了这一覆盖范围问题；此处忽略不计。

2. 预算线

预算线和平均税率的计算使用个人的每小时工资总额、不以工作为条件的非工资收入金额，以及他或她有资格享受的税收和转移计划的公式。其中涉及两项税收计划（联邦所得税和社会保障工资税）和两项转移支付计划（AFDC 和 NIT）的计算公式^7/。NIT 和 AFDC 均为正税，在计算公式中必须考虑到这一点。此外，NIT 对某些形式的收入征收 100%的税率，而不是 t 的税率。计算细节见附录 B。

⁷/印第安纳州所得税被忽略，因为其数额很小。食品券在基本模型中也被忽略，因为它们属于实物收入，因此在理论中的作用与现金收入不同。然而，如下文所述，作为敏感性测试，食品券被包括在内。

一旦预算约束的端点选定，平均税率的计算就非常简单了，因为平均净工资率只是端点之间直线的斜率。在加里样本中，选择的端点是每月工作零小时和 173 小时，后者约等于全职工作。这一选择是基于样本的表列特征，这些特征表明很少有人工作超过 173 小时，无论是超时工作还是兼职工作。详细的平均税率计算公式见附录 B。

估算技术

由于许多子样本的工作时数集中为零，因此使用 Tobit 来估计基本方程。当就业状况是因变量时，则使用 probit 来估计方程。作为敏感性测试，普通最小二乘法（OLS）也用于估计这两种类型的方程。此外，由于数据是由时间序列的横截面观测数据组成的，因此还采用了适用于间歇性面板数据的广义最小二乘法（Avery 和 Watts，1977 年）来估计方程。遗憾的是，将有限依赖变量技术与适当的面板数据技术结合起来非常困难，因此必须使用其中一种技术，而不能同时使用两种技术。为了控制集合数据问题，还估算了一个方程，其中包括每个时间段的虚拟变量。

4. 样本选择

在分析样本的选择方面有三个主要决定。首先，删除了几个预计具有结构性非典型劳动力供应功能的子群体。这些群体包括老年人、年轻人、自营职业者和残疾人。其次，在实验过程中婚姻状况发生变化的家庭（即从夫妻变为单亲家庭或反之亦然）也被纳入样本，并根据其当时的婚姻状况进行分类。

沃尔夫（Wolf，1977 年）先前的研究表明，加里实验对婚姻解体没有影响，这意味着婚姻状况可以被视为实验的外生因素。第三，离开实验的家庭（”退出者”）在离开之前的时间段也包括在样本中。这一决定是基于 Hausman 和 Wise（1979 年）的研究，他们的研究表明，在结构性供给方程（即包含通常的右侧品味变量–这些变量可以控制流失效应）中，加里样本几乎不存在流失偏差。然而，尽管我们有先验的概念，但所有这三个样本选择决定都要经过敏感性测试，即按照不同的标准对方程进行重新估计（见下文）。

5. 研究的时间段

对于基本方程，所有七个实验期间的访谈都包含在数据集中，而不是只选择实验中间一年或中间两年的访谈。在许多对其他实验数据的分析中，只使用了中间时期的数据，因为人们认为这最能反映对 NIT 的长期反应。早期可能受到调整和启动因素的影响，而晚期则可能受到预期实验结束而重新调整的影响。然而，在加里数据中，实验与对照组的平均差异似乎并不存在这种模式。附录 E 中报告的差异模式显示，反应随时间的变化很小，有时甚至显示实验早期或晚期的反应大于实验中期的反应。尽管如此，由于这些平均实验-对照差异在结构模型中可能不成立，我们也对实验中期的方程进行了估计，作为敏感性测试。

我们使用七个月度数据点的另一个敏感性测试是使用季度数据，这些数据是在分析后期提供的。这些数据是将连续的月度数据平均到季度中形成的，代表了更多的观测数据和更连续的概况。通过对这组数据的重新估计，估计的效率（如果不是一致性）应该会有所提高。

6. 样本分层和入学前差异

使用加里实验数据的一个问题是，样本是按收入水平分层的，而且实验随机化只在这些收入分层内进行（Conlis k 和 Watts，1969 年）。在各层之间，根据康利斯克和沃茨制定的标准函数选择不同的实验-对照分配。这种分层方法在其他实验中也得到了沿用，其结果是在实验前偶尔会出现实验-对照组劳动力供给的差异。

Hausman 和 Wise（1977 年）在这一领域的研究证明，分层对加里实验的影响很小。Hausman 和 Wise 的研究表明，按收入水平划分的不同抽样比率可以被模拟为一种直接的选择偏差，类似于托比特的最大似然程序可以纠正这种偏差。然而，在他们对加里数据的实证研究中，正确估计的系数与有偏差的 OLS 系数之间的实际经验差异幅度相当小。事实证明，这可能是因为（具有讽刺意味的是）加里的分层实施得非常糟糕，因为在计算中使用了非常不准确的收入衡量标准。

然而，在我们的一些入学前估计方程中，确实出现了实验-对照差异。这可能是某些残留的分层效应造成的，也可能是其他因素造成的–可能是部分随机化失败造成的，也可能是样本删除造成的非随机实验-对照差异。因此，无论如何，我们都要在所有方程中控制可能存在的注册前差异。基本上有两种不同的方法。第一种是估算入学前和实验期间实验-控制劳动力供给的差异，并将实验效果作为该差异从前期到后期的变化来衡量。这种方法与先行差分法有异曲同工之妙。我们所使用的变种是将实验前和实验期间的观测数据集中到一个等式中，并 “扣除 “实验前的差异。例如，在等式（1）所考虑的治疗差异模型中，这种 “净剔除 “程序包括估计等式：

L = αT + βTD + δD + ε,

其中，T 是之前定义的治疗虚拟因子，D 是一个虚拟因子，如果 L 上的观测值是在实验期间，则其值等于 l；如果是在实验之前，则其值等于 0。系数 β 用于衡量实验效应（即实验与对照组之间的差异，扣除由 α 衡量的注册前差异）。

第二种方法是估计一个实验期间方程，将因变量的注册前值作为自变量。为便于阐述，第一种方法被称为 “净值 “模型，而后一种方法被称为 “滞后 “模型。根据粗略的经验，当入学前的选择标准与非观测变量相关时，净值模型相对更可取，而当选择标准与观测变量相关时，滞后模型更可取（见附录 C）。在本文的基本模型中，使用净值模型的原因是：(1) 在 NIT 实验中，通常被认为会导致入学前差异的观察变量是样本收入分层中使用的收入变量，但如前所述，分层对 Gary 的影响不大；(2) 滞后因变量可能会使工资率的系数产生偏差，而工资率恰好与一个处理变量（税率）相互作用。不过，作为敏感性测试，我们也对滞后模型进行了估计。

7. 工资率

非工人工资率数据的缺失是劳动力供给研究中的一个标准问题，可以通过使用工资率工具或采用更复杂的最大似然法程序来部分解决（Heckman，1974 年）。在实验中，还存在一个额外的问题，即 NIT 可能会影响个人工资率；因此，如果将实验期间的工资率作为自变量，可能会错过实验反应。在下面使用的基本模型中，工人使用的是注册前的实际工资率，而非工人使用的是注册前的预测工资率。允许这种不对称是为了增加工资率变量的方差，因为预测工资率的方差通常相对较小。另一方面，这一程序可能会产生一些偏差，因为它在工资率变量中引入了一个与因变量（即是否工作）相关的误差项。因此，作为一项敏感性测试，我们还使用了所有工人注册前的预测工资来估算方程。此外，通过使用当时的工资率对方程进行估计，还对使用注册前的一般值进行了敏感性测试。如果实验对工资有影响，系数估计值可能会有所不同。详细的工资预测方程见附录 D。

8. 家庭劳动力供给决策的相互依存性

前面几节所建立的模型是一个个人劳动力供给模型，没有考虑到个人可能是一个家庭的成员，而这个家庭包含不止一个潜在的劳动者。然而，家庭成员的劳动力供给决策可能是相互依存的。Killingsworth （1976 年）在 NIT 的背景下分析了家庭劳动力供给决策。在最一般的非税收情况下，所有可就业家庭成员的工资率应作为外生变量出现在每个可就业者的劳动力供给方程中。如果输入其他家庭成员的同期收入，可能会出现两种偏差。首先，非零交叉替代效应的存在会使系数出现偏差。然而，正如 Killingsworth 所指出的，现有的实证研究对交叉替代效应的符号和大小并不一致。其次，即使交叉替代效应为零，第二种偏差也可能来自仅通过收入效应起作用的同时性。

如果引入 NIT 等税收和转移计划，问题就会变得非常复杂。在一般税收情况下，个人预算约束（t₁’ t₂’ ……… , tn）中的 n 个税率是其他家庭成员劳动力供给的函数；因此，净工资不再是外生的。即使是我们在此使用的经过大幅简化的线性化预算约束也会遇到同样的问题，因为根据非工资收入的价值和配偶的收入，个人从零到全职的平均税率是不同的。

我们的方法是估算结构方程而非简化方程，并只考虑配偶劳动力供给的相互依存性。我们使用一个工具变量来表示配偶的收入，该变量等于配偶注册前的工资率乘以整个样本的固定工作小时数，等于平均值。因此，在丈夫的方程中，我们将妻子的工资率乘以每月 95 小时（即妻子样本的平均值）的值加到丈夫的非工资收入中。在妻子的方程中，我们在她的非工资收入中加入丈夫收入的可比工具变量。在包括女户主在内的所有方程中，”第三产业 “家庭成员的实际、同期收入都被加入到非工资收入中。

对于妻子，我们还检验了一个带有 “大男子主义 “假设（Killingsworth，1976 年）的模型，即妻子将丈夫的收入视为外生收入，反之亦然。丈夫当时的实际收入被加到妻子的非工资收入中。该模型和上述模型得出的结果可能包含了对妻子的真实影响。

9. 其他自变量

除了公式（3）中的四个预算限制变量外，还包括家庭中的成人数量、儿童总数以及不同年龄段儿童的虚拟变量，这些变量共同代表了几种不同的影响（对家庭时间的需求、是否有其他人照看儿童、需要经济支持的人数等）。此外，还包括当地 SMSA 失业率和访谈时的季节（夏季为 1，非夏季为 0），以控制加里 SMSA 就业的周期性和季节性变化。此外，还加入了一个多户家庭变量，即家庭中另有一个家庭，该家庭可能需要分担收入、房租、开支等，因为这些家庭可能会得到一些经济支持，而方程中的收入变量无法反映这些支持。这些家庭中有一些参加了实验。

10. 其他问题

试验时间有限。正如许多观察家所指出的，持续时间有限可能是收入维持实验的最大缺点。然而，一些评论者自动假定，实验中的反应会因此小于永久性国家计划中的反应，但实际上存在着相反的效应（Metcalf，1973；Ashenfelter，1978）。如果收入效应是负的（即闲暇是一种正常物品），那么永久性计划确实会提供更多年的福利，从而产生更大的劳动力供给减少。但是，如果时际替代效应不为零，那么个人也会倾向于利用休闲价格下降的短期优势（相对于永久性计划而言），并倾向于过度响应。这两种对立力量的净效应是模糊的。

另外，正如 Rees 和 Watts（1975 年）所指出的，如果工人辞职后找工作的成本很高，或者很难稍微改变工时，那么短期试验可能会低估长期 NIT 的净效应。例如，成年男性对劳动力有很强的依附性，可能不愿意承担在短期 NIT 期间辞职的风险。

不过，我们认为，有限期限带来的偏差可能相对较小。例如，Metcalf（1974 年）开发了一种使用消费数据来估计无成本调整下的纯生命周期偏差的方法，并发现偏差很小–替代（税收）效应为 2%至 6%，收入（保障）效应为 8%至 27%。西雅图-丹佛试验的估算也许更为准确，因为该试验中三年期和五年期家庭都参加了。一些结果（Burtless 和 Greenberg，1978 年；Keeley 等人，1978 年；Robins 和 West，1978 年）表明，两组之间的反应差异很大，但并不显著。最正式的模型（Moffitt，1979 年）表明，3 年抽样调查中反应略有不足。至于调整成本，似乎是显著的（Robins 和 West，1978 年）。然而，为期三年的试验似乎并没有严重低估反应，因为大部分劳动力供应调整是在两到四年的时间内进行的。

霍桑效应。第二个问题是霍桑效应的可能性，如果实验对象对被研究行为本身而不是对实验处理产生反应，也许是因为反复采访或当地媒体的宣传，就会产生霍桑效应。在这种效应的通常情况下，实验对象会从访谈和/或宣传中了解到研究的目的，也可能了解到研究人员的偏见，并对这些知识本身做出反应，也许会改变自己的行为，以满足研究人员先前的期望。

霍桑效应不太可能成为维持收入实验中的一个严重问题，原因有二。首先，如果霍桑效应是叠加效应，对实验者和对照者都有影响（如重复访谈和宣传），那么实验与对照之间的差异可能不受影响。其次，霍桑效应通常只出现在小规模的社会实验中，在这些实验中，调查者和被试之间有广泛的直接接触。在一个有一千多名受试者的大型城市实验中，受试者与调查者之间的接触很少，福利确定过程也相对非个人化（家庭邮寄一份收入报告表，然后收到一张支票），因此，受试者将调查者的感知规范内化并相应调整其劳动供给是不可信的。

收入截断。最后，所有实验中的一个潜在问题是样本的收入截断。例如，在新泽西州的实验中，收入超过贫困线 1.5 倍的家庭都没有参加，这就造成了反应的严重偏差（Hausman 和 Wise，1976 年）。然而，在加里实验中对这一问题进行研究时，发现偏差很小，从经验上讲并不重要（Hausman 和 Wise，1977 年）。究其原因，似乎是有相对较多的高收入家庭参加了实验。虽然高收入家庭的数量少于低收入家庭，但显然足以填满收入分布，消除任何截断偏差。

D. 重述基本模式

在详细讨论了经验规格之后，我们有必要重述一下我们称之为 “基本 “的模型。需要估算的方程如下：

其中

H = 每月工作时数

w = 小时工资率

t = NIT 平均税率

D = 试验期间虚拟变量，如果为试验期间观测值，则等于 1，否则等于 0

Bo=零工时的 NIT 津贴

r = 非 NIT 平均税率

N = 零工时的非 NIT 收入

X = 其他变量向量。

如上所述，这一 “净 “模型中注册前的差异是通过将注册前的观测数据纳入方程，并通过估算注册前计算的净工资和非工资收入变量的系数来控制的。在方程中，系数 a₆和 a₇ 衡量入学前的 NIT 差异（如果有的话），系数 a₁ 和 a₂ 衡量试验的影响。也就是说，实验期间的虚拟变量 D 是用来 “剔除 “任何入学前差异的。

方程（4）是对所有 7 个实验期间访谈和 1 个注册前访谈的集合样本进行 Tobit 估计的，包括有数据可查的期间内的退出者和婚姻状况改变者。我们使用了注册前的工资率（非工人的预测工资率）。我们对所有这些程序进行了敏感性测试，将在第 II 章中讨论。

II. 研究结果

表 l 列出了公式（1）中 α 的估计值。通过使用两种不同的统计技术来控制可能存在的实验前与对照组之间的差异（见附录 E），提供了一系列估计值。该表显示了实验对就业状况和无条件工作时间的影响。结果显示，丈夫和女户主的劳动力供给明显减少，但妻子的劳动力供给没有减少。丈夫的就业状况下降了 2.7%至 4.9%，无条件工作时间下降了 2.9%至 6.5%。女户主的就业状况和无条件工时减少了 26%至 30%。应该认识到，女户主的影响是相对于对照组而言的，在对照组中，80%的女户主都在接受 AFDC 援助。

丈夫的结果与其他实验中的结果非常相似，从 l% 到 8%（Moffitt 和 Kehrer，即将出版）。因此，这应该会增加我们对男性 NIT 反应的一般数量级的信心。另一方面，妻子的结果与其他实验中的结果大相径庭，其他实验中的结果从 15% 到 55% 不等（Moffitt 和 Kehrer，即将出版）。一个可能的解释是，妻子的就业率非常低（15%）：在样本中的 545 位妻子中，只有不到 90 位在登记前有工作，实验组和对照组加起来都是如此。这可能会使实验组和对照组的行为差异难以在统计上发现。这可能是加里劳动力市场的结果，如前所述，加里的劳动力市场以钢铁工业为主，很少提供兼职工作。

与西雅图-丹佛试验中发现的 12%的反应相比，女户主的结果要大得多，而西雅图-丹佛试验是唯一一个旨在估算女户主反应的试验。两个实验中减少的小时数的绝对值相差无几，但考虑到加里样本的就业率和工作小时数要低得多，预计反应会小一些。这种差异似乎并不是因为实验中的种族人口不同造成的，因为在西雅图-丹佛的实验中没有发现种族之间有明显的统计学差异。另外，与西雅图（294 美元）和科罗拉多（242 美元）相比，印第安纳州的 AFDC 标准（1972 年四口之家每月 205 美元）要低得多，这可能会使加里的 NIT 净刺激（即 NIT 福利减去 AFDC 福利）更大。然而，西雅图-丹佛的 NIT 计划更为慷慨，弥补了这一差异。在这两次实验中，女户主每月的净刺激金额都在 100 美元左右。另一种可能是加里的税收和保障弹性更大。为了探究这一假设，有必要转到方程（4）的估计值。

A. 基本模式

表 2 显示了方程（4）的估计预算线系数⁸/。对于丈夫，结果显示收入效应较弱（在 20%的水平上显著），平均弹性为 5%，但净工资效应不显著。这些相当缺乏弹性的反应在壮年男性中很常见，并非特例。它们也与伯特莱斯和豪斯曼（1978 年）的估计值相同，后者只研究了男性，也发现净工资弹性不显著，收入弹性显著，为 5%。虽然本研究与他们的研究在模型上还有其他重要差异，但最重要的是对预算约束非线性的不同处理。结果的一致性表明，至少在这个样本上，平均税率程序并不是一个坏的近似值。这种一致性可能也是加里劳动力市场高度结构化的结果。约 65% 的丈夫在钢铁厂工作，只有 7% 的丈夫从事兼职工作（每周工作 l 至 34 小时）–其他人每周工作约 38 小时或根本不工作。这种灵活性的缺乏会使边际工时的调整变得困难，因此也会使平均程序–它抛弃了许多边际内税率的信息–成为一个令人满意的近似值。还应该指出的是，加里劳动力市场的这个方面也可以解释为什么在这里没有发现净工资（即税收）效应，而在其他实验中却发现了这种效应。如果不能增加边际工时，税率的降低可能不会增加工作强度。

⁸/表中列出了平均 Tobit 系数，因为它们是表 1 中总工时反应的相关解释因素。参见 McDonald 和 Moffitt（即将出版）。原始贝塔系数 s 可通过表脚注中的概率获得。方程中其他系数的估计值见附录 E。

对妻子的调查结果显示，净工资和收入的影响都不显著。这印证了上文所述的完全缺乏反应的情况。同样，样本的低就业率（15%）以及当地劳动力市场的职业结构也可能是部分原因。这种限制的另一个迹象是，与其他样本中妻子的兼职工作数量相比，兼职工作非常少，只占样本的 9%。

对女户主而言，收入效应明显为负，弹性为 0.23，但净工资效应不明显。对税率缺乏反应可能还是因为加里劳动力市场缺乏灵活性。但是，与丈夫一样，女户主也对保障做出了反应。事实上，丈夫和女户主的系数大小相当接近。这可能是因为女户主通常也必须为整个家庭提供收入，这一点与许多丈夫类似。

女户主保障效应的大小在很大程度上解释了为什么这里的反应大于西雅图-丹佛的反应。西雅图-丹佛的可比收入效应不到加里效应的三分之一（-2.02 对 -6.35）。将西雅图-丹佛的系数应用于加里担保和税率刺激，可以说明这种差异对反应的影响。这样一来，预测加里的反应为 26-30%，下降了二分之一（即 13-15%）。这解释了与西雅图-丹佛 12%的反应之间的大部分差异。

加里地区的女户主为何具有更强的收入效应尚不清楚。最有可能的解释是，西雅图-丹佛的女户主样本收入相当高，至少与加里的样本相比是如此。因此，西雅图-丹佛的女户主可能只是付出了更多的工作努力。例如，西雅图-丹佛的女户主平均每月工作 80 小时，而加里的女户主仅工作 31 小时。如果对 NIT 的反应存在非线性，在收入和工时水平较低时反应更大，这就可以解释这种差异。

表 2 还显示了非 NIT 收入变量的系数。最显著的区别在于 NIT 和非 NIT 系数的大小和/或显著性。相对于 NIT 系数，非 NIT 系数对丈夫的收入影响更显著、更大，对妻子的净工资影响显著，对女户主的收入影响更显著。 (不过，妻子的非 NIT 收入效应显著但为正数）。此外，系数差异在 5%的水平上显著。这些结果表明了将 NIT 税收和保障系数与非 NIT 收入系数分开估算的重要性。这也可以进一步解释上述本研究中的 NIT 估计值与其他实验研究中系数受限相同的估计值之间的一些差异。

对该方程进行了许多敏感性测试。我们使用 OLS 和广义最小二乘法而不是 Tobit 对方程进行了估计；通过滞后因变量而不是 “剔除 “入学前的待遇差异对入学前的差异进行了控制；对数据进行了平均而不是汇总；只对实验的中间一年进行了研究；使用了多种工资工具；等等。我们将在下一节讨论这些问题。结果表明，基本方程的估计值相当稳健，特别是考虑到许多系数的不显著性。也许最值得注意的是，这些检验都没有发现妻子的任何隐性反应。

a/所有系数均以 Tobit 指数的平均值进行评估。也就是说，如果 β 是系数向量，X 是自变量向量，F 是累积正态分布函数，表中的系数为 β F（Xβ/σ）。丈夫、妻子和女户主的 F（Xβ/σ）分别为 0.99、0.15 和 0.21。

b/除以 100。

B. 灵敏度测试

1. 因变量

表 3 显示了各种敏感性检验的结果，其中第一个检验涉及使用不同的因变量。所检验的另一个因变量是就业状况，其定义是：如果该人每月有 50% 或更多的时间在就业，则该因变量等于 1，否则等于 0。如表中的 probit 估计系数所示，就业状况与小时数的符号和显著性水平模式相同。此外，当 probit 系数乘以平均工时时，得出的隐含工时效应与 Tobit 工时效应非常接近（至少在基本系数. 是显著的）。这直接证明了大部分反应发生在就业状况上，也间接证明了工作时间在加里劳动力市场上缺乏灵活性。

2. 估算技术

工作时数的基本模型也是用普通最小二乘法（OLS）估算的；保证系数和净工资系数见表 3。这些估计值与（平均）Tobit 估计值非常接近。此外，就业状况方程也是用 OLS 和广义最小二乘法（GLS）估算的，GLS 方法旨在控制数据集的横截面时间序列性质（这是一个误差成分模型，具有常数个体效应和非自相关随机效应）。表中显示，OLS 估计值与 probit 估计值非常相似。GLS 估计值也接近 probit 估计值，但女户主除外，其两个系数均为负值；事实上，补偿替代效应为负值，这是一个难以置信的结果。最后，增加时期虚拟变量以消除集合数据中的时期效应对估计值的影响也很小。

3. 收入少报

使用 “有效 “就业状况因变量（即从政府记录中收集的因变量）进行的检验表明，少报的影响很小，因为其系数与仅使用访谈数据的经济回归中的系数非常相似。不过，应该指出的是，格林伯格等人（1979 年）也使用了同样的有效数据对这一问题进行了更深入的研究，并得出了相当不同的结论，至少对女户主而言是如此。因此，少报对答复的影响尚不清楚。详见 Greenberg 等人的论文。

4. 样本选择

该表还显示，重新添加被筛选出的群体（老年人、年轻人、自营职业者和残疾人）对丈夫和女户主的估计系数影响不大。然而，妻子工时方程中的系数却有很大不同，产生了负的收入效应和负的补偿替代效应。鉴于后者的不稳定性和较低的显著性水平，对这一结果不应给予太多重视。

我们还删除了退职家庭和非连续家庭，对托比特工时方程进行了重新估计。同时删除这两组家庭的原因是很难将它们区分开来（例如，许多夫妻家庭可能会因为分居而离开实验）。表中的估计值显示，丈夫和女户主的处理系数相当稳定（尽管女户主的收入和替代效应更加负面），妻子的系数同样不稳定，但在统计上非常不显著。

5. 参与前差异

如上文第 II-C 部分所述，控制参与前差异的另一种方法是估计 “滞后 “模型。在该模型中，只使用实验期间的观测值，因变量的登记前值被纳入劳动力供给方程的右侧。对 Tobit 小时数模型和 OLS 就业状况模型都进行了估计，结果见表。尽管在滞后模型中对丈夫就业状况的影响较小，但丈夫和女户主的待遇系数再次相对稳定。在工时方程中，妻子的系数显示出显著的负保障效应，但同时也显示出显著的负净工资效应（补偿替代效应也是负的）。这一反常结果可能是由滞后因变量引起的，由于滞后值含有测量误差，而且其本身是工资率、非工资收入等的函数，因此可能会使方程中的其他系数产生偏差。另一方面，与净值模型相比，妻子的就业状况结果显示滞后模型中的系数更小、更不显著。因此，我们再次发现没有证据表明妻子的反应是合理的。

6. 时间段

对中间年份的数据进行模型估计，无论是将每月的观测数据集中起来还是取平均值，影响都很小。对丈夫和女户主而言，收入效应略强，但替代效应相应较弱。改变分析的时间段，使用季度数据而不是月度数据，以及平均我们的观测数据而不是集中观测数据，对丈夫的收入系数影响也不大，对丈夫的净工资系数或妻子的任何一个系数的不显著性影响也不大。对女户主而言，季度汇总估计差别不大，但平均各期则会产生更多的负收入效应和更多的负替代效应。对于这种变化，没有现成的解释。

7. 工资率

使用不同的工资率对系数估计值的影响非常小（女户主的净工资系数是一个例外）。使用入学前工资率和同期工资率得出的估计值之间没有重大差异，这无疑是试验对工资率没有显著影响的结果。但同时，我们将净工资分为 NIT 和非 NIT 两部分，也在一定程度上消除了工资率对 NIT 系数影响的重要性–也就是说，（-Wt）仅通过 t 的变化而独立于 W 变化。

8. 家庭相互依存性

在妻子的非工资收入变量中使用丈夫当时的实际收入（而不是工具）确实增加了净工资效应，并且是显著的。然而，收入效应仍然为正，而且更大、更显著。因此，这种对家庭相互依存重要性的简单测试结果好坏参半。

9. 其他测试

还进行了其他敏感性测试，但未在表中显示。增加食品券的保障和税率（实际上是净工资差异）对估计系数没有影响。此外，对类似于 Keeley 等人（1978 年）的 “地方税率 “模型的估算结果好坏参半，显示出对某些群体的影响更大，但对其他群体的影响更反常。附录 G 讨论了这一测试的细节。

Ⅲ. 总结

我们在加里 NIT 实验中发现的结果显示，一些群体的工作积极性受到抑制，而另一些群体则没有。特别是，壮年已婚男性的显著反应占工作时间的 2.9%至 6.5%，而女性户主的反应占 25.9%至 30%。此外，这些反应似乎主要是对保障水平的反应，而不是对税率的反应。另一方面，无论是总体还是税率和保障水平，都没有发现妻子有任何反应。

需要对这些结果进行一些解释。至少就丈夫而言，这些发现与其他实验中的发现十分相似，尽管规模略小。正如本文所讨论的那样，有保障反应而无税率反应的发现可能是加里劳动力市场缺乏灵活性的结果。与工作时间相比，就业状况的反应似乎更大，这进一步证实了这一假设。就女户主而言，其反应比西雅图-丹佛实验中的反应要大得多，在西雅图-丹佛实验中，也发现了负反应，但从百分比上看要小得多。我们的感觉是，这主要是由于样本的特征不同造成的，因为与西雅图-丹佛实验相比，加里实验中的女户主收入更低，对 AFDC 的依赖程度更高。

妻子们的研究结果与其他实验的结果最为不同，在其他实验中，妻子们的工作积极性往往是所有群体中最高的。我们认为，部分原因在于加里劳动力市场的性质，它为女性提供的工作机会很少。事实上，在我们的样本中，妻子的就业率非常低（15%）。在某种程度上，这也是样本中工作妇女类型的结果，她们中的许多人是全职的、以职业为导向的工人，而不是兼职的临时工。尽管在最终分析中，这些因素不足以预期零反应，但它们确实提供了理由来预期零反应低于其他实验中的零反应。

结果还显示，NIT 和非 NIT 收入的测算效果大相径庭。这些差异可能是由持续时间有限的偏差造成的；一些证据（Moffitt，1979 年）表明可能是这样。另外，这些差异也可能是真正的差异–即人们对不同收入来源和税收与转移支付计划的实际反应可能并不相同–也可能是虚假的，仅仅是非实验数据的固有偏差造成的。这种差异的性质为今后的研究提供了一个重要领域。

转载请注明：《中国社会分红/基本收入研究网》　浏览量：208 views