西雅图/丹佛收入维持实验的最终报告（四） – 中国社会分红/基本收入研究网

第 1 卷，第一部分历史与设计

作者：Robert G. Spiegelman 罗伯特·斯皮格尔曼

译者：刘歆瑶

第四章实验效果测量中的问题

本卷的大部分内容都涉及使用SIME / DIME中生成的数据来衡量实验效果。因此，重要的是要意识到在使用实验数据时可能出现的问题，以及如何在SIME / DIME中处理这些问题。

治疗效果的持续时间

一个家庭对限期计划的反应可能不同于对永久计划的反应。首先，收入效应会减弱（偏向于向下），因为在有限期试验中可获得的福利的时间较短，因此，其资本化现值低于无限期可获得的福利。其次，税率只在实验期间对接受者的工资率征收。因此，一旦实验结束，扣除税收的工资率将恢复到实验前的水平。换句话说，在实验期间，闲暇会被 “出售”，这意味着有限实验中的替代效应是向上偏置的。SIME / DIME 通过开展不同持续时间的实验来解决这一问题。家庭分别参加 3 年、5 年或 20 年的项目¹。除了持续时间外，其他项目的反应差异提供了一种衡量持续时间效应的方法。

¹在实验的第三年，约有 200 个家庭从对照组或 3 年治疗组转入 20 年计划。由于这一转变时间较晚，而且随后发现对 20 年期家庭的边际效应微乎其微，因此几乎所有以持续时间为变量的分析都是对 3 年期和 5 年期进行比较。

时间范围效应

除了持续时间对均衡反应程度的影响外，还有调整到任何均衡所需的时间问题。由于明显的制度限制，工作时间或每年工作周数的变化不可能立即发生（例如，一份工作可能要求每周工作 40 小时；因此，工作时间的变化可能需要更换工作，这需要时间）。第 III 部分第 1 章讨论了调整过程。讨论表明，调整过程是漫长的，只有经过相当长的时间（即丈夫约 2 年半，妻子约 3 年半，女户主约 4 年半[见 Robins 和 West，1978 年]），才能达到劳动力供给的均衡水平（即具有特定特征的人在特定情况下希望提供的工作数量）。这意味着劳动力供给反应的早期措施低估了长期反应。

场地差异

由于 NIT 试验的目标是为国家政策提供指导，因此，在其他条件相同的情况下，显然最好是进行全国性抽样，而不是针对具体地点进行抽样。由于行政管理和数据收集成本较高，而且难以向分散的样本提供信息服务、就业咨询和培训补贴，因此没有采用全国性样本。然而，收入维持实验总体上位于六个不同的地点（新泽西州实验的四个城市算作一个地点），为地点对财务处理的反应并不重要的假设提供了检验。四个实验之间以及西雅图和丹佛之间的比较，证明了特定地点的结果可以合理地推广到全国人口。

SIME / DIME 最初只计划在西雅图进行。以前的试验都在东部或中西部进行。但当 1970 年西雅图主要工业（航空航天）的变化使西雅图的失业率超过 10%时，西雅图地区的经济就不能再被认为代表了国家的一个重要部门。丹佛的失业率较低，将丹佛作为研究地点可以比较正常情况下和经济失调情况下的影响。

损耗

SIME / DIME 实验的设计目的很明确，就是要推断工作对负所得税计划的反应。实验的主要特点之一是能够比较随机抽取的实验组和对照组的行为。然而，这些推论的有效性在很大程度上取决于样本的完整性。样本流失是对样本完整性的一大威胁。当访谈者找不到某个家庭或该家庭拒绝再接受访谈时，就会出现样本流失。如果无法对最初选定的样本中的家庭进行重新访谈，则需要将这些家庭排除在与流失发生后的时期有关的分析之外。在 SIME / DIME 的管理过程中，我们非常重视制定应对流失的方法，并投入了大量的资源来尽量减少流失的发生。（这些工作在本卷第 II 部分有详细描述，在第 II 卷有详细讨论）。）

样本损耗可能会降低实验者与对照组之间的可比性，而这种可比性原本是由随机选取过程产生的。如果损耗过程是纯随机的，或者损耗过程中唯一的非随机成分是与可观察的预定变量之间的关系，那么这种可比性的降低就不会发生，在这种情况下，可以通过控制这些变量的影响来恢复可比性。但是，如果损耗与所研究的结果变量的值有关（这几乎是肯定的），那么实验组和对照组之间的比较可能会导致有偏差的推论。

尽管实验性评估和非实验性评估都存在类似的损耗偏差，但在实验情况下，这些偏差的程度可能会增加，因为对实验者和对照者而言，产生自然减员的过程可能不同。例如，在像 SIME / DIME 这样的收入维持实验中，实验性的 NIT 支付是实验家庭留在样本中的额外激励。此外，与收入较低的家庭相比，收入较高的家庭更有可能留在样本中。由于国家补贴的支付取决于收入，而收入又取决于工作时间和工资率，因此可以预计实验者的流失与实验期间的工作时间有关–这是一个关键的结果变量。在对照组中，自然减员与工作时间之间的关系无疑会有所不同。这种情况会导致对试验性 NIT 支付对工作时间的影响的估计出现偏差。本卷第三部分第一章、Robins 和 West（1978 年）以及 Pencavel 和 West（1978 年）对这些偏差进行了更详细的讨论。

SIME / DIME 的损耗程度

由于 SIME / DIMĖ 试验的设计者已经意识到样本流失的问题，因此，我们做了大量的工作来尽量减少样本流失的程度。要求家庭每月提交地址报告，以便在访谈时容易找到。只要这些家庭还在美国，就会被跟踪并保留在样本中。此外，还向完成访谈的家庭支付一定的费用，以补偿他们的时间和精力。尽管在整个实验过程中都在努力减少自然减员，但在 SIME / DIME 期间仍有大量自然减员。在实验的前2年半中，20%的丈夫、15%的妻子和 15%的单身女户主退出了实验²，这一比例与新泽西州收入维持实验中的情况大致相同。丈夫和妻子的流失率之所以不同，是因为家庭分离后的流失率不同。

²这个损耗率是指参加试验的家庭。它不包括 372 个被选中但拒绝报名的家庭（约占 6%），以及 512 个被选中但已搬离该地区或无法找到的家庭（约占 9%）。自然减员的统计数字也不包括拒绝接受筛选或实验前访谈的大量家庭。然而，由于这些访谈是在没有提及即将进行的实验的情况下进行的，因此没有理由认为这些拒绝访谈的家庭会产生任何反应偏差（详见 Murarka 和 Spiegelman，1978 年）。

表 1.8 按地点、种族和实验控制状况分列了 SIME / DIME 的流失率。就丈夫和妻子而言，西雅图和丹佛的自然减员率没有差别，但不同种族群体的自然减员率有差别，黑人和奇卡诺人的自然减员率略高于白人。相反，对于女户主而言，两地之间的差异显著，而族群差异则不显著。对于她们来说，丹佛的自然减员率要比西雅图高一些。在所有三个组别中，实验组和对照组的自然减员率差异显著。正如预期的那样，实验组比对照组更不容易退出实验。此外，在实验人群中，个人被分配到的项目类型也显示出一些有趣的对比。表 1.9 按分配的 NIT 项目列出了自然减员率，简单的X²检验（卡方检验）表明，对于实验者来说，项目之间的差异是显著的。该表表明，自然减员率与每个方案的慷慨程度有关，其中慷慨程度的定义是四口之家的收支平衡水平。例如，对于妻子来说，自然减员率最高的计划也具有最低的盈亏平衡水平（计划 F2），而自然减员率最低的是盈亏平衡水平第二高的计划（计划 F11）。

损耗概率

Pencavel 和 West（1978 年）估计了一个损耗概率模型。他们使用了与本卷第三部分第一章中对试验的劳动力供给效应分析相同的变量来建立试验处理效应模型。他们发现，实验处理引起的可支配收入的变化大大降低了丈夫、妻子和单身女户主自然减员的可能性。然而，实验引起的净工资率的变化只对单身女户主有显著影响，对她们来说，净工资率的提高增加了自然减员的概率。他们还发现，经历过婚姻变化的家庭中的人更有可能退出，最初居住在补贴住房中的人和家庭退出的可能性较小，在试验期间生育的女户主退出的可能性较小。他们的研究结果还证实了表 1.8 中的种族差异－－黑人和奇卡诺人的辍学率高于白人。家庭规模和组成对辍学率没有影响。咨询/培训处理往往会降低流失的概率。但是，效果很少显著。

报告错误

在社会实验中，受试者自己会报告大部分数据。报告行为会受到随机误差以及实验本身和整个社会的激励因素的影响。报告误差是其他实验误差来源的附加因素，它们会影响所用的分析方法。此外，实验对报告误差的影响本身也值得关注。

由于实验显然是在预算有限的情况下进行的，因此有必要根据数据领域的相对重要性、不准确的相对可能性以及少报的相对诱因来选择将资源用于何处。对于大多数类型的数据，要么误报的动机很小（家庭成员的年龄就是这类信息的一个例子），要么报告很容易被检查（家庭中的孩子数量就是一个例子）。而收入则不同。收入通常被课以重税，而且很容易被隐瞒。因此，SIME/DIME 对数据准确性分析的重点大多放在收入数据上。

为了尽量减少报告收入的误差，在操作和数据采集系统中采取了一些预防措施，本卷第 II 部分对此进行了介绍，第 II 卷对此进行了详细讨论。在分析实验－对照差异时所依据的访谈设计中，纳入了去尾交叉参考问题，使误报难以发生。其次，薪资分析人员会检查收入端口的任何特殊情况或突然变化。他们还不断检查福利记录，以发现未报告的福利支付情况。收入一般分为三类：工资收入、公共来源的非工资收入和私人来源的非工资收入。由于对工资收入征收高额税款会大大鼓励少报，因此工资收入数据不仅以月度总量的形式收集，而且还以每份工作的工资率和工作时间的形式收集。理想的情况是，所有非工资收入都按 100%征税，以确保非工资收入的变化代表实验处理。公共来源的非工资收入确实按 100%征税，但私人来源的非工资收入（更容易隐藏）只按 50%征税，以减少家庭隐藏非工资收入的动机，并减少放弃这一家庭收入来源的动机。

为了测量报告收入中的误差并确定 SIME / DIME 数据与其他数据源之间是否存在差异，我们对 10% 的样本进行了数据验证研究（Halsey , Murarka , Spiegelman , 1976），重点是个人收入来源。我们预计，不经常支付或支付额度不固定的收入流会被不准确地报告，这与支付额经常、相等且间隔紧密的收入流有关。由于许多非工资性收入流的支付频率较低或数额不等，而大多数工资性收入较为固定，因此我们预计工资性收入的报告将比非工资性收入更为准确。验证研究的结果倾向于支持这一推测，尽管在我们的样本中，某些类型的非工资收入的频率太低，无法进行可靠的统计推断。

一项大样本工资收入研究比较了向 SIME / DIME 报告的收入和向国内税收署（IRS）报告的 1040 和 1040A 表中的收入，结果表明，向 SIME / DIME 少报的收入在统计上是显著的，但幅度较小（Halsey，1980 年，第 42-45 页）。SIME / DIME 参与者平均每年向实验报告的收入比向国内税收署报告的收入少 100 到 300 美元，不到平均收入的 5 %。向 SIME / DIME 少报的金额差异约为 1000 美元，约为平均收入的五分之一。令人惊奇的是，这一差异似乎大致恒定，而不是与收入成正比，而且大到足以导致普通最小二乘法参数估计的明显误差。

然而，少报收入的现象并不普遍。我们注意到，多报收入和少报收入的人数几乎一样多。向 SIME / DIME 多报收入有两个原因。首先，向 SIME / DIME 多报的收入可能是向 IRS 少报的收入。打零工的收入（通常不会生成 W – 2 表格）是向国税局少报收入的主要原因。另一个原因是 SIME / DIME 参与者在每次面谈时都被要求回忆前 4 个月的数据。在某些情况下，当前的高收入水平可能被错误地归因于前几个月的低收入。要解决这些问题，有必要对个别案例进行进一步研究。对照组可能会出于自尊在访谈中多报收入，但不会在税表中多报收入，因为这样做的成本很高；但对于实验组来说，这种情况不太可能发生，因为他们会为这种行为付出较低的福利代价。

在第三项验证研究中，格林伯格和哈尔西（1980 年）试图直接测量少报对劳动力供应反应变量的影响。作者利用失业保险收入记录和社会保障收入（为避免披露而进行了分组），重新估计了劳动力供给模型，并得出结论认为，实验者的少报确实会使对劳动力供给的治疗效果的估计向上偏移。

验证研究本应与调查同时进行，因为随着时间的推移，相关资料来源的准确性、易获取性甚至可用性都会下降。但是，调查和验证研究之间的时间间隔有时长达 4 年，这一因素可能会削弱我们验证结果的可靠性。

参与者对实验的理解

我们认识到，参与者的反应不仅取决于治疗，还取决于他们对治疗的看法。如果没有详尽的调查技术，可能无法确定真实的看法，这超出了我们的能力，当然也超出了我们的意图。不过，我们还是努力促进与参与者的良好沟通，并至少对他们的语言理解能力有所了解。当然，后一种测量方法的困难在于，口头理解并不一定代表真正的理解。首先，如果人们知道他们需要知道什么，那么他们在某一特定时间对某一点缺乏了解可能只是反映了他们缺乏对知识的需要，如果需要的话，他们会发现的。更重要的是，真正的知识是通过行为传达的，而语言理解和行为之间的相关性远远小于 1。更重要的是，我们的低收入样本的口头表达能力可能还不足以应付问卷。例如，奇卡诺人的平均成绩比白人差很多。我们无法确定这是否表明奇卡诺斯人的理解能力较差，还是处理英语问卷的能力较差。

对参与者进行教育的程序主要有以下几种。首先，参加试验的家庭一经登记，就会有一名训练有素的登记员来访，用一个多小时的时间介绍试验情况、操作规则以及家庭可用来计算任何已知收入额的补助金的表格。每个 NIT 计划都有一个表格，这样家庭就不需要计算任何公式就可以估算出应得的补助金。其次，在西雅图和丹佛市的几个地方设立了永久性的外地办事处，并告知这些家庭，这些外地办事处的代表在那里的目的是回答他们有关该计划的询问和问题。第三，每月向家庭寄送一份详细的说明，介绍补助金的计算方法和程序。第四，在该家庭加入该计划一年后，Mathematica 的代表对该家庭进行了访问。在这次会面中，我们再次向该家庭介绍了该计划和补助金计算程序。此外，还讨论了自注册以来运作规则的所有变化，并鼓励该家庭提出问题。

当时——就在讨论之前——进行了一项简短的调查，以确定家庭对计划性质的理解程度³。调查问题分为五类：（1）计划资格，（2）工作努力，（3）家庭结构影响，（4）收入来源，以及（5）补助金计算。

³有关调查的详细描述，见 Halsey、Murarka 和 Spiegelman（1979 年）的研究报告。

对所谓的 “再教育 “调查的答复分析表明，西雅图和丹佛的家庭对整个计划的口头理解程度适中。西雅图家庭在整个调查中的平均正确率为 57%，而丹佛家庭的理解率为 51%。从调查结果中得出的一个非常重要的结论是，正确答案的百分比确实会因先前与所问事件的联系而改变。例如，关于在 SIME / DIME 框架下工作可以报销托儿服务费用的问题，如果受访者在此之前有过托儿服务费用，则其回答的正确率较高。同样，关于失业或失业后拒绝接受工作的影响的问题，如果受访者以前有过非自愿失业的经历，则回答得更好。我们发现，如果被调查者有一定的年收入，那么与没有年收入的被调查者相比，在使用描述收入与福利之间关系的年度福利表的能力上有明显的差异。因此，我们得出结论，平均答复低估了实际理解能力，因为它们没有考虑到人们会在不同行为或活动变得相关时发现这些行为或活动的影响这一事实。

Halsey、Murarka 和 Spiegelman（1979 年）还利用这项调查重新运行了一个最常用的劳动供给模型，该模型用于描述试验性治疗对工作努力的影响，并加入了理解力得分。这个变量对回归没有影响，这意味着理解力得分并没有改变治疗对劳动供给行为影响的测量。因此，我们没有发现任何证据表明，无法交流对计划的理解与参与者对实验的劳动力供给反应有关。

其他可能的偏差

研究的实验性质可能产生的其他问题包括霍桑效应、嫁妆效应和社区效应。如果提供月收入记录的行为影响了家庭报告的数据，就会产生霍桑效应。通过要求丹佛一半的对照家庭提交与实验家庭相同的月收入报告，对霍桑效应的程度进行了调查。结果表明，提交月收入报告的对照家庭与不提交月收入报告的对照家庭在访谈中的收入报告质量没有明显差异。

如果有资格获得支付的人可以将资格扩大到新配偶，那么在实验中就会出现嫁妆效应。SIME / DIME 中的这一规定为婚姻提供了经济激励。本卷第 V 部分将讨论 NIT 对婚姻的衡量效果可能存在的偏差。

社区效应，或在全社区或全国性计划中发生的社会态度和品味的变化，无法在使用分散样本的短期研究中复制。因此，社区效应在 SIME / DIME 中得到了明确的解决。饱和实验（包括特定地区内所有符合条件的家庭）可以提供更多有关这些效应的信息，但这样的设计在控制外部环境变化方面会带来其他严重的可能是无法克服的困难。

转载请注明：《中国社会分红/基本收入研究网》　浏览量：125 views

第四章 实验效果测量中的问题

第四章实验效果测量中的问题