西雅图/丹佛收入维持实验的最终报告（三） – 中国社会分红/基本收入研究网

第 1 卷，第一部分历史与设计

作者：Robert G. Spiegelman 罗伯特·斯皮格尔曼

译者：刘歆瑶

第三章样本选择和分配

在任何社会实验中，都会出现一个关键问题，即需要研究的确切人群，以及需要从这些人群中选择多少成员纳入研究样本。在本章中，我们将介绍纳入 SIME / DIME 样本的标准、将样本分配给处理的方法，以及实际参与实验的样本的特征。

样本选择标准

在实验开始时，接受经济待遇或对照组的资格仅限于特定的低收入家庭：已婚家庭（不一定有子女）和由一个或多个（不一定是已婚）成年人为户主并至少有一个受抚养子女的家庭。家庭的丈夫或单身女户主必须在身体上能够从事有报酬的工作，才能参加试验。残疾人被排除在外，首先是因为我们认为他们的劳动力供应反应不应该与健全人口的劳动力供应反应相混淆，其次是因为一些残疾人有资格享受一套单独的计划选择，如补充保障收入。为登记目的，残疾被定义为在筛查时和未来 3 年内任何妨碍个人工作的身体状况。丈夫或单身女性户主在登记时的年龄必须在 18 岁至 58 岁之间，因为人们认为实验对退休工人和老年人的影响与对年轻工人的影响有很大不同。为了确保每个种族群体都有足够多的户主，以可靠地估计种族效应，还规定了另一个条件，即保证黑人、白人或奇卡诺人户主的最低人数¹。

¹在登记前的访谈中，访谈者通过观察家庭单位中的男性或唯一户主，为家庭分配了一个种族变量。这些通过观察确定的种族标识符被用来将家庭划分为单元，以便分配到治疗中，并在几乎所有的分析中作为种族变量使用。在第二次定期访谈中，我们向每个家庭的户主提出了有关种族和民族血统的两个问题，以核实观察分类的正确性，并为单亲家庭和双亲家庭建立了种族和民族血统变量与种族分配的双向表。我们发现，只有 0.8%的单亲家庭和 1.2%的双亲家庭明显分类错误，另有 5%-7%的家庭状况不明确（见 Spiegelman 和 Miller，1974 年）。

申请资格进一步限制为：如果一个户主有工作，收入低于9,000 美元的家庭；如果两个户主都有工作，收入低于11,000 美元的家庭（根据1971年四口之家的收入计算）。实行收入限制的原因是，预计收入较高的家庭不会对试验或类似的全国性计划表现出可测量的劳动力供应反应。

在西雅图和丹佛，最终有 4,800 个家庭分几个步骤注册完成。有关登记过程的细节已在以前的著作（例如，Murarka 和 Spiegel- man，1978 年）中讨论过，可参见本卷第二部分，更深入的内容可参见第二卷。1970 年和 1971 年，西雅图共有 2,042 个家庭注册，1971 年和 1972 年，丹佛共有 2,758 个家庭注册。大约 60% 的抽样家庭有资格参加 NIT 计划；其余 40% 的家庭被指定为 NIT 对照组（其中一些家庭有资格参加咨询/培训处理）。

样本的处理分布²

²本节借鉴了 Keeley 和 Robins（1980 年，1981 年）以前的研究成果。

在西雅图和丹佛收入维持实验中，通过使用康利斯克-瓦茨分配模式的变体，将样本观察结果分配到财务和咨询/培训处理中，该模式与新泽西州、加里和农村收入维持实验中使用的基本模式相同，并被考虑用于其他社会实验中³。

³新泽西州负所得税实验中使用的 Conlisk – Watts 模型在 Conlisk 和 Watts ( 1969 年 ) 、 Metcalf ( 1977 年 ) 、 Rossi 和 Lyall ( 1976 年 ) 以及 Kershaw 和 Fair ( 1976 年 ) 中都有描述。关于该模型的一般性讨论见 Conlisk ( 1980 , 1981 ) 。Conlisk 和 Kurz ( 1972 ) 以及 Keeley 和 Robins ( 1980 , 1981 ) 对 SIME / DIME 分配模式进行了描述。最初，人们计划在健康保险实验中使用 Conlisk – Watts 模型（见 Newhouse，1972）。由于 Morris et al.( 1977 ) ，最终没有使用。

该模型的目的是以这样一种方式分配处理，使实验效果估计值的可靠性最大化。将样本分配到不同处理单元的过程包括将样本按两种家庭类型、三种种族、六种正常收入类别和两个地点进行分层。由于特定负所得税待遇的成本在很大程度上取决于正常收入，而且可能取决于用于对样本进行分层的其他变量，因此采用了 Conlisk Watts 模型，根据正常家庭收入水平分配待遇，这样分配到特定待遇的概率就取决于样本分层单元。因此，与简单的随机分配不同，实验处理与家庭特征是相关的。然而，在给定的样本分层单元内，处理是纯随机分配的。由于家庭特征与处理之间的相关性，在正确估计和解释对实验处理的反应时必须特别小心（见 Aaron，1975；Metcalf，1977；Keeley 和 Robins，1980，1981）。

在本章的其余部分，将回顾分配模型的理论及其在 SIME / DIME 中的应用，然后讨论该模型对正确测量和解释实验响应的影响。

分配模型理论

SIME / DIME 用于选择和分配样本的程序分为四个阶段。首先，确定一组实验处理（称为设计空间）；其次，确定实验预算；第三，通过分配模型的运行确定每个处理的样本要求；第四，确定样本位置并注册（见 Conlisk 和 Kurz，1972；Murarka 和 Spiegelman，1978）。尽管这四个阶段是高度相互关联的，但在本节的其余部分，我们将处理规范和样本选择过程视为既定过程，并将讨论重点放在分配过程上。

原则上，在预算给定的情况下，可以通过考虑不同样本观测的不同成本来提高实验心理反应估计值的可靠性。例如，考虑一种处理方法的情况。统计上的考虑表明，治疗观察数与对照观察数的比率应等于对照成本与治疗成本比率的平方根。如果一个治疗观测值的成本与一个控制观测值的成本相同，那么样本就应该在控制和实验之间平均分配，以获得最可靠的响应估计值。或者，如果治疗观察的成本是对照组的四倍，则应将三分之二的样本分配给对照组，三分之一分配给实验组。这一基本思想在 Conlisk – Watts 模型中被推广到多种治疗的情况和治疗成本取决于家庭特征的情况。

Conlisk Watts 模型的目标是最大限度地减小各种处理方法的估计实验反应方差的加权和，但要受成本约束，即考虑到不同的观察结果具有不同的成本。假定一个样本观测值的成本既取决于分配给它的具体处理方法，也取决于家庭的特征，主要是其正常收入。

分配模型的结果

由于家庭收入越高，给定治疗的预期 NIT 支付成本越低，因此低收入家庭更有可能被分配到低保障水平（或低盈亏平衡水平）的项目中，而高收入家庭更有可能被分配到高保障水平（或高盈亏平衡水平）的项目中。因此，与忽略观察成本与家庭收入之间关系的分配过程相比，这种分配过程会导致每个治疗观察的预期付款较低。由于预期平均支付额较低，给定的预算会产生更多的观察结果。然而，这一程序的另一个结果是，不同治疗类别（包括对照组）的收入分配不同。

表 1.4 和 1.5 按正常收入类别（简称为 E 级）列出了两大类家庭的经济待遇分布情况：夫妻家庭和单亲女户主家庭。样本包括 E 等级为 1 到 6 的所有最初登记的家庭⁴。按计划的慷慨程度（以补助金收支平衡水平衡量）对待遇进行了汇总⁵。对于每个 E 水平（行），列出了分配给每种处理的百分比⁶。每个表格的倒数第二行给出了总样本的分布（不同处理类别中的所有 E 水平），最后一行给出了每个处理类别的平均 E 水平。每个表格顶部和左侧的括号中是每个单元格中的家庭数⁷。

⁴ 在实际分配中，还包括 E7（正常收入为 11 000 美元至 13 000 美元）和 EO（正常收入不详）。表 1.4 和表 1.5 中的数字不包括 E7，因为他们都是对照组，而且与 EOS 一样，他们没有被分配模式正式分配。在本卷后续部分报告的许多分析中，E7 都包含在分析样本中。这不会带来特殊的估计问题，只要在方程的控制集中适当包含一个表示属于 E7 类别的虚拟变量即可。

⁵对于 SIME / DIME 中的恒定税率方案，补助金盈亏平衡水平由 S / te 得出。对于固定税率方案，补助金盈亏平衡水平由 ( te – √t² – 4rS ) / 2r ) 得出。其中 r ( = 0.025 ) 是每千美元收入平均税率的下降率。

⁶表 1.4 和表 1.5 所列的结果是根据实际分配情况得出的，与分配模式得出的理论分配情况有一定出入。

⁷在 SIME / DIME 模型中的实际分配受到一系列权重的影响，这些权重分配给每个 E 级、每个种族群体、每个家庭组成备选方案和每个处理方案。这些所谓的政策权重的目的是为了增加以下处理方法的相对权重。

对于夫妻家庭，表 1.4 显示，低 E 水平（E1 – E4）更有可能被分配到低补助金收支平衡水平的项目中，而高 E 水平（E5 和 E6）更有可能被分配到高补助金收支平衡水平的项目中，这与前面描述的模型的意图是一致的。x² 检验（自由度为 4）表明，除 E1 外，每个 E 水平内的处理分布与所有 E 水平的总体分布有显著差异。

分配到控制地位的结果表明，低 E 水平（E1-E4）被分配到控制地位的可能性较小，而高 E 水平（E5 和 E6）被分配到控制地位的可能性较大，因为 E5 和 E6 在康利克-瓦茨目标函数中控制处理的相对权重增加了。在表 1.5 中，同样的一般模式也适用于女户主家庭。高E水平更有可能成为对照组，而低E水平更有可能被分配到低补助金收支平衡水平方案中⁸。

⁸表 1.4 和表 1.5 中的结果是根据实际分配得出的，由于在填写某些单元格时遇到困难（见 Murarka 和 Spiegelman，1978 年和第二卷），实际分配与分配模式得出的实际分配有所不同。不过，样本的总体实际分配情况似乎与分配模式所决定的分配情况相当接近，而且没有系统的差异模式。以及对政策目的最重要的人口群体。因此，较宽松的计划比较宽松的计划更受重视，而那些高 E 水平和低治疗水平的组合基本上会使大多数家庭超过收支平衡水平。因此，较宽松计划的权重高于较宽松计划的权重，而高 E水平和低待遇水平的组合基本上会导致大多数家庭处于收支平衡水平以上，因此这些组合的权重被设为零。然而，对照 “处理 “的权重没有变化，因此 E5 和 E6 单元的相对对照权重较高。这些因素导致 E5 和 E6 单元被分配到对照组的概率更高，因此对照组的平均收入也更高。

赋值模型和赋值变量使用问题

正如 Keeley 和 Robins（1980，1981）所讨论的，分配模式的特点导致了几个潜在的问题，如果要对数据进行适当的分析和解释，就必须牢记这些问题。

假设的反应函数是一个方差分析模型，在这个模型中，家庭组成和种族与试验的其他要素是相互影响的。因此，分配模式假定，原则上可以为三个种族群体（黑人、墨西哥裔美国人和其他白人）中的两种家庭类型（单亲家庭和夫妻家庭）分别估算出不同的响应方程。在每个种族－家庭结构组别中，反应模型假定保障水平 ( S )、税率 ( T₁ )、咨询和培训待遇 ( M )、正常收入类别 ( E ）之间完全相互影响，简化假定不存在三阶交互作用，税率与正常收入类别或咨询和培训计划之间不存在交互作用。模型如下，其中 y 是研究变量对实验的反应（如工作时间）。

表 1.5.- 按正常收入类别分列的经济待遇分布情况－单身女户主家庭

*例如，S=5,600 美元，T=50%，E=7,000-9,000 美元，M-0 处理单元的系数的标准误差为 5.0 小时。要使每周 4 小时的反应显著，标准误差必须为 2.04 小时。由于标准误差 ~ 1 / Vn，其中 n 为样本量，要将标准误差减小到 2.04 小时，需要

与完全交互式模型中可能的 288 个系数相比，该模型需要为每个分组估计总共 61 个系数。在模型的第二次迭代中，引入了持续时间的两个备选值–3 年和 5 年。这一修改使系数数量增加了一倍。

所使用的效率标准函数是因变量预测误差的加权总和，用于右侧变量的每种可能组合。在成本函数等于预先分配的预算这一约束条件下，分配模型在每个种族和家庭结构组别内使这一标准函数最小化。

但这一程序没有提出一个先决问题：”预算是否足以获得统计上可靠的治疗效果？”预算是给定的，因此，分配模式只是解决了给定预算的最佳分配问题。事实上，由于系数（或单元）数量较多，SIME/DIME 样本分配模型中使用的响应函数并不能确定单个处理单元的有统计意义的响应。例如，在白人丈夫模型中，对1015个白人丈夫样本的第八个实验季度工作时间的回归在 1 % 的水平上是显著的（F = 2.88）；但是，没有一个单个处理系数在 5 % 的水平上是显著的。

在有 120 个处理变量的模型中，单个处理缺乏显著性并不奇怪。这一回归结果表明，如果要使用一个能充分利用独立处理单元的响应模型来找到具有统计意义的结果，可能需要比 SIME / DIME 实际使用的样本大六倍的样本。在这种情况下，SIME / DIME 大约 5,000 个家庭的样本必须增加到 30,000 个，才能使用完整的方差分析模型（不考虑持续时间）得出有意义的结果。

因此，本卷中报告的用于估算 SIME / DIME 实验效果的模型要么是分组计划，要么使用了对行为反应模型施加 “理论 “的参数化。然而，应该始终牢记的是，由于分配过程，实验者与对照组之间或不同处理的实验者之间的简单均值差异并不是对项目效果的无偏估计。为了避免在测量反应时出现偏差，所有用于确定处理的变量都必须作为解释变量包含在任何估计模型中。

如果分配变量只影响行为的平均差异，那么将这些变量与治疗变量一起纳入就可以很容易地解决这个问题。但是，如果分配变量影响到反应（例如，较低 E 水平 [ 收入 ] 的家庭比较高 E 水平 [ 收入 ] 的家庭对某一治疗的反应更大），那么分配变量也必须与治疗变量相互作用（见详细讨论）。如果分配变量影响反应（例如，较低 E 水平 [ 收入 ] 的家庭比较高 E 水平 [ 收入 ] 的家庭对给定处理的反应更大），那么分配变量也必须与处理变量相互影响（见 Keeley 和 Robins，1980 年，以及 Robins 和 West，本卷第三部分对该理论的详细讨论和介绍）。

注册时的样本特征

最初的实验样本共有 4,800 个家庭单位，其中 2,042 个家庭在西雅图注册，2,758 个在丹佛注册。丹佛市的登记人数较多，是因为决定在丹佛市的样本中只包括一组西班牙裔家庭。西语裔在西雅图人口中所占比例不够大，因此没有在该市进行抽样，但丹佛市有足够的西语裔家庭，而且这也是抽样设计中最初没有包括的一个种族群体。抽样包括 2,031 个以单身成年人为户主的家庭和 2,769 个以夫妇为户主的家庭（其中有些家庭没有子女）。夫妇为户主的家庭数量较多，这是因为在分配模型中应用了政策加权（见本章脚注 7），由于政策上对夫妇的反应更感兴趣，因此政策加权更倾向于夫妇，而且模型的统计要求也倾向于夫妇为户主的家庭，以补偿夫妇改变家庭状况的更大趋势。总体而言，SIME / DIME 样本特征的分布是由分配模式的要求决定的。要估计 NIT 对任何其他人群的影响，必须预测每个人群的行为反应（种族、家庭状况等），并分配适当的权重以确定人群的平均反应。

样本分布在四个主要处理组中。（由于 SIME / DIME 主要由两个同时进行的实验组成，一个家庭可能在一个处理组中是实验组，在另一个处理组中是对照组）。为了测试实验中咨询/培训和财务部分的单独效果和综合效果，所有四个单元都被占用。在经济待遇方面，对样本进行了划分，57% 的原始家庭被分配到经济待遇中，43% 的家庭被分配到对照组中。

表 1.6 显示了按分配过程中使用的收入类别划分的样本分布情况。收入包括工作收入和资本再投入，不包括转移性收入。尽管 SIME / DIME 是一项福利类型的计划，但只有三分之一的被选家庭当时参加了主要的福利计划 AFDC。大多数家庭都是工作家庭，他们可能正在接受其他转移支付项目，如公共住房、食品券或失业保险，但一般不被视为福利家庭。选择标准扩大了收入基础，远远超出了现有的福利范围，因为实验的主要问题是 “非福利、低收入家庭对 NIT 的反应如何？”

如上所述，最初注册的家庭中有 43% 属于 NIT 对照组。那些没有参加咨询/培训治疗的家庭被视为无效对照组，因为他们没有接受任何治疗。不过，他们与实验家庭接受了相同的访谈⁹。

⁹他们只要向 Mathematica 办事处寄一张明信片，说明他们目前的地址，就可以每月领取 8 美元。这样做是为了避免失去搬家的家庭。为了确定实验家庭提交收入报告是否会对劳动力市场行为产生影响，丹佛 50% 的对照家庭提交了与领取 NIT 津贴的家庭相同的收入报告。对报告重要性的检验并未表明提交表格（IRFs）对劳动力供给反应有任何影响。在大多数劳动力供给模型中都包含了 IRF – 控制变量，但在统计上从来没有显著性。这一点非常重要，因为相反的结果将表明，我们通过比较实验家庭和对照家庭的报告行为而得出的实验效果估计值受到了报告制度差异的影响（见第 III 部分第 1 章）。

由于实验设计的本质是对照组的存在，因此了解对照组在社会实验中的作用非常重要。对照组与实验组的区别仅在于对照组不接受任何治疗。然而，在测量问题上，这并不像乍看起来那么简单或明显。比较任何单一 NIT 处理的响应变量（如每年工作时数）的平均值（例如，3800 美元的支持水平和 50% 的税率）与对照组变量的平均值相比较，就能显示出治疗的影响。但是，如果我们想用对单位支持和税收变化的正常化反应来解释结果，我们必须了解对照组的更多情况，而不是他们没有接受处理。为了衡量税收效应，我们必须知道对照组面临的税率。这个税率肯定不会为零，因为对照组是社会中的普通家庭，他们面临的税制存在于治疗环境之外，包括正所得税和对照组家庭可能参与的其他收入条件项目所征收的税。衡量 NIT 效果需要了解对照家庭所获得的转移支付。由于三分之一的对照家庭参加的是美国家庭与儿童发展基金，其他家庭参加的是正常环境中存在的各种计划，因此对照家庭平均也有正的转移支付。必须能够衡量对照环境中的税收和转移支付情况，才能知道治疗所造成的真正差异。否则，实验与对照组之间的差异（即实验反应）就不能推断出对任何其他人群的影响，也不能推断出对除实验中测试的人群以外的任何实验处理组合的影响。表 1.7 显示了被试在注册时的一些特征（即他们的 E 级分布、AFDC 百分比、平均收入及其他特征），这些特征可能对与实验被试进行比较非常重要。

表 1.7.- 不同收入组别的单亲和双亲对照家庭的公共转移支付月平均值和 AFDC 月平均值－－按收入组别分列

转载请注明：《中国社会分红/基本收入研究网》　浏览量：152 views

第三章 样本选择和分配

第三章样本选择和分配