说明文《强化程序》

360影视 2025-01-07 13:24 2

摘要:比率强化程序假设你拥有一家企业,并根据员工完成的工作量(例如,他们销售的每件商品)支付工资。在这种情况下你使用的就是比率强化程序。比率强化程序是指奖赏取决于正确反应的数量。心理学家进一步将比率强化程序区分为两种子类型,即固定比率和可变比率强化程序。当你在以下段

既然我们已经让你相信了间歇强化的威力,你应该知道它有两种主要形式,即两种强化程序(schedules of reinforcement)。

1. 其中一种是比率强化程序(ratio schedule),在一定次数的反应后提供奖赏。

2. 另一种被称为间隔强化程序(interval schedule),在一定时间间隔后提供加强。

让我们看看每种强化程序的优缺点。

比率强化程序 假设你拥有一家企业,并根据员工完成的工作量(例如,他们销售的每件商品)支付工资。在这种情况下你使用的就是比率强化程序。比率强化程序是指奖赏取决于正确反应的数量。心理学家进一步将比率强化程序区分为两种子类型,即固定比率和可变比率强化程序。当你在以下段落中读到它们时,请经常参考图4-5,它为每种强化类型都提供了一个直观摘要。

图4-5 强化程序

注:该图显示了由四种不同的强化程序产生的典型反应模式。(每条线上的短杠表示何时提供强化。)左上角那条线的陡峭角度显示了比率强化程序通常在一个时间段内如何比间隔强化程序带来更多的反应。

固定比率强化程序(fixed ratio schedules)在固定数量的反应后提供强化,无论多少,奖赏都是可以预测的。这种强化程序常常用于工业生产,例如,当工人按计件获得报酬时,即一定数量的生产对应一定数量的工资。因此,如果你拥有一家轮胎工厂,每生产5个轮胎就支付工人1美元,那么你使用的就是固定比率强化程序。在这种强化程序下,奖赏所需的工作量(反应数量)保持不变,但人们工作得越快,他们得到的钱就越多。也无怪乎管理层喜欢固定比率强化程序,因为反应率通常很高(Terry,2000;Whyte,1972)。换句话说,它可以让人们快速工作。零售店也使用固定比例的强化程序,例如,当你从当地某咖啡店购买10杯咖啡后获得一杯免费咖啡时,这会让你下一次回到同一家咖啡店喝咖啡。

可变比率强化程序(variable ratio schedules)不太可预测,强化似乎是随机的。电话推销员的工作依据的是可变比率强化程序,因为他们永远不知道在达成下一笔买卖之前必须拨打多少次电话。视频扑克游戏中的玩家面对的也是可变比率强化程序,他们永远不知道机器何时会给出回报。在这两种情况下,强化对反应的要求不断变化,使得反应速率很高,以至于可变比率强化程序通常比任何其他强化程序都能带来更多的反应。在演示可变比率强化程序的强大威力时,斯金纳展示了一只饥饿的鸽子每小时会啄一个圆盘12 000次,以获得平均每啄110次才获得一次的奖赏(Skinner,1953)!因为鸽子永远不知道下一次啄食是否会带来食物,所以它不停地快速啄食来追逐奖赏。

间隔强化程序 时间是间隔强化程序的关键。换句话说,对于间隔强化程序,强化取决于特定时间段内的反应(而非反应次数,见图4-5)。与比率强化程序类似,心理学家也将间隔强化程序区分为两类:固定间隔和可变间隔强化程序。

固定间隔强化程序(fixed interval schedules)在工作环境中常常出现,表现为定期薪水或上司在每月员工会议上的表扬。为每周测验而学习的学生也是根据固定时间间隔进行强化的。在所有这些情况下,时间间隔不会改变,因此奖赏之间的时间长度保持不变。你可能已发现,固定间隔强化一般会导致相对较低的反应率。具有讽刺意味的是,这是企业最广泛采用的强化程序。即使是在斯金纳箱中的大鼠,也很快就发现它只需要在一定间隔期间做有限的工作就能获得食物。比获得食物奖赏所需的次数更多地按下杠杆只是浪费能量。因此,固定间隔强化程序下的大鼠和人类可能一般只会显示微乎其微的产能,直到间隔接近结束时才快速增加反应率。(想想大学生们所面临的学期论文的截止日期,或者在考试前的死记硬背。)在图4-5中,你可以看到“扇形”的行为模式,这种行为模式是由每个间隔快结束时的一连串活动造成的。

可变间隔强化程序(variable interval schedules)可能是所有强化程序中最不可预测的。在可变间隔强化程序中,奖赏(或惩罚)之间的时间间隔并不是固定的。由此产生的反应率可能很高,但通常不如可变比率强化程序那么高。(你可以这样思考这个问题:你能在比率强化程序中控制奖赏的频率,因为你工作得越快,你就能越快达到奖赏所需的“魔法数”。但是,在间隔强化程序中,无论你工作快慢,你都不能让时间过得更快,因为你在指定的时间过去之前是不会收到奖赏的。)对于斯金纳箱中的一只鸽子或一只大鼠来说,可变间隔强化程序可能是这次等待30秒间隔,下次等待3分钟,再下次等待1分钟。课堂上的突击测验、老板的随机到访或工作中的药物测试都是可变间隔强化程序的例子。我们在等待电梯时可以观察到可变间隔强化程序的典型反应:因为每次按下呼叫按钮和电梯到达之间的延迟都不同,你的一些同伴就像斯金纳箱中的鸽子一样,会多次按下按钮,仿佛在不可预测的时间间隔内有更多的反应就能够控制电梯更快到达。

来源:倩怡教育分享

相关推荐