摘要:人类的所有活动至少有一部分发生在物理空间中,通过建模社会活动的空间模式,可以帮助我们更好地解释各种社会学现象和结果。本文回顾了社会学家可以用来分析社会现象的一系列空间分析方法,并将其使用的空间数据归纳为以下三类:一是以地球表面多边形为单位的区域数据,二是以经纬
社会世界的空间分析
摘要:
作者简介:
Michael D.M. Bader,约翰霍普金斯大学,社会学系
文献来源:
Bader, M. D. (2025). Spatial analysis of the social world. Annual Review of Sociology. https://doi.org/10.1146/annurev-soc-030921-033618.译者:
Lilfish
本文作者:Michael D.M. Bader
引言
几乎所有的人类活动都发生在地球表面,因此,无论是否被测量,社会互动都可以被地理定位到地球表面的位置。将空间融入我们的分析中,实际上是将社会生活锚定于物质条件,因为这些地点将人们与特定的地方联系在一起。在人口与环境交汇处,物理属性的影响(包括灾害发生地、污染流动路径和生态条件)均属于社会学研究的范围。同样,邻里环境及其塑造的日常模式中所展开的社会过程与结果,也是社会学的重要关注对象。空间还可以帮助我们将认知过程与物理条件联系起来:当人们因对某地的感知而迁徙、投资或回避时,这些感知便对社会产生了实质性影响。
尽管所有社会过程都发生在空间中,但这一现实却很少被纳入社会学研究,其在很大程度上是因为空间分析往往被视为解决统计推断问题的一种手段,而非提供创新框架以研究社会生活如何塑造及被空间模式塑造,以至于大多数研究重点更多放在分析阶段的模型特性上,统计建模技术的创新通常被看得比空间方法的实际应用更为重要。然而,各种空间分析的工具实际上已经有效发展,其允许我们提出——更重要的是回答——关于空间如何影响具有社会学意义结果的实质性问题。
本文介绍了社会学家常用的三种空间数据分析方法,并描述三种数据类型中普遍存在的特定问题。为了保证探讨充分,本文仅聚焦于定量方法。针对不同类型数据而开发的大量方法,为解释社会生活空间模式提供了许多可能性。要回答这些问题,必须清晰地发展出有关空间如何产生影响的理论,但目前这些理论往往缺失。最好的研究往往来源于社会学家明确提出空间作用的具体假设,并据此构建出更好地解释空间如何影响社会生活的测量指标。有时,即使研究者持有的只是区域数据,假设的空间过程也可能提示他们使用针对点数据开发的方法,从而提高模型的解释力。在有机会收集新数据时,明确关于空间过程如何发挥作用的假设,有助于收集到更契合理论需要的空间数据,从而更好地解释社会世界中的空间模式。
区域数据分析
区域数据(areal data)是将信息编码到地球表面上的多边形单位中,这些单位反映了某种有意义的空间划分,例如国家、州或县等国家以下的政治单位,以及学校学区、警区或人口普查小区等行政区划单位。这些区域单位的定义或构建过程,是研究社会学问题的关键分析活动。一些区域边界反映了强有力的制度安排,例如国家或县的边界,而且可能构建了具有意义的经济、政治和社会认同。而其他一些区域边界更多是为了行政便利所设,但并不具有强烈的社会认同,例如人口普查小区或邮政投递区。
利用空间边界不连续性识别因果效应
处理区域数据的第一种方法,是将地理实体的空间边界作为一种策略,用以在实验或准实验设计中识别暴露效应。研究者可以在空间实体之间进行随机实验,以建立因果关系,例如测量地方污名对消费者互动的影响,以及物理环境的改造对暴力行为的影响。当地理边界划分了某一条件的暴露区域时,这些边界就提供了一个准实验的机会,尤其是在邻近区域中只有一边发生变化的情境下。如果地理定义的暴露变量对结果的影响在边界处出现估计值的不连续性,这种不连续就构成了地理断点回归设计(geographic analog to temporal regression discontinuity)。一种更强的识别策略是将地理上的不连续性与边界上的时间不连续性结合起来。
利用分层线性模型分析地理聚集
在没有强识别条件的情况下,大多数分析区域数据的工作都将问题视为模型设定错误。当预测结果的误差中存在空间模式时,就违反了传统假设中误差项独立同分布的要求。空间方法正是为了解决这些由不完美测量和不完全模型设定所引起的偏差,例如分层线性模型(Hierarchical Linear Models, HLM),它考虑到在同一地理单位内的个体往往具有相似的结果,因此误差在地理单位内部是相关的。HLM通过将误差分解为两部分来处理这种聚集且非随机的误差:一部分是在地理单位内共享的,另一部分是个体层面的。这种地理聚集程度可以通过组内相关系数(intraclass correlation coefficient,ICC)来衡量,它表示地理单位内结果变异所占的总变异比例。ICC可通过公式1的多层方差分析模型计算:
其中,Y为结果变量,Z为一个N×J的矩阵,其中每一列表示第i个个体是否属于第j个群体的指示变量。Y围绕条件均值γ₀₀波动,误差包含两个部分:uj 表示每个地理单位j的平均偏离值,εij表示个体i对其所在群体平均值的偏离。ICC就是将u的方差除以总方差。当结果的聚集现象来自结构效应(例如相似个体集中到同一区域)、情境效应(例如由于共同暴露环境而导致的相似性),或来自空间分布的测量偏差(例如种族偏见导致的犯罪感知误差),模型本身难以揭示是哪一来源所致,因此在缺乏因果识别策略的前提下需要谨慎解读。虽然这些模型有时被称为“非空间模型”(aspatial models),但这说法并不严谨,因为它们实际上测量了处于相同地理环境下个体之间的相似性。更准确地说,它们是处理个体聚集性,而不是处理地理实体之间的空间关系。
利用空间计量经济学分析空间关系
研究社会生活空间模式的第二种方法是使用以空间计量经济学为名共同开发的一系列模型。通过这一系列模型,研究者可以研究区域单位之间的关系。空间计量经济学模型系列可以用公式2中的嵌套空间模型的一般形式表示。
除最极端的假设外,公式2中的完整模型在其他所有假设下都是无法识别的,即使理论上可以识别,其参数也几乎无法解释。尽管如此,它仍然具有启发性,因为其中的参数覆盖了空间效应对结果变量影响的各种可能类型。估计这些空间计量模型的方法包括:两阶段最小二乘法(2SLS)、最大似然估计法(MLE)和贝叶斯方法,后两种随着计算能力的提升变得越来越常见。在这些模型中,分析者通过空间权重矩阵W来编码地理实体之间的预期空间关系。这个N×N的矩阵中,元素表示地理实体之间的联系,而对角线元素都设为0。常见的做法是使用邻接矩阵(adjacency matrix):若地理单位Ni与Nj相邻,则W中对应元素为1,否则为0。研究者也可以使用其他方式加权,比如边界长度、道路连接数、空间衰减函数,以及其他根据理论或实证设定的相关标准。虽然研究者常被提醒要谨慎设定W,但研究表明,常用的设定(尤其是一阶邻接矩阵)通常不会导致对空间效应的误解。因此,使用简单邻接矩阵的简洁性,往往优于使用复杂权重矩阵所带来的解释困境。
接下来模型根据研究者对地理单位间如何交互的假设,来刻画空间模式对结果的影响。如果假设一个单位的变化会引发整个样本中一系列调整,最终形成一个新的长期稳态,那么就应当使用全局溢出效应(global spillover)假设的模型。在这种情境下,一个单位的结果不仅受相邻单位的结果影响,而且其相邻单位的结果又会继续影响其他相邻单位,形成连锁反应。模型中的参数ρ表示再循环溢出效应产生的空间相关性,而β与θ分别估计X(本地单位的自变量)和WX(邻近单位的自变量)对结果的影响。若只保留这几个项,便构成了空间杜宾模型(Spatial Durbin Model, SDM):Y = ρWY + Xβ + WXθ + ε,该模型已被广泛应用于社会学研究,如暴力对出生结果的影响、种族仇恨犯罪的空间分布、美国南方私刑的地理格局和法国“文明化进程”的理论检验。需要强调的是,这些模型应被视为对均衡状态的建模,也就是说,当一个自变量发生变化时,空间效应会影响所有单位的结果,而非只影响邻近单位。因此,对某一自变量的边际空间效应,必须将直接效应(β)与间接效应(θ)、再加上空间相关系数(ρ)加权计算而得。如果研究者想衡量某单位的变化仅对邻近单位产生的边际影响,应使用局部溢出效应假设(local spillovers)的模型。这种模型中应包含WX(邻近单位的自变量)和Wu(空间相关误差)两项,即:Y = Xβ + WXθ + λWu + ε,若不包含Wu(即u=0),模型退化为空间滞后自变量模型(spatial lag of X model,SLX),该模型可以对自变量的局部空间溢出效应进行无偏估计。如果θ = 0(WX无效),则简化为空间误差模型(spatial error model,SEM),也称空间移动平均模型(spatial moving average model,SMA)。有研究者尝试将HLM模型的聚类误差(clustered errors)与空间模型的关系误差(relational errors)同时建模。但在大多数情况下,研究者更倾向于构建适当的空间聚集变量或空间滞后变量(spatially lagged variables),以解释残差中的空间变异。
社会学问题往往关心的是某一地点的变化如何影响其邻近个体或地点的结果,而较少关注该地点的边际变化会如何改变整个区域范围内的结构关系。LeSage(2014)指出,在区域科学领域,局部溢出模型,尤其是SLX模型,尚未得到充分运用,在社会学领域,这种情况同样存在。SLX模型的优势包括可以通过标准统计软件轻松估计;对模型设定错误具有稳健性;更重要的是,它使社会学家能够聚焦于解释性变量——即探讨空间因素如何影响社会结果。事实上,考虑到社会学研究核心是解释空间变异的社会机制,未来研究相比于在建模技术上的创新,或许更应优先投入到创造性空间变量的开发中。Elcheroth 等(2013)提出,应将更多注意力放在解释变量上,并通过自身研究提供了有力例证:他们构建了反映前南斯拉夫地区族群团结空间格局的指标,用以解释战时暴行中“指责归属”的空间差异。其他相关研究包括:Crowder & South(2008)使用周边邻里种族构成的空间变量,建模其对住宅迁移的影响;Xu & Tian(2020)则构建空间变量,展示在中国“大跃进”期间,虚报粮食产量的行为在地级行政区内部具有空间扩散性,但在行政区边界之间则未发生扩散。这些研究虽然采用了不同版本的SLX模型,但其共同之处在于:明确指出空间过程如何预测研究结果,并据此开发出具有说服力的空间索引变量以检验相关机制。
点数据分析
另一些数据可以通过经纬度坐标进行定位。例如,家庭住址可转换为经纬度坐标,或在数据收集时通过全球定位系统(GPS)记录位置。研究者可以直接将这些坐标与研究问题中的关键位置间的距离作为变量引入模型,或使用坐标之间的距离来推断某种扩散过程。本节还涵盖栅格数据(raster data),这类数据记录了与像素关联的信息,通常表示为地球表面上的点,可能来源于卫星或航空影像、物理观测(如降水量),或模拟输出结果(有关这些数据的回顾性综述,可见Entwisle,2021)。因此,点数据与栅格数据的共同潜力在于,它们能让我们测量地球表面上的连续空间变化。
使用距离作为自变量分析空间影响
将距离作为自变量,是将空间因素纳入社会学研究的一种直接方式,通常足以回答所关注的研究问题。若某一社会现象或过程可用一个具体地点表示,那么与该地点之间的距离就可以用来预测感兴趣的社会结果,例如研究地理距离如何影响企业创新和投资中的网络关系维度等。但构建具有理论意义的距离度量指标时需谨慎,以尊重物理和社会现实,例如在测量长距离时,应使用大圆距离(great-circle distance)来考虑地球曲率;在考虑社会现实时,研究者应选用与研究问题匹配的路径度量方式,例如城市中的街道网络、办公室布局,或考虑影响衰减形式,如暴力或犯罪的空间衰减。
通过多点平滑处理分析空间暴露
上述逻辑可进一步扩展至多个点源,以测量整个研究区域的空间暴露模式。这种方法在地理学中被称为引力模型(gravity measures),其核心假设是:空间暴露可来自多个相同类型的社会条件或过程所产生的影响。研究者可以计算某一地点受多个点源共同作用的暴露总量,并设定函数形式允许每个点源的影响程度不同。Reardon & O’Sullivan(2004)利用这一逻辑解决了一个问题:如何在不依赖将个体地址汇总为邻里单位的前提下,更准确地测量种族隔离。他们对研究区域中所有点的人口应用距离衰减函数和带宽加权,计算种族群体数量。这些计算产生了一张空间平滑面,可以在研究区域的任意位置进行计算,本质上形成了一个栅格数据集。该方法广泛用于测量生态和社会环境条件暴露的差异,并可作为SLX模型中空间滞后自变量的变量来源。
利用栅格数据分析连续空间过程的暴露
栅格数据的质量通常取决于图像的分辨率,即每个像素所代表的地表面积大小。每个像素在分析中通常可简化为其中心点。通过色调(hue)、饱和度(saturation)和亮度(intensity)等图像识别技术,可以确定该像素的特征。这类数据特别适用于对数据进行归一化处理,例如在全球范围内构建统一的“城市化水平”测度,因为各国统计机构在城市定义上存在差异。这些数据通常被用于个体层面的回归分析(包括空间计量模型)。例如,Legewie & Schaeffer(2016)使用栅格数据对纽约市的街区种族构成进行处理,识别出明显的种族隔离边界,并发现这些边界与市政热线“骚扰电话”的报告数量有关。
利用地质统计学分析样本数据的暴露
当研究者掌握的是所有点源的完整清单时,引力模型是一种有效的方法。然而,在实际研究中,我们往往只能获取某些理论相关变量在部分地点的样本数据。在这种情境下,地质统计方法(geostatistical methods),通常称为克里金法(kriging)或高斯过程回归(Gaussian process regression)的方法,能够在这些样本点之间进行值的插值,并据此构建平滑化的空间变量用于后续分析。这种方法将非采样位置的变量值估算为采样位置的观测值向量Y乘以权重向量λ的和,估计公式3如下:
这一模型本质上体现了一种条件自回归过程(Conditional Autoregressive Process),即某点的估计值依赖于其周围其他点的观测值。条件成份体现在权重λ,λ计算依赖于一个空间协方差函数,其作为点间距离的函数来衡量点间的相似性。具体权重的计算如下(公式4):
另一种在社会学中尚未广泛使用但极具潜力的做法为普通克里金法(universal kriging):在克里金回归中引入解释变量,从而使协方差函数受变量影响。这种方法在公共卫生研究中已有相关应用(如 Mooney et al. 2020),但社会学尚待开发。地质统计学方法明确地建模了以点为基础的空间扩散过程。这正好契合社会学中许多关于空间影响的理论直觉,尤其是那些强调条件相关性的理论。通过这一方法,研究者可以将某一变量的空间连续变异在整个研究区域中进行插值估计,之后可以将其汇总为更大单位的变量,以减少测量误差。与前述基于空间平滑的加权方法相比,地质统计模型有两个显著优势:不需要所有地点的变量值;不仅考虑与观测点的距离,也考虑观测点之间的空间相关性。第二点在样本点分布不均时尤为重要。
空间关系的分析
一种不同于传统空间数据分析的社会学研究路径,是关注空间如何影响人与人之间或人与地点之间的“关系”(ties)。空间关系数据帮助社会学家分析空间如何影响社会关系,或者反过来,社会关系如何塑造空间分布。这一“关系取向”的空间分析路径,在实质上与社会网络分析密切相关。当我们分析的是“关系是否存在”这一离散结果时(无论这些关系是社会的、空间的或两者兼具),这种联系取向的模型便与社会网络分析模型有天然的理论和方法关联。
通过二元关系建模地点特征
前面几节的模型关注的是空间变量对结果的影响,而另一种做法则是将“地点”视为一个个具有特征属性的离散实体,并研究人与这些地点之间的联系结构。Quillian(2015)称这种做法为“基于地点的社会学”(place-based sociology),其方法依赖的是具有二元关系结构的模型。这种“二元关系取向”提供了一种视角,让社会学家考察个体为何会被某些空间所吸引,而不是被其他空间所吸引。这尤其适用于解释人们如何与他们并不直接占据的空间建立联系的机制,例如解释种族对居住偏好的影响;研究社会资本对迁移与流动决策的影响;分析择校行为;探讨医学诊断信息的扩散机制;研究人们对邻里环境的认知与印象等。在方法上,研究者可使用离散选择模型(discrete choice models),尤其是条件Logit模型(conditional logit model),来评估地点特征对人与地点是否形成联系的影响。人与地点之间的“吸引力”水平可建模为(公式5):
其中,Zkj表示地点j的第k个特征;Xmi表示个体i的第m个特征;δmk表示个体与地点特征交互作用的影响;εji是误差项。在此模型中,每个人i对所有J个地点都有一个可计算的“吸引力”值。若我们假设个体在选择地点时,选择的概率彼此独立(independence of irrelevant alternatives, IIA,无关选项独立假设),那么人与某地点形成联系的概率可以表示为(公式6):
上述参数可以通过最大似然法进行估计。若地点总数J较大,可采用采样方式从中选取一部分集合,以提高模型估计的可行性。也可使用多阶段选择模型(multistage decision models)来刻画更复杂的空间选择逻辑。值得注意的是,条件Logit模型在特定条件下与指数随机图模型(exponential random graph models,ERGMs)是密切相关的。事实上,在将数据结构设定为网络格状结构(lattice data)时,社会网络与空间分析往往相互借鉴。这一跨领域融合的一项重要成果,是开发出能够同时建模社会网络结构和空间条件的框架。不同于空间计量模型中空间权重矩阵W的设定对结果影响较小,这类模型中空间衰减函数的设定会显著影响空间距离对社会联系的估计。研究发现,距离对个体之间是否建立联系具有稳定的空间影响,但对整个互动网络结构的影响则较弱。
使用活动空间分析多个地点的暴露
另一活跃的研究方向是利用“空间联系”概念,来构建衡量人们日常活动所涉及的多个地点的变量,这一方法通常称为活动空间分析(activity space analysis)。该方法源于人文地理学中 的“时空测量”概念,也深植于社会学传统。活动空间的测量主要集中在如何量化个体在一天中到访的多个地点。Matthews(2011,Matthews & Yang,2013)将这一现象称为空间上的一夫多妻制(spatial polygamy),强调个体不只属于一个空间单位。以下是三类常见方法:1. 多边形方法(Polygon-Based Methods):研究人员围绕个体在研究期内到访的离散地点绘制多边形,例如凸包(convex hull)方法,以所到访地点为顶点,连接形成一个所有内角不大于180°的最小包围区域。2. 聚类算法方法(Clustering Algorithms):使用空间聚类算法识别地理区域,基于地点之间的联系。例如,Wang 等人(2018;见 Phillips et al. 2021)使用推特的地理标签数据(geotagged posts),利用密度聚类算法别出用户的“家庭社区”,并进一步分析其在其他地区的活动轨迹。3. 基于时间分配的权重方法(Time-Weighted Exposure Methods):根据个体在各地点停留的时间,构建暴露测量;数据可来源于手机定位数据或生态瞬时评估(ecological momentary assessment,EMA),即将小型调查推送到用户设备并附加地理位置;最终暴露变量通过对各地点暴露条件加权平均计算而得。例如,基于“凸包方法”和 EMA 数据的研究发现,城市中非裔美国人居民往往在大多数时间内处于非黑人占多数的社区,这是因为他们日常生活中的组织性需求(如工作、教育、服务)迫使他们前往这些区域。然而,这类暴露测量存在一个重要局限性:它们通常基于单一时间点的人口特征。也就是说,我们测量的是某一时间点上某地点的居民特征——但现实中,个体在移动,其他社区的居民也在移动。因此,基于地点特征的暴露度量不一定准确反映个体在这些空间中与谁发生了实际互动。
即便缺乏直接将个体与其到访地点连接的观察数据,我们也可以利用空间联系的逻辑构建反事实模型来解释空间模式。例如,在研究加州自闭症诊断率上升的传播路径时,Liu 等人(2010)提出,儿童游乐场等“关键地点”可能是信息传播的中心。他们发现,诊断率上升与家长和儿童可能聚集的地点的空间接近性存在显著关联。他们还构建了空间分布相似、但家长不太可能聚集的反事实地点作为对照,进一步增强了空间联系逻辑的解释力。
空间分析中出现的问题
尽管空间数据和空间分析方法为社会学提供了强大工具,但也引入了一系列独特的问题,社会学家必须予以认真对待。本节重点讨论以下三个关键问题:隐私保护;空间支持变化所导致的偏差;违反平稳性与各向同性假设所导致的偏差。
空间数据分析首先面临的首要问题是如何维护研究对象的隐私与数据保密性。由于空间定位数据(如家庭住址或GPS轨迹)属于可识别的敏感信息,往往还能暴露关于个人生活的高度私密内容(如是否前往某些非法或医疗场所)。因此,从数据收集到存储的每一步都需要极其审慎。虽然地理信息本身看似无害,但一旦与表格数据等结合,便可能带来巨大风险。因此,研究者应当制定严格的数据保护和加密协议。特别是在地址的地理编码(geocoding)阶段尤为敏感,因为许多常用地理编码服务会将数据传输至第三方,这些第三方不受伦理审查委员会协议约束。常见的隐私保护手段包括:将数据聚合至更大空间单元(如街区、社区),但这会引入“空间支持变化”的问题。
空间支持变化所带来的偏差
空间支持变化(Change of Spatial Support)是指数据的采集、存储和分析使用了不同的空间单位或类型。例如,美国人口普查数据往往在“住房单元”(点)层面采集,却在“普查小区”(区域)层面报告,这就是一种典型的空间支持转换。这种转换会引入测量误差,如果误差是系统性的,就可能严重扭曲分析结果。一个典型的问题是可塑性面积单元问题(Modifiable Areal Unit Problem,MAUP),即当分析单位的规模或边界配置发生变化时,结果也会随之变化。这种非随机误差正是使用空间计量经济方法的动因之一。相关的还有生态谬误(ecological fallacy),即聚合数据所得的变量关系与个体层面关系不一致。研究者对于如何应对MAUP有不同目标:有人尝试开发尺度不变(scale-invariant)的方法,减少MAUP的影响(Kwan,2009);也有人主张利用结果的异质性来识别社会过程的真实空间尺度(Bader & Ailshire,2014)。数据聚合虽然可以保护隐私,但也会牺牲空间精度。如果实际的社会过程发生在一个小于聚合单位的空间尺度上,那么聚合就可能引入误差。例如:美国人口普查局为保护隐私,在城市与郊区划分大小相近的普查小区,但这意味着在纽约皇后区(低密度)与曼哈顿中城(高密度)同样大小的普查小区之间,空间误差可能会系统性地相关于人口密度(以及其他变量),从而导致估计偏差。比起数据聚合,随机交换相似单位(spatial swapping)是一种更好的匿名化方式。另一种方法是构建合成数据(synthetic data),即保留空间结构特征但替换实际位置,从而脱敏。
在某些情况下,有意改变空间支持单位进行分析可能更有效。例如,当社会过程的空间扩散尺度小于报告单位时,与其使用空间经济方法,不如将区域数据当作点数据进行地质统计分析,尤其在空间单位形状不规则、面积差异较大时。例如,Wall(2004)在研究美国各州学生考试成绩时,发现将州中心点作为点数据使用克里金法,预测误差更小,优于使用州邻接矩阵的空间计量方法。
违反平稳性与各向同性假设所导致的偏差
上述介绍的各类空间分析方法,其基本模型大多假设空间过程具有平稳性(stationarity)。所谓平稳性,是指在研究区域的任何地点,结果变量的分布特征是相同的。即,不论在点i、点j还是点k,空间过程的均值和空间协方差结构都是一致的。实际上,大多数空间方法只要求满足弱平稳性(weak stationarity),即均值和空间协方差保持不变。不过,针对现实中经常存在的非平稳性,大多数空间模型都有直接的扩展方法可以应对,例如,地理加权回归可用于区域数据,普遍克里金法可用于点数据。
另一个重要假设是各向同性(isotropy),即空间过程的变化与方向无关。换言之,从地点A到地点B,与从地点A到方向相反的地点C,只要距离相等,空间影响也应相同。然而,在很多社会与物理过程中,这种假设显然并不成立。例如,污染传播往往具有方向性。Heblich(2021)在研究历史城市发展时发现,工业污染常随盛行风向向东扩散,导致工业城市东侧社区的社会经济状况长期处于劣势,并且这种效应延续至今。城市物理环境也会引入方向性障碍。Grannis(1998)指出,小街道(trivial streets)比大马路更容易促进邻里交往,因此,在街道网络布局中,若东西向小街密集、南北向大街宽广,居民交往就更可能沿小街道发生,而非在南北大街之间。如果忽略了这种空间各向异性(anisotropy),模型就会产生偏差。具体来说,未建模的方向性效应就像一个遗漏变量错误,可能导致我们将空间模式的影响误归因于其他社会过程。然而,现实问题在于,社会学数据往往空间采样密度不足,很难有效建模或校正方向性偏差。因此,社会学家在解释空间分析结果时,应当对潜在的各向异性偏差保持敏感和审慎。
分析社会世界空间模式的机遇
本文揭示了社会学研究中存在的一种错位现象:社会学家收集了大量与地点相关的信息和工具,也认识到空间对社会生活的重要性,但在分析时,却很少利用空间方法来更好地解释结果的空间差异。空间方法本身并不会自动赋予解释力。过度依赖复杂的空间建模技术,反而容易让空间分析沦为仅仅是解决统计偏误问题的一种手段,而不是推动理论创新的工具。只有当空间过程被纳入明确的理论框架中,空间数据与空间方法才能真正发挥其潜力,解释社会世界的结构与动态。而实现这一潜力的最佳路径是:开发创新变量,以检验那些关于社会过程空间模式的假设。在这个意义上,构建创新变量应优先于构建复杂模型。类似地,基于点数据的引力模型与地质统计方法也为构建具有理论意义的分析变量提供了有效手段。此外,二元方法(dyadic method)通过衡量个体与不同地点之间在多个维度上的联系,为将人们的空间认知锚定于现实世界提供了可能。人们对某地的吸引、忽视、误解、熟悉或回避,都可能有助于解释他们何时、在哪里发生社会互动,又为何在其他时间与地点未产生互动。将空间抽样技术引入数据收集过程也会带来巨大收益,这有助于检验空间模式是否在不同距离尺度上存在。通过系统地采集具有不同空间间距的数据单位,研究者能够更好地识别社会关系的函数形式与空间尺度,而随着越来越多的空间数据得以被收集与利用,社会学研究面临前所未有的机遇。同时,开发创新的抽样设计,以测量区域型、点型与二元空间关系,将为我们构建解释空间关系的变量提供关键数据来源,从而促进对社会世界空间模式的系统研究。
本文转自 | Sociology理论志
来源:再建巴别塔