笔记丨序列数据中的相似性测量:音乐家职业生涯的最优匹配分析

@ Abbott, A., & Hrycak, A. (1990). Measuring resemblance in sequence data: An optimal matching analysis of musicians’ careers. American journal of sociology96(1), 144-185.

  • 摘要
    • 本文提出一种基于插入、删除和替换操作的简单度量方法,用于测量序列间的相似性。这种被称为最优匹配的技术在自然科学领域已得到广泛应用。文章首先回顾序列分析的文献基础,继而详细阐述最优匹配算法。通过将该技术应用于18世纪活跃于德国的音乐家职业数据,本文展示了该方法的应用流程,并成功构建出一组典型职业模式,能够有效归类研究者所考察的大部分实际职业轨迹。
  • 第一节 职业研究文献综述

    • 社会学界对职业轨迹与职业模式的关注源远流长。
      • 1950-1960年代,学界持续关注专业群体的职业路径研究。
      • 至1960年代,职业流动研究逐渐融入广义的社会流动分析框架,将职业生涯解构为孤立的事件片段。
      • 1970年代,职业研究出现范式革新。White(1970)的开创性研究揭示职业轨迹对组织结构的依赖性,从根本上挑战了地位获得学派的理论预设。
      • 然而,这些新进展鲜少关注职业轨迹中事件序列的关联性。
    • 将职业史中的流动序列视作超越人为建构的实体,存在坚实学理依据。
      • 个体持续规划并结构化其职业史,在结构约束中主动选择流动路径。此类选择基于动态的职业身份认知,因此看似无序的职业生涯实则蕴含个体化的逻辑结构。
      • 个体的未来规划不仅取决于当下处境,更受既往经历序列影响。人们通过比照既有职业模式与自身历史经验来建构职业未来。
    • 职业整体模式究竟反映现实,还是罕见现象?
      • 职业整体模式在文献中的消失,既是理论转向的结果,亦反映方法论的局限。
      • 解答职业模式问题的方法论突破,将具有跨领域的重大意义。下文将系统梳理现有”典型序列”分析方法体系。
  • 第二节 序列分析方法论

    • 针对序列研究的核心问题——(1)是否存在普遍模式(模式问题)与(2)如何生成这些模式(生成问题),学界发展出多种方法论路径。
    • 方法论争议与学理依据
      • 部分方法论学派认为序列模式问题缺乏学理价值:职业等序列现象本质上是潜在随机过程的表层呈现。任何时刻事件发生的概率,均取决于外生变量及距前次事件的时间间隔。
      • 序列模式的依据:
        • 复合事件分析需求:当研究涉及多种事件类型(如不同职业形态、政策选择)的时序关系时,随机过程方法显得笨拙低效。
        • 确定性序列的存在:法庭预审程序、秘密社团入会仪式、专业培训体系等预设性脚本序列,其生成机制非随机性,首要研究问题即为模式识别。
        • 社会认知维度:个体通过比照文化认知模型来规划职业路径,需通过模式分析揭示这些模型的真实性与现实基础。
        • 方法论的互补性:模式分析可为随机模型提供历史序列分类工具,助力模型中历史事件顺序效应的研究。
    • 非重复序列分析方法
      • 穷举法:适用于短序列。
      • 多元置换统计:Spearman等级相关系数等可度量序列间距离。
      • 多维标度分析:考古学”序列化”技术的移植应用。
    • 重复序列分析困境与马尔可夫模型
      • 离散状态一阶马尔可夫过程:将序列分解为单步转移概率矩阵,通过计算状态转移概率估计序列聚合特征(如预期状态驻留时间、吸收链长度等)。通过与观测值比较检验模型拟合优度。
        • 优势
          • 将复杂序列简化为单步转移概率。
          • 允许引入差异化外生变量(与事件史方法兼容)。
        • 固有缺陷
          • 历史依赖假设失当:实际过程常具长程依赖性(如教授转行出租车司机后的职业持续性异于原生司机),高阶马尔可夫过程导致状态空间指数膨胀。
          • 模式识别功能缺失:仅通过聚合特征检验模型,无法直接识别典型序列。
          • 确定性序列失效:对预设脚本序列(如宗教仪式流程)的分析完全失效。
    • 方法论演进方向
      • 发展直接的序列相似性度量与分类技术。
  • 第三节 最优匹配技术

    • 最优匹配技术:适用于由有限元素集合构成的可重复序列,通过量化序列间转换所需的最小操作成本生成区间级相似性度量。此类度量结果输入聚类或分组算法后,可识别典型序列模式。
    • 基本原理:通过计算序列间转换所需的插入(Insertion)、删除(Deletion)、替换(Substitution)​操作次数(即莱文斯坦距离)度量相似性。
      • 标准化处理:序列长度差异影响绝对距离值,故需标准化处理。将转换成本除以较长序列长度后,获得相对距离矩阵。
      • 替换成本差异化:实际应用中需考虑元素间语义差异。
      • 算法实现:通过动态规划矩阵求解最小转换成本。
    • 优势
      • 直观量化序列结构差异
      • 支持自定义成本函数适应不同场景
      • 为聚类分析提供度量基础
    • 不足
      • 成本参数设置依赖领域知识
      • 长序列计算效率问题
      • 对周期性波动序列敏感度不足
  • 第四节 实证案例:1660—1800年德国音乐家职业生涯

    • 为验证最优匹配技术处理大规模数据的有效性,本研究采用巴洛克至古典时期(约1660—1810年)德国音乐劳动力市场项目的职业数据。
    • 音乐职位的制度框架
      • 宫廷
        • 核心机构:卡佩拉乐团,由乐长统辖。
        • 辅助职位:大型宫廷设音乐总监、专职作曲家与首席乐手;宗教场所配置管风琴师;部分宫廷设独立歌剧机构。
        • 就业特征:全职乐手规模可达百人(大型宫廷)至数人(小型宫廷),薪酬受君主财政状况波动影响显著,职位稳定性差。
      • 城镇
        • 核心职位:城镇音乐总监负责教堂与学校音乐事务,常兼任首席学校校长。
        • 教会机构:标配管风琴师与领唱,大型教堂增设乐长职位。
        • 薪酬结构:音乐家通过音乐教学、教堂文书、法律咨询、优质座位出租等非音乐活动补充收入。
        • 高等教育机构:大学教堂配置管风琴师,学生音乐社团(collegia musica)与寄宿学院(Bursen)聘用兼职音乐指导。
      • 其他
        • 歌剧领域:18世纪初出现宫廷歌剧团,民间歌剧公司资金匮乏,主要依赖巡回剧团。剧团乐手需承担表演、演唱与伴奏多重职能,经济高度依赖观众即时反馈。
        • 私人服务:富裕阶层雇佣行会乐手(按日计酬)或非行会流动乐手提供定制音乐服务,此类从业者在数据集中鲜有记录。
    • 基础假设
      • 存在少量稳定的宫廷职业生涯与更多稳定的城镇职业生涯。
      • 职位安全性的差异预示多数职业轨迹呈现从宫廷向城镇的流动趋势。
      • 存在通向核心管理职位的固定晋升阶梯。
  • 第五节 德国音乐家的典型职业生涯

    • 数据
      • 源自两部音乐学词典——《音乐的历史与现状》与《新格罗夫音乐与音乐家词典》,收录1650-1810年间活跃于德国的所有音乐家职业轨迹。
    • 编码策略
      • 135种职位/领域组合中仅34种在595名音乐家中出现超过9次,定义为核心职业表,其余101种组合归入”其他”类别。
      • 地理流动信息:将”内部流动”(职位类别不变下的地理或雇主变动)与非流动合并处理。
      • 复合职位处理:约半数音乐家职业生涯中存在同时担任两个职位的阶段——仅采用无复合职位的职业记录。
      • 每位音乐家的职业生涯被转化为35种职位构成的年度序列。
    • 最优匹配参数:替换成本
      • 同时变更领域与职位比单一变更更具显著性差异。据此设定:
        • 仅变更领域或职位:替换成本0.75。
        • 同时变更领域与职位:替换成本1.0。
      • 进一步整合流动性信息优化成本矩阵:
        • 构建基于流动频次的”距离”矩阵:统计35种职位间所有流动频次,对称化处理矩阵(即合并i→j与j→i频次),将”其他”类别行/列元素除以101(因该类别含101种职位/领域组合),最后通过常数减法转换为相异矩阵。
        • 线性组合相异矩阵与职位/领域矩阵,确保最大流动性”相似性”与领域/职位相似性对成本降低的贡献等效。
    • 结果
      • 在设定替换成本模型后,可将最优匹配算法应用于数据。
      • 职业类型大致分为管风琴师职业集群、宫廷职业集群与教会职业集群。
    • 时间度量扩展
      • 最优匹配技术允许调整时间度量假设
        • 同构异速职业:两位音乐家任职顺序完全相同,但任职时长存在倍数差异。实质层面或需认定其高度相似(相同进程以不同速率展开)。
        • 终局差异职业:两条轨迹前20年完全一致,随后一条因死亡终止,另一条延续终局职位20年。关键相似性可能集中于前期阶段,终局时长差异或属次要因素。
      • 时间度量模型
        • 基准模型(实时模型)​ :假设职业差异源自职位序列差异或任职时长波动。仅当职位序列完全一致且各职位任期相同时,才认定职业高度相似。
        • 标准化时间模型:将职业生涯标准化为50单位长度,仅关注职位间时间占比。
        • 对数时间模型:对每职位任期取对数(加1处理1-2年任期),弱化长期任职差异影响。
      • 实证分析
        • 将279条职业轨迹随机分为三组(首组94条已分析),分别应用上述时间模型。
        • 三类模型共同识别出以下稳定职业模式:
          • 单一职位主导型
            • 宫廷/教会管风琴师
            • 宫廷乐长、器乐师、作曲家
            • 教会乐长与领唱
          • 阶梯晋升型​(偶现过渡阶段):
            • 宫廷歌手→乐长
            • 宫廷器乐师→乐长
            • 宫廷器乐师→首席乐手
            • 宫廷器乐师→首席乐手→行政职位
        • 关键发现
          • 宫廷体系官僚化:所有阶梯晋升路径均存在于相对科层化的宫廷系统。初级职位(歌手、器乐师)存在有限晋升通道,但严格限于宫廷内部。
          • 领域区隔性:未发现跨领域(宫廷→城镇/教会)的多职位职业模式。个别案例(如J.S.巴赫)存在领域跨越,但属罕见现象。
          • 职业稳定性修正:城镇职位的安全性未形成系统性吸引力,宫廷音乐家存在内部晋升可能,颠覆既有文献的松散预测。
  • 第六节 最优匹配方法的优势与局限

    • 优势
      • 直接测量序列相似性的能力,为回答”数据中是否存在共同序列模式”等基础问题提供工具。
    • 应用广度
      • 分类生活事件序列以识别压力诱发模式。
      • 构建历史发展的理想型序列。
      • 研究组织演进、革命进程、家庭生命周期。
    • 应用前提
      • 独立性假设:与所有个体轨迹分析方法相同,需假设序列间相互独立。
      • 参数化要求:替换成本设置需明确理论依据与实证测量。
    • 共性局限
      • 变量度量假设
      • 时间涵义界定
      • 案例独立性预设
    • 固有局限
      • 数据规模约束:作为直接分析方法,其二元数据需求限制样本容量。
      • 非替代性:与随机分析形成互补而非替代。
      • 软件支持不足:现有生物学软件包缺乏社会科学所需的输入输出功能。