宁静致远

        导语大语言模型能否替代真实的社会调查数据？一项2026年5月8日发表于 PNAS 的研究给出了系统地检验。

        研究团队回归社会科学调查研究的基本原则，提出对大语言模型生成数据的评估，应借鉴代表性调查的逻辑：正如代表性样本能够得到接近总体统计矩的结果，LLM 生成数据的有效性也应聚焦于其能否再现真实世界总体层面的统计规律。

        基于此，研究团队构建了 SSDataBench 基准测试，用 7 个真实社会调查数据集、15 个主流大语言模型，从五个维度系统评估了 LLM 生成社会科学数据的“统计真实性”（即合成数据能否复现真实人口的统计模式）。

        结果发现，即使是当前最强的模型，平均通过率也仅为 30%。

        且通用大语言模型（general-purpose LLMs）整体性地暴露出三种系统性缺陷——

        压缩异质性、膨胀关联性、坍缩生命轨迹。研究同时指出，领域微调可大幅提升总体层面统计真实性。

        关键词：统计真实性（Statistical Realism），大语言模型（LLM），社会调查数据（Survey Data），数字孪生（Digital Twin），基准测试（Benchmark），人口模拟（Population Simulation）任筱芃丨作者赵思怡丨审校论文题目：Evaluating the Statistical Realism of LLM-Generated Social Science Data论文链接：https://www.pnas.org/doi/10.1073/pnas.2538145123发表时间：2026年5月8日论文来源：PNAS不可能完美的抽样社会统计学家 Jerzy Neyman 将总体定义为“满足特定定义但个体属性各异的实体类别” (Neyman, 1937)。

        如果个体的属性各不相同，那么“异质性”——即人与人之间的系统性差异——就不是数据的噪声。

        好的数据采集方法的目标不是消灭变异，而是如实地再现它。

        变异是人类社会无法剥离的统计特征。收入不均、教育分化、健康差异、寿命分层如果被当作数据的“噪声”来消除，那么所得的数据对社会科学家而言将毫无意义，因为社会科学要研究的恰恰就是这些差异本身。

        近一个世纪后，大语言模型的发展似乎提供了一个非常方便的方法来补充甚至取代问卷调查。

        给 GPT 系列模型一个人的性别、种族、年龄，它就能输出这个人的收入、婚姻状况、健康水平。

        听起来很方便。2023年的一项先驱性研究表明，GPT-3 生成的样本在美国民意调查领域展现出了“显著的保真度” (Argyle et al., 2023)。

        如果 LLM 真能生成足够真实的人口数据，那么困扰社会科学几十年的数据缺失、样本流失、隐私约束、反事实不可观测等问题都将被代偿。

        这一愿景非常诱人。但在真正投入使用之前，我们需要对大模型生成的社会学数据进行全面评估。

        过去对 LLM 生成数据的评估几乎全部聚焦于“个体层面的预测准确率”，即模型能否猜对某个人的调查回答。

        社会科学家更关心的是这批合成数据能否复现真实人口的分布形态、变量关联、结构关系。

        就像抽样调查的价值不在于每个受访者是否“真实”，而在于样本能否近似总体的统计矩 (Groves et al., 2011)——

        均值是否对、方差是否对、相关系数矩阵是否对、分布的偏度和峰度是否对。

        统计矩才是关键。这项提交至 PNAS 的研究系统地将社会科学抽样调查的底层逻辑应用于 LLM 生成数据的评估。

        结果比预想的更令人不安。研究背景与问题社会科学的数据困境社会科学研究长期受困于数据的五个根本性限制。

        关键变量（如财富、主观幸福感、认知能力）难以采集且常伴生测量误差；纵向追踪数据的时间跨度不足；几乎所有调查数据都面临拒访和样本流失导致的缺失值；隐私限制和机构壁垒压缩实证研究的空间；社会科学家永远无法直接观测反事实结果(Holland, 1986)。

        这是老问题，因此 AI 生成数据被视为潜在的解决方案。

        近年的两条主要研究脉络分别是预测个体生命轨迹（如生育、教育、健康），以及开发基于 LLM 的社会智能体来理解交互行为（如调查响应、舆论极化）。

        但越来越多的证据表明，AI 生成数据无法代表真实人口，甚至可能产生有偏结论。

        早期研究发现语言模型往往未能完全反映代表性民意 (Santurkar et al., 2023)；更新的研究进一步表明，现代 LLM 展现出强烈的、主题依赖的“机器偏见”和变异性降低 (Boelaert et al., 2025)。

        偏差无处不在。现有评估实践几乎全部围绕个体层面的预测准确性展开。

        但社会科学本质上是人口科学 (Goldthorpe, 2016)。

        即使拥有丰富的背景信息，研究者也很少能对个体结果做出精确预测 (Lundberg et al., 2024)。

        个体层面的强预测性能不应被视为有效性的核心标准。SSDataBench研究团队提出了 SSDataBench（SocialScienceDataBench），一个系统性的基准测试框架。

        其核心创新在于将评估标准从“个体准确率”转向“人口层面的统计真实性”——

        即 LLM 生成的合成数据能否复现真实世界的统计模式。

        五个评估维度框架设计了五类统计模式评估，覆盖社会科学研究的核心需求。

        第一类，单变量分布（Type 1）。检验 LLM 能否复现各目标变量的分布形态。

        例如，受教育水平的分布是否与真实人口一致。使用 Kolmogorov-Smirnov 检验（数值型）和 Pearson 卡方检验（类别型）进行评估。

        第二类，双变量关联（Type 2）。检验变量对之间的关联强度是否与真实数据一致。

        使用 Fisher z 检验（数值×数值）、Delta-method z 检验（类别×类别、类别×数值）。

        第三类，多变量结果预测（Type 3）。以性别、种族、最高学历（横截面数据集还包括年龄）为协变量，以数值型目标变量为结果，检验回归模型的 R² 是否一致。

        第四类，生命事件序列分布（Type 4）。检验人生轨迹的排列顺序分布是否与真实人口一致。

        例如“先结婚→后工作→再生育”这条路径在真实数据中占比多少，在合成数据中是否被保留。

        第五类，生命事件序列与协变量的关联（Type 5）。

        检验人生轨迹与社会经济变量之间的关联结构是否被复现。

        七大数据集研究使用了 4 个纵向追踪数据集和 3 个横截面数据集，涵盖六大社会领域：模拟方法对每个数据集，随机抽取 1000 个真实个体，用其背景变量（性别、种族等）作为输入条件，让 15 个 LLM 分别为每个个体生成一个“数字孪生”。

        合成数据集随后与真实数据通过五类统计检验进行对比。

        规模相当可观。图1：SSDataBench 基准测试框架概览。

        (a) 从数据准备到模拟生成再到统计评估的完整流程。

        (b) 五类统计模式的评估方法，每类都通过假设检验判断 LLM 生成数据是否与真实数据存在显著差异。

        四种系统性缺陷15 个 LLM 在 7 个数据集、五类统计模式上的平均通过率普遍很低。

        表现最好的 GPT-4 和 Llama-3.1 平均通过率也仅 0.30，表现最差的 Claude-4.5-Haiku 仅为 0.19。

        值得注意的是，五类评估中存在清晰的梯度：分布类测试（Type 1 单变量分布、Type 4 生命事件序列分布）通过率最低，而关联类测试（Type 2 双变量关联、Type 3 多变量预测、Type 5 轨迹-协变量关联）通过率显著更高。

        这意味着 LLM 捕捉变量间关联结构的能力强于复现完整分布的能力，即它们能大致理解“学历与收入相关”，却无法准确再现“收入在人口中的具体分布形态”。

        在 NLSY 和 CFPS 等纵向数据集上，Type 4（生命事件序列分布）的通过率尤其惨淡，多数模型得分为 0。

        图2：15 个 LLM 在 7 个数据集上的五类统计模式通过率热力图。

        颜色越深表示通过率越高。Type 4（生命事件序列分布）大面积呈现白色（通过率为0），是最薄弱的环节。

        缺陷一：压缩异质性LLM 生成的数据在分布上趋向于集中，丧失了真实人口的多样性。

        以 Gemini-2.5-Flash 在 NLSY 上的案例为例，真实数据中“初婚年龄”呈现宽泛分布，但合成数据中的分布明显向典型值坍缩。

        自我评估记忆力的分布也呈现类似模式——真实人口中存在从“极差”到“极好”的完整光谱，而 LLM 倾向于将大多数人的数据“生成”在中间值带。

        也就是说中间态被过度代表了，两端泯灭了。量化这一现象的工具是信息熵。

        类别型变量的熵值对比显示，合成数据的熵值系统性低于真实数据，意味着 LLM 在生成过程中丢失了变异信息。

        换言之，多样性被吞噬了。图3：Gemini-2.5-Flash 在 NLSY 上的分布坍缩案例。

        缺陷二：膨胀关联性LLM 不仅压缩了分布，还膨胀了变量之间的关联。

        Cramér's V 统计量（衡量两个类别变量之间关联强度，范围 0-1）在合成数据中系统性偏高。

        在真实 NLSY 数据中，最高学历与性别、职业、自评健康之间的关联相对温和，但在合成数据中，这些关联被大幅放大。

        生成数据中许多变量对的 Cramér's V 超过 0.6，部分甚至接近 0.8 或 1，在真实项目应用中就有可能高估现有知识、能力和判断的准确性，低估风险和不确定性。

        部分情况下，LLM 放大了真实世界中已存在的微弱关联（如学历与职业的关系）；另一些情况下，LLM 则凭空创造了真实数据中不存在的强关联。

        无论哪种情况，其结果都是将复杂的社会现象简化为确定性的因果叙事——

        而使用者可能完全不知道生成数据中隐含了多少这种模式化的偏见。

        从全局视角看，合成数据的 Cramér's V 分布整体右移——

        中位数高于真实数据，且出现大量高值聚集（>0.6），这在真实数据中几乎不存在。

        这一现象在统计真实性较低的模型中尤为突出。更危险的是这种刻板关联的投射是隐性的，即使用者可能完全不知道生成数据中包含了多少先验偏见。

        图4：统计量在所有模型和数据集上的分布对比（箱线图）。

        (b) Cramér's V——合成数据关联偏强且高值聚集。

        缺陷三：夸大可预测性多变量回归分析揭示了更深层的问题。

        当以 Race、Gender、Highest Education 为自变量预测各类结果变量时，合成数据的 R² 值远高于真实数据。

        以“30-40岁平均收入（对数）”为例：合成数据的回归模型 R² 接近 0.6，意味着种族、性别和学历“解释”了 60% 以上的收入差异。

        但真实数据中，同样的模型 R² 不到 0.1。总之，LLM 们反而最终是在告诉我们仅凭种族、性别和学历就能高度预测一个人的收入。

        这不是研究者得出的结论，而是模型输出所投射的世界图景，同时也是社会科学几十年来试图打破的刻板叙事。

        这种“过度可预测性”在统计真实性低的模型中尤为严重。

        许多合成数据的 R² 值超过 0.8，而真实数据中 R² 值普遍低于 0.2。

        图5：Gemini-2.5-Flash 在 NLSY 上的回归模型 R² 对比——

        合成数据中预测力被严重夸大，尤其是收入预测。缺陷四：类型的坍缩五类评估中，Type 4（生命事件序列分布）的通过率最低。

        LLM 生成的人生轨迹呈现严重的“坍缩”现象——多数虚拟个体的生命路径被压缩为极少数典型模式。

        人生被模板化了。以 NLSY 数据为例，真实人口中“初婚(M)→开始工作(W)→初次生育(C)”三事件的排序存在六种可能组合，且分布相对分散。

        但生成数据中，绝大多数虚拟个体被推向了最“规范”的路径——

        “先工作、再结婚、后生育” (W→M→C)，其他排列被严重低估。

        六条路只剩一条。信息熵的对比展示了合成数据的轨迹熵值显著低于真实数据。

        LLM 在训练过程中习得了“典型人生”的叙事模板——读书、工作、结婚、生子。

        当被要求生成虚拟人口时，它倾向于把所有人都推向这条“标准路径”，就好像全世界的 80 亿人都在遵循同一种人生剧本一样。

        模板化。单一化。扁平化。但真实人生不是模板，而且从我们对故事性的直觉来看，即使有这样的模板我们也不喜欢。

        有人先有孩子再结婚，有人中途辍学后创业成功，有人一辈子未婚并将有限的生命投入无限地开拓中。

        这些非典型但真实的人生轨迹，在 LLM 的输出中几乎消失了。

        真实 NLSY 数据中存在相当比例的非标准路径，但在合成数据中这些排列被严重低估，多样性急剧下降。

        生命轨迹与协变量之间的关联结构同样失真。下图展示了 NLSY 中“初婚、开始工作、初次生育”三事件序列与性别、最高学历、移民状态等变量之间的 Cramér's V。

        虽然 Type 5（轨迹-协变量关联）不像 Type 2 那样出现系统性膨胀，但偏差依然明显。

        合成数据中大量关联超过 0.5，而真实数据中几乎没有如此强的依赖。

        模型未能捕捉到性别、学历、移民身份等变量对人生轨迹排序的关键影响。

        图6：Gemini-2.5-Flash 在 NLSY 上的生命事件序列分析。

        (e) 初婚(M)、开始工作(W)、初次生育(C) 三事件的排序分布——

        合成数据严重偏向 W→M→C 路径。(f) 完成教育(E)、开始工作(W)、初次生育(C) 序列与协变量的 Cramér's V——

        偏差虽非系统性膨胀，但仍显著偏离真实数据。Scale不是答案面对这些缺陷，一个顺延的猜测是更大的模型、更新的版本，表现应该更好。

        过去几年，通过扩大参数规模、延长上下文窗口、增加训练数据，LLM 在几乎所有标准能力基准测试上都实现了持续跃升。

        无论是编程、数学推理、多语言翻译、专业考试，模型家族内的更新更大的版本几乎总是碾压旧版本。

        因此有理由期待统计真实性也会随模型能力的提升而水涨船高。

        但数据否定了这个直觉。模型容量与统计真实性之间并未呈现出预期的正向关联。

        从 GPT-3.5-Turbo（平均通过率 0.28）到 GPT-5（0.20），性能不升反降。

        同一模型家族内，新一代并不比上一代更好。Claude-3-Haiku (0.23)、Claude-3.5-Haiku (0.21)、Claude-4.5-Haiku (0.19) 三代递减。

        这一模式表明，统计真实性的缺失可能不是暂时的能力不足，而是一个结构性挑战。

        图7：五类统计量在所有模型和数据集上的分布对比（箱线图）。

        每对箱线图分别对应真实数据（左）和合成数据（右）。

        (a) 类别变量信息熵——合成数据系统性偏低。(b) Cramér's V——合成数据关联偏强且高值聚集。

        (c) R²——合成数据预测力系统性偏高。(d) 生命事件序列信息熵——合成数据轨迹多样性显著不足。

        (e) 轨迹-协变量 Cramér's V——合成数据仍存在偏差。

        原因有二。在模型层面，LLM 的训练目标优化的是逐例预测准确性（case-wise prediction accuracy），而非跨多例的分布保真度（distributional fidelity）。

        准确性导向的目标甚至会放大类型化倾向——模型倾向于为每个输入给出“最可能”的答案，而真实人口需要的恰恰是变异。

        在数据层面，大量丰富的社会科学数据以表格等量化格式存储和流通，而非自然语言。

        现有 LLM 难以从文本语料中内化这些结构化信息。

        这意味着，改善统计真实性不能依赖单纯扩大模型规模，而需要针对性的方法。

        通往更好统计真实性的路径三条改善路径更丰富的输入有可能改善生成的结果。

        辅助实验表明，当从输入条件中移除性别和种族等背景变量时，统计真实性普遍恶化。

        在 Add Health 和 U.S. Census 两个数据集上测试的研究使用了 GPT-4o、Gemini-2.5-Flash、Llama-3.1 三个模型，发现移除 Gender 和 Race 后所有模型的统计真实性均出现下降 (Xie et al., 2025)。

        这意味着，提供更丰富的输入信息是改善合成数据质量的有效策略。

        在数据采集环节投入更多成本，直接反映在模拟结果的统计保真度上。

        研究者应当尽可能详尽地提供人口学和社会经济背景信息，而非仅用最少的变量组合。

        情境条件有可能约束输出。正如 American Voices Project 所倡导的，质性数据能够捕捉量化调查难以测量的生活经验和社会情境 (Edin et al., 2024)。

        将访谈文本作为 LLM 的输入，可能提供比结构化变量更深的“锚定”。

        从人口统计数字转向有温度的生活叙事，从变量到故事，从表格到口述历史，这些更贴近人的数据可能是未来模型上下文能力提升后值得尝试的。

        LLM 在处理非结构化文本方面天然具有优势 (Verhagen et al., 2025)。

        如果一个数字孪生不仅知道“这位受访者是 35 岁的非裔美国女性、高中学历”，还能读到她关于成长经历的口述历史文本，模型就有可能生成更贴近真实变异的模拟结果。

        这恰好是 LLM 区别于传统统计模型的核心能力。微调是目前在工程实践中最有可能被用上的。

        这是三条路径中目前验证最充分的一条。研究团队用 CPS-ASEC (1970) 的 1000 个样本对 Llama-3.1 (8B) 进行微调，然后在三个完全不同的数据集上评估泛化能力。

        图8：Llama-3.1 (8B) 在 CPS-ASEC (1970) 上微调前后的通过率对比。

        微调在三个未见数据集上均带来显著提升，其中同数据集跨情境迁移的提升最大。

        微调数据来自与评估不同的社会情境（1970 vs. 1980），且在一个数据集上完全是跨数据集迁移。

        这表明领域特定的训练数据能实质性增强统计真实性，且具有一定的泛化能力。

        特别值得注意的是，CPS-ASEC (1970) 的 1000 个微调样本在跨十年（1970→1980）的情境迁移中使通过率翻了一倍以上，在完全不同的 GSS 数据集上也带来了 24% 的提升——

        这暗示统计真实性并非完全依赖特定数据的记忆，而是可以通过学习更一般的人口分布规律来改善。

        局限性研究团队坦诚了三个主要局限。第一，通过率涉及若干主观决策。

        Bootstrap 样本量的选择、汇总统计量的定义、具体统计检验的选取及其参数化、以及 0.05 的常规显著性阈值，都涉及不可避免的判断。

        通过率应被理解为比较性而非绝对性指标。不同模型之间的相对性能排序是可靠的，因为所有模型都在同一套统计量、检验和阈值下评估。

        案例研究中的描述性结果也为二元通过/失败的判定提供了补充。

        第二，评估主要在稀疏条件下进行。模型仅被提供有限的人口背景变量，目标变量完全不可观测。

        在这一设定下，传统的插补方法并不直接适用，因为它们通常假设目标变量至少部分可观测。

        在部分可观测场景下将 LLM 与 SOTA 插补方法进行基准对比，是一个重要的未来方向。

        第三，虽然使用了大规模调查作为最佳可用的实证基线，但调查数据本身并非完美的“真值”。

        覆盖偏差、拒答偏差、流失偏差、访员偏差、社会期望偏差、回忆误差和测量误差等问题在调查研究中普遍存在。

        任何以调查数据为“真值”的评估框架，都不可避免地受到这些偏差的污染。

        研究者在解读评估结果时，应当总是将这一层不确定性纳入考量。

        因果推断的潜在价值以上缺陷们、缩放无效的困境、改善路径的初步探索所反映的是当前的 LLM 生成数据距离统计保真还有显著差距，但差距的方向是可辨识的、可干预的。

        正是这一条件性，使得讨论下游应用的前景成为有可能的、有约束的技术愿景。

        如果经过适当的训练，AI 生成数据在社会科学中具有独特的前景——尤其是在因果推断领域。

        设想一个场景：研究者想知道“大学教育对收入的因果效应”，但现实中无法随机分配大学入学机会。

        如果 LLM 能够生成统计真实的合成人口，研究者就能在虚拟世界中为同一个人同时生成上大学和不上大学两种反事实结果，直接估计因果效应。

        Holland 四十年前指出，因果推断的根本问题在于反事实结果不可观测 (Holland, 1986)。

        如果 LLM 能够生成统计真实的合成人口，研究者就能在虚拟世界中进行随机化实验、操纵关键变量、观测反事实结果。

        可能性巨大。这将从根本上改变社会科学的实证研究范式。

        随机对照实验——社会科学因果推断的“金标准”——将从昂贵、耗时、伦理敏感的实地操作，转变为可以在计算集群上批量运行的模拟过程。

        但前提是合成数据至少要先通过统计保真度的检验。SSDataBench 为这一目标提供了可操作的评估框架和受约束的改进路线。

        路虽远，行则将至。这项研究的核心启示可以浓缩为统计保真度是 LLM 生成数据的“生命线”。

        没有它，一切下游应用——因果推断、政策模拟、人口预测——都建立在泡影之上。

        SSDataBench 的五维框架（分布形态、双变量关联、多变量预测、轨迹分布、轨迹-协变量关联）为后续研究设定了可用的标尺，而跨数据集的系统评估则提供了目前最全面的基准数据。

        参考文献Argyle, Lisa P., et al. “Out of One, Many: Using Language Models to Simulate Human Samples.” Political Analysis, vol. 31, no. 3, Feb. 2023, pp. 337–51, doi:10.1017/pan.2023.2.Bisbee, James, et al. “Synthetic Replacements for Human Survey Data? The Perils of Large Language Models.” Political Analysis, vol. 32, no. 4, May 2024, pp. 401–16, doi:10.1017/pan.2024.5.Edin, Kathryn J., et al. “Listening to the Voices of America.” RSF: The Russell Sage Foundation Journal of the Social Sciences, vol. 10, no. 5, Aug. 2024, pp. 1–31, doi:10.7758/rsf.2024.10.5.01.Goldthorpe, John H. Sociology as a Population Science. Cambridge University Press, 2016.Groves, Robert M., et al. Survey Methodology. John Wiley & Sons, 2011.Holland, Paul W. “Statistics and Causal Inference.” Journal of the American Statistical Association, vol. 81, no. 396, Dec. 1986, pp. 945–60, doi:10.1080/01621459.1986.10478354.Neyman, Jerzy. “Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability.” A Selection of Early Statistical Papers of J. Neyman, University of California Press, 2023, pp. 250–90, https://doi.org/10.2307/jj.8501421.24Santurkar, Shibani, et al. “Whose Opinions do Language Models Reflect?” arXiv.org, 30 Mar. 2023, https://arxiv.org/abs/2303.17548Verhagen, Mark D., et al. “The Book of Life Approach: Enabling Richness and Scale for Life Course Research.” arXiv.org, 2 July 2025, https://arxiv.org/abs/2507.03027Xie, Yu. “Population Heterogeneity and Causal Inference.” Proceedings of the National Academy of Sciences of the United States of America, vol. 110, no. 16, 2013, pp. 6262–68, doi:10.2307/42590407.Xie, Yu, and Yueqi Xie. “Variance Reduction in Output from Generative AI.” arXiv.org, 2 Mar. 2025, https://arxiv.org/abs/2503.01033Boelaert, Julien, et al. “Machine Bias. How do Generative Language Models Answer Opinion Polls? .” Sociological Methods &Amp; Research, vol. 54, no. 3, Apr. 2025, pp. 1156–96, doi:10.1177/00491241251330582.Lundberg, Ian, et al. “The Origins of Unpredictability in Life Outcome Prediction Tasks.” Proceedings of the National Academy of Sciences, vol. 121, no. 24, June 2024, doi:10.1073/pnas.2322973121.参考文献可上下滑动查看「大模型时代下的Agent建模与仿真」读书会集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起「大模型时代下的Agent建模与仿真」读书会。

        读书会自2025年7月8日开始，每周二晚上7:30-9:30进行，现读书会已结束，支持查看课程回放。

        扫码加入Agent建模与仿真的前沿探索之旅，一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区，共同畅想大模型时代人工社会的未来图景！

        核心问题Agent建模与仿真是什么，核心技术发生了怎样的演变？

        大模型时代，Agent建模与仿真会给复杂系统理论带来哪些突破？

        大模型如何赋能Agent实现自主思考与动态适应？大模型驱动的Agent交互会涌现出什么新型的社会现象？

        Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式？

        你将收获梳理Agent建模与仿真的历史发展脉络与方法论；掌握一套理解、分析、控制、预测复杂系统的计算实验框架；掌握基于多主体强化学习的复杂系统优化方法；领略领域前沿学者的研究体系与科研路径。

        详情请见：大模型时代下的Agent建模与仿真：共探人工社会未来图景推荐阅读1. Science：大语言模型如何重塑科学产出2. 大语言模型的“涌现”之谜：能力还是智能？

        3. PNAS：大语言模型如何在不同语言中加剧知识鸿沟4. 诚招系统科学/AI/物理背景的内容创作者5. 集智学园精品课程免费开放，解锁系统科学与 AI 新世界6. 高考分数只是张入场券，你的科研冒险在这里启航！

        7. 加入集智字幕组：成为复杂科学知识社区的“织网人”#解读点击“阅读原文”，报名读书会

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247730988&idx=1&sn=5152017d9ce205b6ba64e2dab1b74946&chksm=e9bb4f3d4f41022c8c2de97032c95484f717466c67ea3a4c8127394b72b983aa4a427e385a13