不要让 AI 批改自己的试卷 —— 一次 16 处遗漏的协作复盘

不要让 AI 批改自己的试卷 —— 一次 16 处遗漏的协作复盘 Tokscale 是一个开源的 AI 编程助手用量统计工具。它扫描本地各 AI 编程助手(Claude Code、Codex CLI、Gemini CLI 等)的会话文件,解析每次对话的 token 消耗量并汇总成本。技术上,Rust Core 负责解析各家助手的本地会话格式并提取 token 数据,TypeScript CLI/TUI/Frontend 负责过滤、展示和提交统计结果。 ...

二月 18, 2026 · 18 分钟 · 12294 字 · Miss-you

从一个 WebSocket 到四个组件:多端操控 AI Coding CLI 的架构演化

从一个 WebSocket 到四个组件:多端操控 AI Coding CLI 的架构演化 手机远程操控电脑上的 AI Coding CLI,直觉上只需一个 WebSocket。CLI 在电脑上跑着,手机连上去,发消息,收输出,结束。 ...

二月 17, 2026 · 21 分钟 · 17731 字 · Miss-you

追赶者困境

谈到 LLM 产业,很多人会说「追赶者优势」。后发者少踩坑,跟进成本更低。真格基金合伙人戴雨森在张小珺的年终对话里讲得直接:美国头部实验室的高投入,「无法阻止中国模型低成本跟进」。 ...

一月 13, 2026 · 14 分钟 · 7812 字 · Miss-you
设计游戏的人,才不会被游戏玩

像玩游戏那样玩 AI

像玩游戏那样玩 AI 1/4 一个反直觉的问题 凌晨两点十七分,你对自己说「这是最后一条」。两点四十三分,你又说了一遍。 第二天早上,你下载了一个 AI 工具。用了五分钟,关掉了。图标沉到第三屏,再也没打开。 ...

十二月 29, 2025 · 4 分钟 · 2135 字 · Miss-you

AI经济学术语速查手册

整理了一批常用且"AI+经济学/计量+业务实践"里高频出现的术语,便于自己日常查询使用 主要有四种: 核心AI与经济概念 (Core AI & Economic Concepts):最宏观、最基本的术语。 商业与财务 (Business & Finance):企业运营和财务绩效相关的术语。 AI技术与实现 (AI Technology & Implementation):更具体的技术和工程术语。 研究方法与统计 (Research Methods & Statistics):经济学论文中用于因果推断的计量方法。 1. 核心AI与经济概念 (Core AI & Economic Concepts) GenAI (Generative AI): 生成式人工智能 解释:能够创造新内容(如文本、图像、代码)的AI系统。这是当前AI浪潮的核心。 LLM (Large Language Model): 大语言模型 解释:GenAI的一种,特指基于海量文本数据训练的、能理解和生成人类语言的模型,如GPT-4。 Agentic AI / Agentic Web: 智能体AI / 智能体网络 解释:能够设定目标、记忆、学习并自主执行复杂任务的下一代AI系统及其构成的生态。 AGI (Artificial General Intelligence): 通用人工智能 解释:拥有与人类同等或更高智慧,能解决任何智力任务的理论上的AI。是AI发展的远期目标。 GPT (General Purpose Technology): 通用目的技术 解释:指像蒸汽机、电力、互联网一样,能够对整个经济产生深远、广泛影响的基础性技术。AI被普遍视为一种新的GPT。 TFP (Total Factor Productivity): 全要素生产率 解释:衡量生产效率的宏观经济指标,指不能由资本和劳动等要素投入解释的产出增长部分,通常归因于技术进步。 CES/Cobb-Douglas (Constant Elasticity of Substitution / Cobb-Douglas Production Function): CES/科布-道格拉斯生产函数 解释:经济学中描述生产要素(如资本与劳动)如何组合产出的函数形式。CES函数允许不同的替代弹性(σ),而科布-道格拉斯是其特例(σ=1)。在AI经济研究中,用于建模技术、人力资本和AI之间的替代或互补关系,分析自动化对要素需求的影响。 σ (Elasticity of Substitution): 替代弹性 解释:衡量生产要素之间可替代程度的参数。σ>1表示要素易于替代(如AI可替代劳动),σ<1表示互补性强(AI需配合人类技能)。在AI经济学中,替代弹性决定了自动化技术对就业和工资的影响方向:高替代弹性意味着AI更可能替代工人,低替代弹性则促进协同增效。 SBTC/RBTC (Skill-Biased Technological Change / Routine-Biased Technological Change): 技能偏向/常规任务偏向技术变革 解释:SBTC指技术进步提高了对高技能劳动的需求,扩大技能溢价和工资不平等(1980-2000年代主导叙事)。RBTC进一步细化,指技术主要替代常规性任务(无论高低技能),导致中等技能岗位空心化(job polarization)。GenAI时代的研究关注其是否延续RBTC模式,或转向认知任务偏向(CBTC)。 Complementarity/Substitution (Complementarity/Substitution): 互补性/替代性 解释:描述技术与劳动之间的两种基本关系。互补性指技术提升劳动生产率(如AI辅助工具增强人类能力),替代性指技术直接取代人类完成任务(如自动化流水线)。GenAI同时展现两种特性:在创意、决策等领域互补,在数据处理、内容生成等领域替代,具体取决于任务特征和实施方式。 Network Effects (Network Effects): 网络效应 解释:产品或服务的价值随用户数量增加而提升的现象,也称需求侧规模经济。在AI平台经济中,更多用户生成更多数据,改进算法质量,吸引更多用户,形成正反馈循环(如社交媒体、在线市场)。网络效应是AI巨头形成市场支配地位的关键机制,也引发数据垄断和竞争政策关注。 Two-Sided Market (Two-Sided Market): 双边市场 解释:平台连接两类或多类相互依赖的用户群体(如司机-乘客、开发者-用户),并通过差异化定价协调供需的市场结构。AI平台(如应用商店、云服务市场)典型表现为双边市场,平台需平衡不同边的参与激励,常采用一边补贴(如免费开发者工具)另一边收费(如用户订阅)的策略。 Switching Costs (Switching Costs): 切换成本 解释:用户从一个产品/服务转向竞争对手时产生的成本,包括经济成本(迁移费用)、学习成本(适应新系统)和心理成本(失去积累数据)。在AI生态中,高切换成本(如专有数据格式、定制化模型、API依赖)形成用户锁定效应,降低市场竞争强度,是平台维持市场力量的重要工具。 Learning Curve (Learning Curve / Experience Curve): 学习曲线/经验曲线 解释:累计生产量增加导致单位成本下降的规律,源于生产经验积累、工艺优化和规模效应。在AI产业中,模型训练成本随数据和算力投入累积而下降,先发企业通过学习曲线效应建立成本优势。经验曲线是解释AI巨头竞争壁垒(如GPU采购规模、模型迭代速度)的重要框架。 O*NET (Occupational Information Network): 职业信息网络 解释:美国劳工部维护的职业任务与技能数据库,详细记录每个职业的工作活动、技能要求、工作背景等标准化信息。AI经济学研究中,ONET是构建"任务暴露度"指标的核心数据源:研究者将AI能力与ONET任务描述匹配,量化不同职业受AI影响的程度(如Felten、Eloundou等的暴露度指标)。 SOC/NAICS (Standard Occupational Classification / North American Industry Classification System): 标准职业分类/北美行业分类系统 解释:SOC是美国政府用于职业统计的标准分类体系(如Software Developers属15-1252),NAICS是行业分类体系(如软件出版业属511210)。AI经济研究依赖这些分类系统关联不同数据源(如劳动力统计、企业调查、O*NET任务数据),分析AI在职业-行业层面的影响差异和传导机制。 PIAAC (Programme for the International Assessment of Adult Competencies): 国际成人能力评估项目 解释:OECD组织的大规模国际调查,评估成人在读写、数理和问题解决等领域的实际技能水平(非学历),涵盖多国样本。在AI与技能研究中,PIAAC数据用于衡量实际认知能力分布、匹配任务需求与技能供给、分析技能错配(skill mismatch)问题,补充基于教育年限的人力资本测量。 Scaling Laws (Scaling Laws): 标度律/缩放定律 解释:描述AI模型性能(如损失函数、准确率)与模型规模(参数量)、训练数据量、计算资源(FLOPs)之间幂律关系的经验规律。OpenAI等机构研究表明,性能提升主要受最稀缺资源约束,且呈现可预测的规模回报。Scaling laws是理解AI能力边界、预测技术进步路径、评估经济可行性(如算力成本与性能收益权衡)的关键工具。 2. 商业与财务 (Business & Finance) P&L (Profit and Loss): 损益表 解释:展示公司在一定时期内收入、成本、费用和利润的财务报表。 EBIT (Earnings Before Interest and Taxes): 息税前利润 解释:衡量企业核心运营盈利能力的指标,排除了利息和税收这两个非运营因素的影响。 ROI (Return on Investment): 投资回报率 解释:衡量投资效益的财务比率,计算公式为 (投资收益 / 投资成本) * 100%。 KPI (Key Performance Indicator): 关键绩效指标 解释:用于量化和衡量业务目标达成度的具体指标,例如网站的"日活跃用户数"或销售的"月度转化率"。 SMBs (Small and Medium-sized Businesses): 中小型企业 解释:通常指员工人数和年收入在特定规模以下的企业,是讨论技术普及和经济影响时的重要分析对象。 BPO (Business Process Outsourcing): 业务流程外包 解释:企业将客户服务、人力资源等非核心业务流程交由第三方公司处理的商业模式。AI正在深刻改变这一行业。 SaaS (Software as a Service): 软件即服务 解释:一种通过互联网订阅使用的软件模式,用户无需本地安装。多数AI工具都采用此模式。 CRM (Customer Relationship Management): 客户关系管理 解释:用于管理公司与现有及潜在客户互动的系统或软件(如Salesforce)。AI正被广泛集成进CRM以提升销售和客服效率。 SLA (Service Level Agreement): 服务级别协议 解释:服务提供商(如云服务、BPO公司)对其服务质量、可用性、响应时间等做出的量化承诺。 CIO / COO: 首席信息官 / 首席运营官 解释:公司高层管理者,CIO负责信息技术战略,COO负责日常运营。他们在推动AI落地中扮演关键角色。 Prosumers (Producer + Consumer): 生产型消费者 解释:既消费产品,又深度参与产品创造、改进或推广的用户。在AI领域,指那些能熟练使用AI工具并创造价值的早期采用者。 ESG (Environmental, Social, and Governance): 环境、社会和治理 解释:评估企业可持续性和社会影响的一套标准。有时也指代提供此类评级的公司。 TCO (Total Cost of Ownership): 全生命周期成本 解释:衡量IT系统或产品从采购、部署到运维、退役的全周期总成本,综合计算资本支出(CapEx)与运营支出(OpEx),帮助企业进行更全面的成本效益分析和采购决策。 CAC/LTV (Customer Acquisition Cost/Lifetime Value): 获客成本/用户终身价值 解释:CAC指获取单个新客户所需的平均营销和销售成本;LTV指单个客户在整个生命周期内为企业带来的总收益。LTV/CAC比值是衡量商业模式健康度的关键指标,通常该比值应大于3。 ARR/MRR (Annual/Monthly Recurring Revenue): 年度/月度经常性收入 解释:SaaS和订阅制企业的核心财务指标,ARR是年度可预期的重复性收入,MRR是月度重复性收入。这些指标帮助企业预测现金流、评估业务增长稳定性,是投资者评估订阅制企业价值的重要依据。 ARPU (Average Revenue Per User): 每用户平均收入 解释:特定时期内总收入除以活跃用户数,是衡量用户变现能力的关键指标。ARPU的提升可通过增加用户付费率、提高定价或促进用户升级到高价值套餐来实现,常用于SaaS、电信和互联网行业。 Churn (Churn Rate): 流失率 解释:特定时期内停止使用产品或取消订阅的客户比例,是订阅制和ToB业务的健康度核心指标。包括客户流失率(Customer Churn)和收入流失率(Revenue Churn),低流失率意味着更高的客户留存和可预测收入。 Unit Economics: 单位经济模型 解释:通过分析单个客户或单次交易的收入与成本,评估商业模式在微观层面的盈利性。核心指标包括单客户获取成本、单客户收益、边际贡献等,是判断业务是否可规模化扩张的基础。 TAM/SAM/SOM (Total/Serviceable/Obtainable Market): 总市场/可服务市场/可获取市场 解释:市场规模的三层分析框架:TAM是理论上的总市场规模;SAM是产品实际能服务的细分市场;SOM是短期内实际可获取的市场份额。这一框架帮助企业制定现实的市场策略和增长目标。 PMF (Product-Market Fit): 产品-市场匹配 解释:产品满足强烈市场需求的状态,是创业公司的关键里程碑。达成PMF的标志包括:用户自发推荐、高留存率、强烈的产品需求。Marc Andreessen认为这是创业成功的首要条件。 On-Prem (On-Premises): 本地化部署 解释:软件或系统部署在客户自有的服务器和基础设施上,而非云端。与SaaS模式相对,On-Prem提供更高的数据控制权和安全性,但需要客户自行承担硬件、运维和升级成本,常见于对数据主权有严格要求的企业和行业。 PaaS (Platform as a Service): 平台即服务 解释:云计算服务模型之一,提供包括操作系统、中间件、数据库、开发工具在内的完整应用开发和部署平台。开发者无需管理底层基础设施,专注于应用程序开发,典型代表包括Heroku、Google App Engine。 IaaS (Infrastructure as a Service): 基础设施即服务 解释:云计算的基础层服务模型,提供虚拟化的计算资源(服务器、存储、网络),用户可按需租用并自行配置操作系统和应用。相比传统IT采购,IaaS提供更高的灵活性和成本效益,代表厂商包括AWS EC2、Azure、阿里云。 SLO (Service Level Objectives): 服务等级目标 解释:服务可靠性的量化目标,定义系统在特定时间段内应达到的性能指标(如可用性99.9%、响应时间<200ms)。SLO是SLA(服务等级协议)的基础,帮助团队在可靠性与开发速度之间找到平衡,是SRE文化的核心实践。 3. AI技术与实现 (AI Technology & Implementation) RAG (Retrieval-Augmented Generation): 检索增强生成 解释:一种让LLM在生成回答前,先从外部知识库(如公司内部文档)检索相关信息的技术,以提高回答的准确性和时效性。 Fine-tuning: 微调 解释:在通用预训练模型的基础上,使用特定领域的数据进行二次训练,使其更适应特定任务(如法律合同分析、医疗诊断问答)。 HITL (Human-in-the-loop): 人机协同 / 人在回路 解释:一种AI系统设计模式,在关键决策点(如医疗诊断、内容审核)保留人工审核、确认或干预的环节,以确保安全和质量。 UI / UX (User Interface / User Experience): 用户界面 / 用户体验 解释:UI指用户与软件交互的视觉界面;UX指用户在使用产品过程中的整体感受。好的UI/UX对AI产品的成功至关重要。 API (Application Programming Interface): 应用程序编程接口 解释:允许不同软件程序相互通信和交换数据的"插座"。企业通过API将AI功能(如OpenAI的API)集成到自己的应用中。 NANDA (Networked Agents And Decentralized Architecture): 网络化智能体与去中心化架构 解释:由MIT提出的一个支持不同AI智能体之间互操作和协作的基础设施框架。 MCP / A2A (Model Context Protocol / Agent-to-Agent): 模型上下文协议 / 智能体到智能体协议 解释:与NANDA相关的技术协议,旨在为AI智能体之间的交流和数据交换建立标准。 SFT (Supervised Fine-Tuning): 监督微调 解释:在预训练大模型的基础上,使用带标注的任务数据进行进一步训练,是模型对齐的第一步。通过监督学习让模型学会遵循指令、回答问题等特定任务,是从基础模型到实用模型的关键环节。 RLHF/RLAIF (Reinforcement Learning from Human/AI Feedback): 基于人类/AI反馈的强化学习 解释:通过强化学习让模型学习人类偏好的对齐技术。RLHF使用人类标注员的偏好反馈,RLAIF则使用AI系统的反馈,两者都通过奖励模型引导模型生成更符合人类价值观和期望的输出,是ChatGPT等产品的核心技术。 DPO (Direct Preference Optimization): 直接偏好优化 解释:一种无需强化学习即可进行偏好对齐的优化方法。相比RLHF,DPO直接从偏好数据中学习,省去了训练奖励模型和复杂的RL训练流程,实现更简单、训练更稳定,成本更低。 LoRA (Low-Rank Adaptation): 低秩适配 解释:一种参数高效的微调技术,通过在模型层中插入低秩矩阵,只训练少量新增参数(通常<1%)即可适配下游任务。大幅降低微调的计算和存储成本,使得在消费级硬件上微调大模型成为可能。 Token: 词元 解释:LLM处理文本的基本单位,通常一个token对应一个词、词的一部分或标点符号(中文约1.5-2字/token)。是API计费、上下文长度限制、成本估算的基础度量单位。 Context Window: 上下文窗口 解释:模型在一次推理中能够读取和处理的最大token数量限制。例如32K、128K上下文窗口,决定了模型能"记住"多长的对话历史或文档内容,是衡量模型能力的重要指标。 Hallucination: 幻觉 解释:LLM生成看似合理但实际虚假或无根据内容的现象。模型可能编造事实、引用不存在的文献、虚构数据等,是当前LLM应用中需要重点防范的风险,需通过RAG、Grounding等技术缓解。 Inference: 推理 解释:模型部署后实际调用生成结果的过程,对应训练(Training)概念。推理性能(延迟、吞吐)和成本是生产环境的核心关注点,涉及模型压缩、硬件加速、批处理等优化技术。 PPL (Perplexity): 困惑度 解释:衡量语言模型预测质量的常用指标,数值越低表示模型对文本的预测越准确。在技术层面,困惑度是模型在测试数据上交叉熵的指数,常用于评估预训练和微调效果。 Pass@k/EM (Pass@k/Exact Match): 通过率@k/精确匹配 解释:代码生成和问答任务的评测指标。Pass@k指生成k个候选答案中至少有一个通过测试用例的比例;EM指生成答案与标准答案完全一致的比例,是评估模型准确性的严格标准。 Embedding: 向量嵌入 解释:将文本、图像等数据转换为固定长度的数值向量表示,使得语义相似的内容在向量空间中距离接近。是语义检索、相似度匹配、RAG系统的基础技术,通过专门的Embedding模型生成。 Vector DB/ANN (Vector Database/Approximate Nearest Neighbor): 向量数据库/近似最近邻 解释:专门用于存储和检索高维向量的数据库系统及其核心算法。ANN算法通过牺牲少量精度换取检索速度的大幅提升,使得在百万、亿级向量中毫秒级找到相似向量成为可能,是RAG系统的基础设施。 Cosine Sim. (Cosine Similarity): 余弦相似度 解释:衡量两个向量方向相似性的度量方法,取值范围-1到1,值越接近1表示越相似。在向量检索中,常用余弦相似度评估文本语义相似性,不受向量长度影响,只关注方向。 HNSW/FAISS (Hierarchical Navigable Small World/Facebook AI Similarity Search): HNSW图/FAISS库 解释:两种主流的ANN索引实现技术。HNSW是基于图的多层导航结构,查询速度快;FAISS是Meta开源的向量检索库,支持多种索引算法和GPU加速,广泛应用于生产环境的向量检索系统。 Grounding: 事实锚定 解释:将模型生成内容与可靠外部来源(如权威文档、数据库、搜索结果)关联的技术,确保输出有据可查。通过引用来源、展示证据链等方式提高答案可信度,是减少幻觉、增强可解释性的重要手段。 Tool Use/Function Calling: 工具调用/函数调用 解释:让LLM能够调用外部工具、API或执行函数的能力。模型可以识别何时需要使用工具、生成正确的调用参数,并整合返回结果,使LLM从纯文本生成扩展到完成实际任务(如查询数据库、调用计算器、操作系统等)。 CoT (Chain-of-Thought): 思维链 解释:一种提示技术,引导模型在给出最终答案前,先生成中间推理步骤。通过"让我们一步步思考"等提示,显著提升模型在数学、逻辑等复杂推理任务上的表现,是学术界和工程实践中广泛应用的Prompt Engineering方法。 PII (Personally Identifiable Information): 可识别个人信息 解释:能够直接或间接识别特定个人身份的信息,如姓名、身份证号、手机号、邮箱等。在AI应用中需严格保护PII,遵守GDPR、个人信息保护法等法规,通过脱敏、加密、访问控制等手段确保数据合规。 SDK (Software Development Kit): 软件开发工具包 解释:为开发者提供的一套集成工具、库、文档和示例代码的软件包,简化应用开发流程。AI厂商通常提供SDK封装API调用,处理认证、重试、流式传输等底层细节,让开发者专注业务逻辑。 ETL/ELT (Extract-Transform-Load/Extract-Load-Transform): 抽取-转换-加载/抽取-加载-转换 解释:数据管道的两种架构模式。ETL先转换再加载,适合传统数仓;ELT先加载原始数据再转换,利用现代数仓的计算能力,在AI数据准备中常用于构建训练数据、知识库等场景。 4. 研究方法与统计 (Research Methods & Statistics) DiD (Difference-in-Differences): 双重差分法 解释:一种经典的准实验方法,通过比较一个受政策影响的"处理组"和一个未受影响的"参照组"在政策前后的变化差异,来估计政策的因果效应。 Event Study: 事件研究法 解释:常被视为DiD的动态版本,通过观察某个事件(如AI发布、政策实施)发生前后,目标变量(如股价、生产率)的时间序列变化来评估事件影响。 IV (Instrumental Variables): 工具变量法 解释:当怀疑自变量(X)和因变量(Y)之间存在内生性问题(如反向因果、遗漏变量)时,引入一个"工具变量"(Z),Z只通过X影响Y,而不直接影响Y,从而分离出X对Y的纯粹因果效应。 RDD (Regression Discontinuity Design): 回归断点设计 解释:一种利用规则或阈值(如分数线、年龄限制)来估计因果效应的方法。它比较阈值两侧非常接近的个体,认为他们的差异主要是由该规则造成的。 OLS (Ordinary Least Squares): 普通最小二乘法 解释:最基础和常用的线性回归技术,用于估计变量间线性关系的系数。 Fixed Effects (FE): 固定效应 解释:在面板数据分析中,用于控制那些不随时间变化的、难以观测的个体异质性(如公司文化、地区特征)的一种统计方法。 Natural Experiment: 自然实验 解释:指现实世界中发生的、其影响类似于随机实验的事件(如政策突变、自然灾害),为研究者提供了识别因果关系的机会。 Exclusion Restriction: 排除性限制 解释:工具变量法成立的核心假设,即工具变量除了通过影响内生自变量外,不能有任何其他途径影响因变量。 RCT (Randomized Controlled Trial): 随机对照试验 解释:因果推断的黄金标准方法,通过随机分配受试者到处理组和对照组,确保两组在统计上可比较,从而消除选择偏差,准确识别因果效应。广泛应用于医学、政策评估和产品实验。 PSM (Propensity Score Matching): 倾向得分匹配 解释:一种准实验方法,通过估计个体接受处理的概率(倾向得分),将处理组和对照组中倾向得分相似的个体进行匹配,从而模拟随机化实验,减少选择偏差,用于观测数据的因果推断。 IPW (Inverse Probability Weighting): 逆概率加权 解释:一种通过加权调整样本分布来纠正选择偏差的方法。对每个观测赋予权重(接受处理概率的倒数),使加权后的样本分布接近随机化实验的分布,常与倾向得分结合使用进行因果推断。 TWFE (Two-Way Fixed Effects): 双向固定效应 解释:面板数据分析中的常用回归模型,同时控制个体固定效应和时间固定效应,是双重差分法(DiD)的标准实现方式。能够控制不随时间变化的个体特征和影响所有个体的时间趋势。 Staggered Adoption: 交错采用 解释:政策或干预措施在不同时间点分批次实施的情境,不同个体或地区在不同时期接受处理。这种设计下的双重差分分析需要特别注意处理时间异质性和动态效应,传统TWFE方法可能产生偏误。 ATT/ATE/ATC (Average Treatment effect on the Treated/Effect/on the Controls): 处理组/总体/对照组平均效应 解释:因果推断中三种不同的平均处理效应定义。ATT衡量实际接受处理者的平均效应,ATE衡量总体的平均效应,ATC衡量未接受处理者假设接受处理的平均效应。不同估计量适用于不同的政策问题。 LATE (Local Average Treatment Effect): 局部平均处理效应 解释:工具变量方法估计的因果效应,特指工具变量影响下"合规者"(因工具变量改变而改变处理状态的子群体)的平均处理效应。LATE通常小于总体效应,其外推性取决于合规者的代表性。 ITT/TOT/CACE (Intention-To-Treat/Treatment-on-the-Treated/Complier Average Causal Effect): 意向治疗/实际接受处理/合规者平均因果效应 解释:处理不完全合规情境下的三种效应估计。ITT基于最初分配估计效应(保留随机化),TOT估计实际接受处理者的效应,CACE等同于LATE。ITT提供保守但稳健的下界估计。 SUTVA (Stable Unit Treatment Value Assumption): 稳定单元处理值假设 解释:因果推断的核心假设之一,要求个体的潜在结果不受其他个体处理状态的影响(无溢出效应),且处理只有一种形式(无隐藏变异)。违反SUTVA会导致因果效应估计偏误,需要考虑网络效应或干扰。 Parallel Trends: 平行趋势假设 解释:双重差分法的核心识别假设,要求在没有政策干预的反事实情境下,处理组和对照组的结果变量趋势应当平行。通常通过事前趋势检验(pre-trend test)和事件研究图来验证该假设的合理性。 DAG (Directed Acyclic Graph): 有向无环图 解释:因果推断中用于表示变量间因果关系的图形工具,节点代表变量,有向边代表因果关系,“无环"确保无循环因果。DAG帮助研究者识别混淆变量、中介变量和对撞变量,指导控制变量的选择。 Backdoor/Frontdoor (Backdoor/Frontdoor Criteria): 后门/前门条件 解释:基于DAG的因果识别准则。后门准则要求控制变量集合阻断所有从处理到结果的"后门路径”(非因果关联路径),前门准则通过中介变量识别因果效应。这两个准则为控制混淆提供了形式化规则。 Weak IV: 弱工具变量 解释:工具变量与内生解释变量相关性较弱的情况,通常用第一阶段回归的F统计量诊断(经验阈值约为10)。弱工具变量会导致估计量偏误、置信区间失效和推断不稳健,需要使用专门的弱工具变量稳健推断方法。 Overidentification Test: 过度识别检验 解释:当工具变量数量多于内生变量时,可以检验工具变量的有效性假设(外生性)。常用的检验包括Sargan检验和Hansen J检验。拒绝原假设表明至少部分工具变量可能不满足外生性条件。 Synthetic Control: 合成控制法 解释:一种准实验方法,用于单个或少数处理单元的政策评估。通过对照组单元的加权组合构造一个"合成对照组",使其在干预前的特征和趋势与处理组尽可能匹配,用合成对照组的干预后结果作为反事实基准估计政策效应。 DML (Double/Debiased Machine Learning): 双重/去偏机器学习 解释:结合机器学习和因果推断的方法,在高维协变量情境下估计因果效应。通过样本分割和交叉拟合,使用机器学习预测干扰变量,同时保证目标因果参数估计的渐近正态性和有效推断,避免正则化偏差。 HTE (Heterogeneous Treatment Effects): 异质性处理效应 解释:不同子群体或个体对同一处理的效应存在差异。识别和估计HTE对于精准政策制定和个性化决策至关重要。常用方法包括子组分析、交互项回归、因果森林和元学习器等机器学习方法。 Clustered SEs (Cluster-Robust SEs): 聚类稳健标准误 解释:当数据存在聚类结构(如学生嵌套于学校、个体重复观测)且组内观测相关时,需要使用聚类稳健标准误进行推断。该方法允许组内任意相关性,但要求聚类数量足够大(通常建议至少30个聚类)。 Newey–West (Newey–West): NW稳健标准误 解释:一种异方差和自相关一致性(HAC)标准误估计方法,用于时间序列数据中存在自相关和异方差的情况。通过选择适当的滞后阶数(带宽),对协方差矩阵进行加权调整,使推断在违反经典假设时仍然有效。 Bootstrap: 自助法 解释:一种基于重抽样的统计推断方法,通过从原始样本中有放回地重复抽样,生成大量"自助样本",从而估计统计量的分布和不确定性。适用于难以得到解析解的复杂估计量,无需依赖渐近分布假设。 Multiple Testing/FDR (False Discovery Rate): 多重检验/错误发现率 解释:当同时进行多个假设检验时,需要调整显著性水平以控制假阳性率膨胀。FDR控制被拒绝原假设中错误拒绝的期望比例,相比传统的族错误率(FWER)控制方法(如Bonferroni校正)更具检验功效。 Bandwidth (RDD): 带宽选择 解释:断点回归设计中的关键调参,决定使用断点附近多大范围内的观测进行局部估计。带宽越小偏差越小但方差越大,带宽越大则相反。常用数据驱动的方法(如IK、CCT)进行最优带宽选择,平衡偏差-方差权衡。 McCrary Test: McCrary密度检验 解释:断点回归设计的有效性检验,检查分配变量(running variable)在断点处是否存在密度跳跃。如果个体可以精确操纵分配变量跨越断点,密度会出现不连续,违反断点回归的随机化假设,导致估计偏误。 A/B Test: A/B测试 解释:在线产品和服务中最常用的随机对照实验方法,通过随机将用户分配到不同版本(A版本和B版本),比较关键指标(如转化率、留存率)的差异,快速评估产品改进或策略调整的因果效应。 MDE (Minimum Detectable Effect): 最小可检出效应 解释:在给定样本量、显著性水平和检验功效下,实验能够可靠检测到的最小效应值。MDE是样本量规划的核心指标,MDE越小需要的样本量越大。在实验设计阶段评估MDE是否满足业务需求至关重要。 Power (Statistical Power): 检验功效 解释:当原假设为假时正确拒绝原假设的概率,记为1-β(β为第二类错误概率)。高功效意味着实验有足够能力发现真实存在的效应。功效分析用于实验设计阶段确定所需样本量,或事后评估未显著结果的可信度。 CTR/CR (Click-Through Rate/Conversion Rate): 点击率/转化率 解释:在线产品和数字营销中的核心业务指标。CTR衡量用户点击率(点击数/曝光数),CR衡量转化率(转化数/访问数)。这些比率型指标是A/B测试的常见目标变量,需注意比率估计的统计性质(如Delta方法)。 Uplift Modeling: 提升模型 解释:一类直接建模处理增量效应的机器学习方法,预测个体接受处理相对于不接受处理的结果差异(个体处理效应)。常用于精准营销和个性化推荐,识别对干预最敏感的用户,优化资源配置和投放策略。 Guardrail Metrics: 护栏指标 解释:在线实验中用于确保产品稳定性、用户体验和生态健康的监控指标。虽然不是实验的主要优化目标,但必须在可接受范围内(如页面加载时间、错误率、用户投诉)。护栏指标异常会触发实验暂停或回滚。 p50/p95/p99: 分位延迟 解释:用于描述系统性能和用户体验的分位数指标,分别表示50%、95%、99%的请求延迟低于该值。相比平均值,分位数对极端值不敏感,能更好地刻画用户实际体验。p95和p99常用于服务等级目标(SLO)设定。 Canary: 金丝雀发布 解释:一种渐进式发布策略,先将新版本部署到小比例流量(如5%),密切监控关键指标和护栏指标,确认无异常后再逐步扩大流量。这种方式能够在早期发现问题并快速回滚,降低发布风险,是工程实践中的风险控制手段。 MLE (Maximum Likelihood Estimation): 极大似然估计 解释:一种参数估计的基本方法,通过最大化观测数据在参数模型下的似然函数来估计参数值。MLE具有良好的大样本性质(一致性、渐近正态性、渐近有效性),是统计推断和计量经济学中最常用的估计方法之一。 Logit/Probit: 二项响应模型 解释:用于二元因变量(0/1)的回归模型。Logit模型假设误差项服从逻辑分布,Probit模型假设服从正态分布。两者通常给出相似结果,Logit模型的系数解释为对数几率比,计算更简便,在实证研究中更为常用。 RE (Random Effects): 随机效应 解释:面板数据模型的一种设定,假设个体特定效应与解释变量不相关,将个体效应视为随机误差的一部分。相比固定效应,随机效应模型更有效率且能估计时间不变变量的系数,但需要更强的外生性假设。Hausman检验用于选择固定或随机效应。 Heteroskedasticity: 异方差 解释:误差项方差随解释变量变化而变化,违反了经典线性回归的同方差假设。异方差会导致OLS标准误估计不一致,使推断失效(虽然系数估计仍然无偏)。常用稳健标准误(White标准误)或加权最小二乘法(WLS)处理异方差。 Normalization/Standardization: 归一化/标准化 解释:特征预处理的常用方法。归一化通常指将数据缩放到[0,1]区间(如Min-Max缩放),标准化指将数据转换为均值为0、标准差为1(Z-score标准化)。这些方法消除量纲影响,改善优化算法收敛性,在机器学习和因果推断中广泛应用。 Winsorize: 温莎化 解释:一种处理极端值的稳健方法,将分布两端超过特定分位数(如1%和99%)的值替换为该分位数的值,而不是直接删除。温莎化保留了样本量,减少极端值对估计的影响,在金融和经济数据分析中特别常用。 Z-score: Z分数 解释:标准化后的数据值,表示原始值距离均值有多少个标准差。Z-score = (X - μ) / σ。Z分数用于跨变量比较、异常值检测(通常|Z|>3视为异常)和标准化处理。在正态分布假设下,Z分数有明确的概率解释。 GLS (Generalized Least Squares): 广义最小二乘 解释:当误差项存在异方差或自相关时,OLS不再是最有效的估计量。GLS通过对观测值进行加权变换,使变换后的误差满足经典假设,从而获得更有效的估计。GLS需要已知误差的协方差结构,实践中常用可行GLS(FGLS)。

十月 6, 2025 · 24 分钟 · 15288 字 · Miss-you

拆解 ChatGPT“学习模式”Prompt:它为什么如此神奇?

用了几天ChatGPT学习模式后我被震到了。拿到系统提示词,发现里面设计相当有门道——它把认知科学理论变成了可执行规则。本文完整拆解官方Prompt,分析背后的学习科学原理,并动手重构自己的版本。

八月 5, 2025 · 10 分钟 · 7209 字 · lihui

与 AI 共事,或,思考的放大器

最近,我需要为一个画画教程写一段推荐语。这件小事让我面对一个根本问题:好的推荐必须诚实,它需要同时呈现优点和局限。任何只剩吹捧的推荐,都是一种欺骗。 ...

七月 19, 2025 · 3 分钟 · 1172 字 · Miss-you