01
复习
查看今天到期的语法点和术语,挑哪个练
Wozniak (FSRS-5);Carpenter 2012 spaced retrieval meta
一
不是说 AI 不能陪聊,是要 AI 真的让学生学好。
学生说一句 → AI 答一句
学生答工具卡 → 服务端判分 + 落事件
答完没痕迹,下次重头开始
进 FSRS mastery + 学生画像,跨回合记得
题目随机抽,不针对
学生模型驱动 → 针对最近错的语法点出题
评分模糊夸赞("Great!" / "Excellent!")
Azure 发音逐音素评分 + 反虚夸 D-Gate
上次聊过的事下次忘
tool_result_seen 事件 + 完整题目 + 学生答案进 priming
学生不开口,AI 直接讲
阶梯协商(方向→词汇→答案)+ Socratic 引导先想
左栏为对照基准,右栏为同济外语 AI 实现路径。
二
学生界面底部 5 个功能。每个对应一个真实学习需求 + 一个二语习得机制, 不是单纯换“题型”。
01
查看今天到期的语法点和术语,挑哪个练
Wozniak (FSRS-5);Carpenter 2012 spaced retrieval meta
02
系统拉你最近错的语法点,出针对题
Swain 1985;Bastani PNAS 2025
03
全矩阵效应量最高
真实场景持续对话,直到达成场景目标
Mackey 2012 meta;Long 1996 Interaction Hypothesis
04
AI 给目标句,Azure 逐音素评分
Saito & Plonsky 2019 pronunciation automated feedback
05
SGR 14 天图 + 弱点列表 + 学习画像
Zimmerman 2002 SRL framework
Hedges' g 来自 SLA 元分析。引文链接到 docs/superpowers/specs/2026-05-23-r*.md (项目研究 spec)。
三
产品不是凭空设计 —— 9 个二语习得 (SLA) 机制 + 2 个 LLM 时代的新防御门,每条都有效应量数据或权威引文撑。
M1
Krashen 1985
在本产品
学生 CEFR 自适应 + 滑动窗口 16 条上下文
引文:Norris & Ortega 2000 meta
效应量
g ≈ 0.608
M2
Swain 1985 / 1995
在本产品
填空 (fill_blank) + 词序 (order_words) + 跟读 (speak_prompt) + 对话 (mini_scenario)
引文:Shintani & Aubrey 2016 meta
效应量
g ≈ 0.576
M3
Mackey 2012 / Long 1996 Interaction Hypothesis
在本产品
协商对话 + Reveal 三级阶梯 + detect_error
引文:Mackey 2012 meta
效应量
g = 0.795
M4
Vygotsky 1978
在本产品
persona 教学风格 + 学生当前水平自适应难度
引文:Lantolf 2000
效应量
理论框架
M5
Wozniak (FSRS-5)
在本产品
FSRS mastery 表 + 复习 chip + 到期推送
引文:Carpenter 2012 spaced retrieval meta
效应量
OR ≈ 1.35 retention
M6
Ellis 2003 / Long 2015
在本产品
ESP 场景 + mini_scenario + 对话练 chip
引文:Bryfonski & McKay 2019 meta
效应量
g ≈ 0.27 – 0.38
M7
Schmidt 1990
在本产品
Highlight 标错 + 学生主动定位错误形式
引文:Robinson 1995 / Mackey 2006
效应量
强支撑 (无单 g)
M8
Sweller 1988
在本产品
一回合一张卡 + 卡内容自适应学生水平 + 不堆栈
引文:Paas & Sweller 2014
效应量
指导设计原则
M9
Zimmerman 1989 / 2002
在本产品
SGR 14 天图 + 进度 chip + 学生自查弱点
引文:Panadero 2017 meta
效应量
元认知关键
LLM 时代新增的两个防御门
D1
Bastani PNAS 2025
在本产品
isSubstantiveResponse Gate → 拒 "ja" / "ok" / "好" 这类划水
引文:Bastani et al. — AI tutor gaming
效应量
F1 失败模式实证
D2
Microsoft GenAI 2025
在本产品
assembleSystemPrompt 注入 "不要 Excellent!/Amazing!" 反虚夸约束
引文:Microsoft — GenAI sycophancy harm
效应量
F4 失败模式实证
全部引文 spec 在 docs/superpowers/specs/2026-05-23-r*.md (机制研究) + d*.md (防御门失败模式研究)。本表的“在本产品”列每一条都能精确定位到代码 / 表 / chip。
四
学生每个动作都进事件流。事件流变成学生画像。学生画像驱动下一道题。这才是“针对学生错误点动态生成”的真实现。
这条闭环目前生产环境已通 (youcaiji.xyz,50+ 天)。
每个节点代表一个事件类型,全部落本地 PostgreSQL,无外发。
题目内容自 2026-05-29 起在 priming 中保留 (P0),学生答题进 Pipeline 自 2026-05-29 起 (P0.5)。
针对练入口自 2026-05-29 起注入弱点上下文 (P2)。
代码锚点
数据流隔离 · 不外发
数据流全闭环,三道隔离:
五
两套掌握度系统各管一摊 —— 一套从你说的话里读懂你的弱点, 一套从你答的题里安排复习。一座单向桥把两者接起来。
为什么两套而不是一套:对话信号带噪 (AI 从自由对话里推断)、做题信号确定 (服务端逐题裁定)。各用最合适的算法 (BKT/HLR vs FSRS),不互相污染。
桥是单向的 —— 只让高质量的「做题判分」去校准带噪的「对话画像」,不反向、不合表。
北极星不是单一分数,是一组并列指标派生的档位 —— 防「刷时长/对话轮次」这类虚荣指标。
两套掌握度系统
北极星 · 不用虚荣指标
六
为什么我们把 5 个工具栏按钮藏起来。
手机屏幕高 800px,header 占 120px,输入框 100px,一条 AI 消息 200px。学生真正能看到的内容空间只剩 380px。
任何“常驻工具栏”都在偷这 380px。我们的纪律是:工具栏只在学生有意图时才出现 —— 跟豆包一致,跟微信一致,跟所有亿级 App 的常识一致。
右边手机界面演示:默认整洁;点击输入框,工具栏滑入;学生失去焦点,自动收起。一次手势成本,换 88px 长期空间。
一个学生通常看不见的功能,用了这么多较真。这是我们的纪律。
以下为产品实际界面演示
点右侧手机的输入框 →
默认关闭 TTS 朗读
不强加发声打扰自习,学生主动按右上角开关
历史会话用 skeleton 加载
不闪烁灰屏,不让学生盯着空白等
切换老师下拉条件渲染
只在多 instance 学生身上出现,不打扰单师场景
工具卡片视觉与对话流统一
卡片不破坏阅读节奏,不抢走老师讲解的注意力
七
2026-05 教师试用反馈精选回应。每条疑虑都对应一个产品机制,不是嘴上说说。
一
教师反馈
练习题目生成缺乏针对性,无法根据学生具体错误点动态生成
平台回应
学生模型记录每道题的题目+答案+对错,Learner Pipeline 异步提取语言事实进 student_skill_state。"针对练" 入口点击 → chat route 在喂 LLM 前查弱点 → 强制 practice_grammar 出针对题。
机制锚:M2 输出 (g=0.576) + M5 FSRS
二
教师反馈
缺乏教学过程呈现,更像术语库工具而非教学辅助
平台回应
教师后台 /teacher/students/[id]/language-profile 显示 SGR 14 天稳定度增长曲线(无图表依赖,纯 SVG)+ 学生画像(student_language_facts)+ 错例摘要。学习路径可追溯。
机制锚:M9 SRL + 北极星指标 SGR
三
教师反馈
材料提供要求不明确,使用门槛高
平台回应
极简上传 —— 老师只需 (a) 原文 PDF/PPTX (b) 一句目标说明("学生学完应能用过去时讨论旅行")。AI 自动抽术语库 + 抽语法点 + 抽场景候选,老师审核 / 编辑 / 删除 / 重排即可。
机制锚:教研室人力时间线 → 设计而非翻译
四
教师反馈
数据接口 / 部署方式 / 流量费用 / 技术栈安全
平台回应
完全私有部署(youcaiji.xyz 已运行 ~50 天)。LLM 走中国白名单(qwen / deepseek / wenxin)。学生语音不离服务器,音频文件保留期可配置。所有事件落本地 PostgreSQL,无外发。Docker compose 一键部署 / 回滚。
机制锚:王主任红线"persona 版本锁定"扩展为整体数据红线