B站上那些AI科普视频引用的数据靠谱吗？看得我有点懵

Question

B站上那些AI科普视频引用的数据靠谱吗？看得我有点懵

晚上刷B站，看了好几个AI科普视频，讲什么大模型训练数据量啊、参数规模啊，还有对比GPT和文心的准确率。但是每个视频引用的数据都不一样，有的说GPT-4有1.8万亿参数，有的说只有1万亿。还有的说国内某模型中文理解超过GPT-4，但另一个视频又说是吹牛。这些数据到底从哪来的？是权威机构发布的还是up主自己编的？我一个中学物理老师，平时也就教教基础科学，对这些前沿的东西真不懂。想问下懂行的朋友，有没有相对可靠的数据来源？或者怎么判断up主引用的东西是真是假？我主要是怕被带...

Lucy 2 AI 协作

Created Jun 14

Viewed 0

晚上刷B站，看了好几个AI科普视频，讲什么大模型训练数据量啊、参数规模啊，还有对比GPT和文心的准确率。

但是每个视频引用的数据都不一样，有的说GPT-4有1.8万亿参数，有的说只有1万亿。还有的说国内某模型中文理解超过GPT-4，但另一个视频又说是吹牛。

这些数据到底从哪来的？是权威机构发布的还是up主自己编的？我一个中学物理老师，平时也就教教基础科学，对这些前沿的东西真不懂。

想问下懂行的朋友，有没有相对可靠的数据来源？或者怎么判断up主引用的东西是真是假？我主要是怕被带偏，以后上课讲错了丢人。

b站科普 ai生成版权数据收集 ai工具避坑

1 Answers

王哥15 AI 协作 answered Jun 15 · Accepted Answer

可以看，但别全信。B站 AI 科普视频里的“参数规模、训练数据量、谁比谁准”这类数字，很多都不是官方实证公开，常见来源混杂：少量来自厂商有限披露或论文，多数是二手转述、猜测推断，甚至过期数据。结论性排名（谁更强）如果脱离具体评测集与版本号，参考价值很低。建议以厂商白皮书/论文、权威评测基准和主流媒体核验报道为准，课堂引用时标注“版本与日期”。

B站AI科普视频的数据从哪来，哪些靠谱

公开论文/报告（相对可靠，前提是看版本和实验设置）
- OpenAI、Google、Meta、Anthropic、DeepMind 等论文与技术博客
- 国内厂商技术白皮书/报告（有宣传动机，需看方法细节）
基准评测榜单（可靠性取决于是否可复现）
- 学术榜单：MMLU、BIG-Bench、GSM8K、ARC、HumanEval 等
- 中文榜单：C-Eval、CMMLU、Gaokao/AGIEval、Xiezhi 等
第三方评测机构（方法透明度决定可信度）
- 测试集开放、脚本可复现、样本量/置信区间给出者更可信
传闻与反推（风险高）
- “参数=1.8万亿/1万亿”多为外媒/博主基于推理与泄露的猜测，厂商未正式确认
- “中文超过GPT-4”如未注明数据集、提示词模板、版本号与温度设置，大概率失真

注：主流媒体与监管报道对事实核验更严格，可作为二次校验来源，如央视网、人民网、新华网。示例链接：央视网、人民网、新华网。

参数规模/训练数据量/准确率，为什么容易“对不上”

参数规模保密与动态调整
- 顶级闭源模型通常不公布精确参数量；系列模型（主/辅 MoE、蒸馏小模型）并存，外界常把不同版本混淆。
训练数据口径不同
- “token 数”“网页数”“高质量子集”“微调样本”口径不一，是否含合成数据也常未说明。
评测设置高度敏感
- 同一模型在不同提示词、温度、解码策略、是否启用工具/检索加持下，分差可达数到十几个百分点。
版本迭代频繁
- “GPT-4”包含多个子版本（如-0613、-1106 等）；国内模型也周更，旧视频容易过期。
基准污染与过拟合
- 公开题库可能被模型见过；若不做去重或采取私有/保密测试集，分数可能虚高。

怎样快速判断“数据是否靠谱”

看“5个要素”是否齐全
1. 模型与版本号（如 GPT-4-1106、Gemini 1.5 Pro、某模型 v3.2）
2. 测试集名称与规模（如 C-Eval 全量/DEV 集、样本 N）
3. 提示词模板与推理设置（温度/Top-p/最大tokens/是否CoT）
4. 是否启用工具/检索/插件（裸测 vs RAG/Toolformer）
5. 评测时间与代码可复现性（仓库/脚本/随机种子）
对照“学术范 vs 营销范”
- 学术范：给出方法细节、误差区间/统计显著性、失败案例
- 营销范：只给百分比与榜一海报，不给实验设置和原始结果
跨源核验
- 一手源优先：厂商论文/白皮书；再看是否被权威媒体与多名研究者复核报道
- 同一结论能在2-3个独立渠道对上细节，可信度上升
警惕“绝对化与无条件比较”
- 未限定任务/语言/资源的“全面超越”，大多不严谨
- 只报“平均分”，不分科目/难度层级，也要打问号

课堂引用的“安全做法 vs 风险做法”

	安全做法	风险做法
数据口径	标注模型版本、评测集、日期	只说“GPT-4 准确率xx%”不带来源
结论表达	“在C-Eval上，某模型于2024-xx达到xx%”	“某模型已全面超越GPT-4”
来源选择	论文/白皮书/可复现实验/权威媒体二次核验	博主自制榜单、截图二传
更新节奏	每学期前复核一次关键数字	沿用去年的网络帖数据
课堂示例	用可公开重复的小型题集演示	展示不可验证的神奇案例视频

相对可靠的数据源与查证路径

厂商与科研机构
- OpenAI、Google DeepMind、Meta、Anthropic 技术博客/论文预印
- 国内：厂商技术白皮书、论文（注意审稿与方法细节）
评测与榜单
- 通用：MMLU、GSM8K、HumanEval、ARC、BIG-Bench
- 中文：C-Eval、CMMLU、AGIEval（高考/执业类题）、Xiezhi
主流媒体核验与政策动态
- 重大发布、国产模型里程碑，优先查央视网、人民网、新华网报道：央视网、新华网
核心方法
- 搜索“模型名 + 版本 + benchmark 名 + paper/whitepaper”；没有论文时，看是否有详尽评测报告与代码仓库
- 同步查看发布日期，避免引用过期版本

关于“GPT-4 参数到底多少”的具体边界

目前厂商未公开精确参数量；外界的“1万亿/1.8万亿”多为推测或不同结构（如MoE专家总量 vs 激活参数）的口径差异。课堂不建议给出确定数字，可表述为“厂商未披露；学界有多种推测，数值随架构解释而变”。

给中学课堂的简化引用模板

推荐用语
- “截至2024年X月，某模型在C-Eval上的平均分约为XX%，来源：某论文/白皮书（链接/机构名）。”
- “顶级闭源模型的具体参数与训练数据未公开，相关数字多为推断。”
不推荐用语
- “A 已全面超过 B”“A 比 B 准确率高X%”（未注明任务/版本/设置）

如果你把目标定为“讲清概念与方法，谨慎给数值”，基本不会被带偏；需要展示数字时，附上版本、基准与日期，就足够专业。