最近刷B站看了好几个AI科普视频,讲大模型训练、数据量啥的。里面引用了一些数据,比如说GPT-3有1750亿参数、训练数据45TB什么的。但我自己在网上查到的数字好像不一样,有的说GPT-3实际参数是1750亿,但训练数据说法很多。
我本身就是做数据分析的,对这些数字比较敏感。感觉有些UP主为了讲得通俗,可能把数据简化了,甚至有点夸张。比如有个视频说“某模型训练用了全网数据”,这说法也太模糊了吧。
想问下懂行的朋友,这些科普视频里的数据到底靠不靠谱?有没有什么渠道能自己核实?还是说他们只是为了流量瞎编的?我怕信了错误的数据,以后跟别人讨论时闹笑话。求大佬解答。