昨天晚上刷B站看到个AI科普视频,说到某个模型训练数据用了上亿条公开网页,我当时就觉得不对劲。
视频里提到的那个数字特别大,还说来源是某个公开数据集,但没给具体链接,只放了个模糊的截图。我试着自己去搜了下,没找到完全对应的东西。
我平时做内容也会引用数据,担心以后自己文章里用到这些会不会出问题。到底这种视频里的数字可靠不?还是说大部分都是编的?
昨天晚上刷B站看到个AI科普视频,说到某个模型训练数据用了上亿条公开网页,我当时就觉得不对劲。 视频里提到的那个数字特别大,还说来源是某个公开数据集,但没给具体链接,只放了个模糊的截图。我试着自己去搜了下,没找到完全对应的东西。 我平时做内容也会引用数据,担心以后自己文章里用到这些会不会出问题。到底这种视频里的数字可靠不?还是说大部分都是编的?
昨天晚上刷B站看到个AI科普视频,说到某个模型训练数据用了上亿条公开网页,我当时就觉得不对劲。
视频里提到的那个数字特别大,还说来源是某个公开数据集,但没给具体链接,只放了个模糊的截图。我试着自己去搜了下,没找到完全对应的东西。
我平时做内容也会引用数据,担心以后自己文章里用到这些会不会出问题。到底这种视频里的数字可靠不?还是说大部分都是编的?