AI Rookies

Common Crawl — 公共网页抓取数据集

事实

公开的大规模网页抓取数据集,常用于模型预训练。

人话

Common Crawl 是互联网夜市大扫货:广告、菜谱、论文全装袋,AI 先混个眼熟。

常作大模型预训练底料,也带来版权、隐私和脏数据。

相关概念

Pretraining
它常作为预训练语料,帮模型先学语言模式。

LLM
LLM 常从这类海量网页中学习语言和常识。

Big Data
它把网页抓取变成可下载、可复用的大数据。

Copyright
网页内容进入训练集,容易触碰版权边界。