Common Crawl — 公共网页抓取数据集

事实

公开的大规模网页抓取数据集，常用于模型预训练。

Common Crawl 是互联网夜市大扫货：广告、菜谱、论文全装袋，AI 先混个眼熟。

常作大模型预训练底料，也带来版权、隐私和脏数据。