公开的大规模网页抓取数据集,常用于模型预训练。
Common Crawl 是互联网夜市大扫货:广告、菜谱、论文全装袋,AI 先混个眼熟。
常作大模型预训练底料,也带来版权、隐私和脏数据。
Pretraining它常作为预训练语料,帮模型先学语言模式。
LLMLLM 常从这类海量网页中学习语言和常识。
Big Data它把网页抓取变成可下载、可复用的大数据。
Copyright网页内容进入训练集,容易触碰版权边界。