ITCOW牛新网 4月2日消息, 深度求索公司最新研发的”一种广度数据采集的方法及其系统”专利技术于4月1日正式公开。这项创新技术旨在解决大模型训练中的数据采集难题,通过智能优化算法显著提升网络数据获取的效率和质量。

深度求索数据采集新专利

据ITCOW牛新网了解, 该专利技术采用三大核心创新:

  • 通过智能链接发现机制扩大网页抓取范围;
  • 引入质量评估系统对未下载链接进行预判,避免低质内容采集;
  • 采用独立的信息回灌队列确保数据处理的稳定性。测试数据显示,新技术可减少约40%的重复下载和65%的低质量内容采集。

这项技术的研发背景源于大语言模型训练对高质量数据集的迫切需求。传统数据采集方法常导致目标网站过载崩溃,且难以保证数据多样性。深度求索的解决方案通过动态配额分配和择优下载机制,在提升数据质量的同时有效降低网络资源消耗。