网页归档方法、装置及电子设备与流程

allin2025-03-05  127


本申请属于数据处理领域,具体涉及一种网页归档方法、装置、电子设备及可读存储介质。


背景技术:

1、目前,随着互联网飞速发展,信息爆炸时代已经来临,网页信息不断丰富,从原先的文本信息,到图片、视频等多媒体信息,数据量激增,从原来字节级、千字节级的数据量,不断增大到太字节级的数据量。

2、随着数字化转型的推进,企业和个人对于网页信息归档保存的需求日益增长,而在具有持续维护性的网站上,每个网页都会因为资源地址的变动、内容的变化而更新或者消失。因此,对于具有时效性特征的网页信息,如何进行网页归档和保存,以保留网站的历史痕迹是相关技术中亟待解决的问题。


技术实现思路

1、本申请实施例提供一种网页归档方法、装置、电子设备及可读存储介质,能够解决相关技术中无法清晰、高效地进行网页归档的技术问题。

2、第一方面,本申请实施例提供了一种网页归档方法,该方法包括:遍历目标网站包含的所有网页,抓取各网页中的网页数据,其中,网页与网页数据之间具有对应关系;基于各网页的层级信息、各网页与网页数据之间的对应关系,将各网页中的网页数据以网络存档文件格式存储为网页归档文件。

3、第二方面,本申请实施例提供了一种网页归档装置,包括:处理模块,用于遍历目标网站包含的所有网页,抓取各网页中的网页数据,其中,网页与网页数据之间具有对应关系;存储模块,用于基于各网页的层级信息、各网页与网页数据之间的对应关系,将各网页中的网页数据以网络存档文件格式存储为网页归档文件。

4、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

5、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

6、第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。

7、第六方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如第一方面所述的方法。

8、在本申请实施例中,通过遍历目标网站包含的所有网页,抓取各网页中的网页数据,其中,网页与网页数据之间具有对应关系;基于各网页的层级信息、各网页与网页数据之间的对应关系,将各网页中的网页数据以网络存档文件格式存储为网页归档文件,由此,使保存的网页归档文件能够清晰地体现各网页中的网页数据和网页的层级信息,从而解决相关技术中无法清晰、高效地进行网页归档的技术问题。



技术特征:

1.一种网页归档方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述抓取各网页中的网页数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述网页数据包括多媒体资源,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述下载网页中的多媒体资源并保存至本地资源库,包括:

5.根据权利要求1所述的方法,其特征在于,所述遍历目标网站包含的所有网页,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.一种网页归档装置,其特征在于,包括:

8.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的网页归档方法的步骤。

9.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的网页归档方法的步骤。

10.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求1-6任一项所述的网页归档方法的步骤。


技术总结
本申请公开了一种网页归档方法、装置及电子设备,属于数据处理领域。所述方法包括:遍历目标网站包含的所有网页,抓取各网页中的网页数据,其中,网页与网页数据之间具有对应关系;基于各网页的层级信息、各网页与网页数据之间的对应关系,将各网页中的网页数据以网络存档文件格式存储为网页归档文件。

技术研发人员:谈宇航,潘珮源,梅洪,胡晨
受保护的技术使用者:苏州工业园区航星信息技术服务有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19064.html

最新回复(0)