全国客服热线:4006-880844

网站建设定制网页归档的技术手段和标准建设还有待提升

- 编辑:admin -

党政机关的网页信息采集主要还是从已经确定的网站网页作为线索出发,可以是静态一次性抓取,也可以进行动态抓取,再从所抓取的网页信息中提取出电子档案信息。

       网页归档的技术手段和标准建设还有待提升。党政机关的网页信息采集主要还是从已经确定的网站网页作为线索出发,可以是静态一次性抓取,也可以进行动态抓取,再从所抓取的网页信息中提取出电子档案信息。

       从网络爬虫的技术层面来看,静态网页信息进行抓取并不复杂,但动态网页抓取比较麻烦。尤其近年来各类新型网页文件层出不穷,产生了许多其他类型的网页文件格式,如Java文件、Active X文件、Jpg等这些承载图片、文字和视频等多种类型的信息,而对于上述文件到底是否应当纳入到归档范围,目前对此还没有定论。

       在某些情况下,从一些网站上采集下来的网页存档虽然保存了该网站的原始网页文件,但若离开了该文件的来源平台上所提供的软硬件支持,该原始网页很有可能就无法展现和利用。因此,在对党政机关重要网页进行保存的过程中,首先应当构建和完善重要网页电子文件的备份体系,以确保所采集下来的网页归档资源能够全面、及时、有效地获得保存和利用。其次,还需要针对各种来源的网页文件构建起统一的网页电子文件档案资源体系,开发和设计能够满足各类用户需求的网页档案资源检索、利用服务,建立起全方位的检索利用服务模式,这都是党政机关重要网页归档管理需要探讨的问题,只有对重要网页文件根据其内容、结构和形式进行相应的标注、组织和分类,才能便于利用和真正实现网页文件资源的价值。