我国已先后建成一批国家级计算机信息化网络科学数据中心和规模不等的数据库,其内容基本覆盖了科学技术的各个领域。同时,积极采用计算机信息网络化手段,进行科学数据的采集、积累及数字化加工工作,实现了范围和程度不等的数据共享。
为推动我国科学数据信息共享的全面发展,促进预防医学科学研究的进步、我们对国家职业卫生管理规范及标准体系实施了计算机化与信息网络研究,建立了科学数据信息共享机制,研究了科学数据信息共享标准(电子版数据提交标准、元数据定义、数据集命名标准、变量名命名标准等),开发了国家职业卫生管理规范及标准体系科学数据信息共享平台(国家职业卫生管理规范及标准体系检索光盘、国家职业卫生管理规范及标准体系共享服务网站),以向社会提供国家职业卫生管理规范及标准体系数据信息的共享服务。
一、技术路线
以Web技术为基础,采用成熟和先进的计算机网络技术、卫星通信技术、多媒体技术和协同计算技术,系统建设成可扩展、安全可靠、按需服务的国家职业卫生管理规范及标准体系 计算机化与信息网络(数据网络、信息网络和知识网络),该数据共享技术平台能够对职业卫生管理规范及标准体系数据进行管理、检索,实现异地数据访问、远程服务,并根据数据的密级采用不同的技术以保证数据安全。
二、数据集内容
国家职业卫生管理规范及标准体系数据集包含了我国加入WTO以后,开展的WTO与我国职业卫生工作对策的研究内容、职业卫生标准体系和其他国家相关标准体系的异同与融合、工作场所职业危害管理、建设项目职业卫生管理、职业卫生技术服务机构管理等研究成果,还包含了我国针对职业卫生管理颁布的各类法规与标准。数据类型则包括文本、数表、图片、视频等。
三、数据整合方法
1.数据颗粒度:数据颗粒度是数据库中极其重要的概念。数据的综合程度不同,数据量将相差很大。数据颗粒度越小,信息细节越多,数据量越大;而数据颗粒度越大,则忽略了越多的细节,数据量越小。数据的综合程度还会影响数据的用途。对于多维查询来说,可能使用的是细节数据,例如果回答 1978/3/21号国家颁布的职业卫生标准 这样的问题,细节数据非常合适,而综合数据则因使细节信息丢失不可能回答。但如果要回答 1978-2002年间的职业卫生标准 这样综合程度较高的问题,用细节数据将需进行统计运算后才能回答,这将增加用户的等待时间,而使用综合数据则可以迅速地回答这个问题。细节数据和综合数据用途上和代价上的差异,应为数据系统建设考虑的要点。
综合程度不同的数据其用途不同,数据库中多重的数据颗粒度都是必不可少的。但由于数据库的主要目的是反映整体信息和决策支持系统(DSS)分析并回答综合程度较高的问题,于是对细节数据和综合数据采用了不同的策略。粒度的再一种形式是针对数据挖掘。数据挖掘使用复杂算法(如神经元网络),计算复杂度较高,若对巨量数据直接运算,则计算时间和空间过高,系统难以承受。因此,要进行数据挖掘,对数据进行抽样。粒度的此种形式系指抽样盖率,即对数据库中的数据以一定的抽样率进行抽样后得到一个样本数据库,数据挖掘将在样本数据库上进行。挖掘过程:细节数据 样本数据库 数据挖掘算法等进行数据挖掘。
2.数据的分割:数据的分割是数据库中的又一重要概念。由于数据库中的数据量极大,使用起来会遇到很多问题,例如历年颁布的标准放在一张表中,一次查询则需要检索整张表,而如果范围只在2001年内,则仅需检索2001年的信息即可。对于一个数据量很大的系统,上述两种策略的效率相差很多。所谓数据分割是指将数据分割到各自的物理单元中,以便能够独立处理,提高数据处理的效率。数据分割标准尚待研究,分割方法可以按时间、地点、业务领域划分。国家职业卫生管理规范及标准体系研究项目的数据库系按照时间进行了分割,符合数据库随时间变化的特点,分割后的数据分布比较均匀,更容易索引、监控和扫描且重组简单。
3.联机分析处理(on-line analytical processing,OLAP)展现方式:OLAP针对特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将应用系统展现给用户。我们在开发中引入 维 概念,维量与某一事件相关的因素在关系模型的抽象,如时间、地理、类型等。维的层次性对应于数据的粒度,维存在着层次问题。比如时间用 日 作单位刻度,地理用县、市、省作单位刻度等。维度的层次描述了人们观察数据的细致程度。
4.地理维层次:OLAP的展现方式有C/Sweb、瘦客户机方式, 国家职业卫生管理规范及标准体系 研究项目选用了OLAP的Web方式,随着Web应用的发展,OLAP的前端展现方式也向着Web方式发展,由于Web有着极佳的跨平台性,故可以展现丰富多彩的信息。
5.体系数据共享协议、标准:国家职业卫生管理规范及标准体系是由一系列职业卫生管理规范和标准组成。依照标准化原理,将该体系分为基础通用标准、信息共享技术标准和信息管理与服务标准,其中基础通用标准主要包括术语标准、元数据标准、信息分类与代码标准、产品标准以及相关标准,技术标准主要包括信息交换标准、质量控制和质量评价标准 、互操作协议标准等,管理与服务标准主要包括用户分类分级标准、管理标准以及数据安全、保密分级标准等。
(1)体系数据集(DBZ00)及命名规则:根据体系中的规则和国家相关标准,对体系数据集中数据的各种属性及命名规则进行了约定。
(2)体系数据集(DBZ00)中分类号命名规则:编码方法:层次编码法;编码构成;共分4层。第1层;属性,一位字母。L(Law) 法规,GBZ、GBZ/T 标准,O(Ordinance) 条例,H(Harvest) 成果。第2层:级别,两位字母。GB 国家级,WS 行业,DF 地方。第3层:地域,两位数字。11 北京,22 吉林。第4层:年份,四位数字 YYYY。
(3)体系数据集(DBZ00)的代码库(DBCode)。
根据上述思想,我们制作了国家职业卫生管理规范及标准体系检索光盘,建立了国家职业卫生管理规范及标准体系网站、国家职业卫生管理规范及标准体系数据共享服务软件平台、国家职业卫生管理规范及标准体系数据共享硬件平台,为国家职业卫生管理规范及标准体系数据共享安全的保障和可持续发展机制奠定了基础。
转载请注明出处:职业病网 www.7785.org