解析xml数据存入bean映射到数据库的 需求解决过程
解析xml数据存入bean映射到数据库的 需求解决过程
2017年12月19日 15:18:57 守望dfdfdf 阅读数:419 标签: xmlbean 更多
个人分类: 工作 问题
编辑
版权声明:本文为博主原创文章,转载请注明文章链接。 https://blog.csdn.net/xiaoanzi123/article/details/78843037
首先贴上已知的一段代码demo,解析xml。按照此方式进行功能开发。
package com.iflytek.zhejiang.hangzhou.qlsx.serviceimpl; import java.util.List; import org.apache.commons.configuration.Configuration; import org.apache.commons.configuration.ConfigurationException; import org.apache.commons.configuration.XMLConfiguration; public class XMLParserSample { public static XMLParserSample getConf() { try { return parse(); } catch (ConfigurationException e) { e.printStackTrace(); } return null; } private static XMLParserSample parse() throws ConfigurationException { Configuration config = new XMLConfiguration(XMLParserSample.class.getClassLoader().getResource("conf.xml")); String ip = config.getString("dataBaseURI"); String account = config.getString("account"); String password = config.getString("password"); String runTime = config.getString("runTime"); List<?> tasks = config.getList("tasks.table[@name]"); // List<Table> tblLst = new ArrayList<Table>(); // for (int i = 0; i < tasks.size(); i++) { // // Table tbl = new Table(); // tbl.setName(config.getString(String.format( // "tasks.table(%d)[@name]", i))); // tbl.setInfo(config.getString(String.format( // "tasks.table(%d)[@info]", i))); // tbl.setPrimary(config.getString(String.format( // "tasks.table(%d)[@primary]", i))); // tbl.setColumns(config.getList(String.format( // "tasks.table(%d).columns", i))); // tbl.setTemplate(config.getString(String.format( // "tasks.table(%d)[@template]", i))); // tbl.setWaitTime(config.getString(String.format( // "tasks.table(%d)[@waitTime]", i))); // tbl.setRunTime(config.getString(String.format( // "tasks.table(%d)[@runTime]", i))); // tbl.setSingle(config.getString(String.format( // "tasks.table(%d)[@single]", i))); // tbl.setUrl(config.getString(String.format("tasks.table(%d).url", i))); // // if ( StringUtils.equals(TaskType.MULTI_GETTER, tbl.getTemplate())) { // TableItem item = new TableItem(); // // item.setName(config.getString(String.format( // "tasks.table(%d).item[@name]", i))); // item.setInfo(config.getString(String.format( // "tasks.table(%d).item[@info]", i))); // item.setRef(config.getString(String.format( // "tasks.table(%d).item[@ref]", i))); // item.setColumns(config.getList(String.format( // "tasks.table(%d).item.columns", i))); // item.setUrl(config.getString(String.format("tasks.table(%d).item.url", i))); // // tbl.setItem(item); // } // // tblLst.add(tbl); // } // // gc.setTblLst(tblLst); // // return gc; // return null; } }
有以下几点不理解:
①List<?> tasks = config.getList("tasks.table[@name]");是什么?tasks、table我猜测是conf.xml里面的开头的标签【根标签附近的层级的标签】名字,具体我也没有conf.xml的内容格式,不知是啥。
XMLParserSample.class.getClassLoader().getResource("conf.xml")
这一串的意思像是利用了反射的知识内容,获取解析器?
②Configuration 这种解析xml文件的方式我没接触过,之前只知道sax和dom4j。经过资料查询,算是有所了解学习。参考 http://blog.csdn.net/t1dmzks/article/details/64500731 ,
Apache Commons Configuration 读取xml文件的功能。参考:http://blog.csdn.net/qq_30739519/article/details/50865526
③config.getString(String.format("tasks.table(%d)[@name]", i)));
这种写法一方面是String的format方法的使用,相关知识可以参考 http://blog.csdn.net/lonely_fireworks/article/details/7962171/
另一方面,结合②,[@name]这种语法是 XPATH的知识点。关于XPATH,我突然想起俩年前初学php入门时好像学过了解下,不过一直没用到过,现在竟然忘得一干二净认不出来,-_-||
demo中的实体bean Table类,demo中没有对应的代码,也没有conf.xml文件,还有最后的那个gc,都不知道是干啥的,导致我很不理解疑问①的遍历getList()到底是什么原理。一脸懵。循环体中无非就是从xml取出对应数据封装到实体bean的属性里面,dao层用的hibernate,但是demo里面没有sql,所以我才猜测是利用的hibernate和数据库表的映射关系来存储数据的,个人也没有学习过hibernate,只是有点接触。最后返回的对象是什么gc是什么也是一头雾水。以上为开发前对demo的整体感受简述。
开发需求说明:
AAAA表中,ROWGUID、UPDATE_DATE两个字段作联合主键(存在ROWGUID相同UPDATE_DATE不同的多条记录),另有一个字段MATERIAL_INFO,存的就是下述xml内容的字符串形式的数据。我的任务就是取出这三个字段的值,封装到三个新建表【建表语句在下面】对应的三个java bean里面,然后映射数据入库。(多条记录ROWGUID相同就取UPDATE_DATE最大的那条数据),另有过滤条件process=0,sql如下:
select ROWGUID ,max(UPDATE_DATE) UPDATE_DATE,MATERIAL_INFO from AAAA where PROCESS = '0' group by ROWGUID ";
取出数据后,因为存放到三张表里面。表与表之间的字段关联关系全在下面的建表语句的注释中说明了(稍微有点复杂,熟悉了就好理解了)
贴上要开发分析的xml文件的内容格式:
<?xml version="1.0" encoding="utf-8"?> <DATAAREA> <CHANGE_FLAG>1</CHANGE_FLAG> <MATERIALS> <MATERIAL> <MATERIALGUID>2fadsfdsfsdc22ed9d</MATERIALGUID> <NAME>水电费水电费水电费</NAME> <FORMAT>1</FORMAT> <DETAIL_REQUIREMENT>一份</DETAIL_REQUIREMENT> <NECESSITY>1</NECESSITY> <NECESSITY_DESC/> <MATERIAL_RES/> <IS_RQ/> <EMPTYTABLE> <FILENAME/> <FILECONTENT/> <FILEURL/> </EMPTYTABLE> <EXAMPLETABLE> <FILENAME/> <FILECONTENT/> <FILEURL/> </EXAMPLETABLE> <BAK/> </MATERIAL> <MATERIAL> <MATERIALGUID>1fsdfdsfsd07a525a</MATERIALGUID> <NAME>发送到发的所发生的</NAME> <FORMAT>1</FORMAT> <DETAIL_REQUIREMENT>1份</DETAIL_REQUIREMENT> <NECESSITY>1</NECESSITY> <NECESSITY_DESC/> <MATERIAL_RES/> <IS_RQ/> <EMPTYTABLE> <FILENAME/> <FILECONTENT/> <FILEURL/> </EMPTYTABLE> <EXAMPLETABLE> <FILENAME/> <FILECONTENT/> <FILEURL/> </EXAMPLETABLE> <BAK/> </MATERIAL> ......等多个<MATERIAL></MATERIAL> </MATERIALS> </DATAAREA>
新建三张表的建表语句:【表之间存在 逻辑外键的关系连接】
DROP TABLE IF EXISTS `material_info`; CREATE TABLE `material_info` ( `MATERIALGUID` ) NOT NULL COMMENT '主键 材料标识', `QLSX_ROWGUID` ) NOT NULL COMMENT ' AAAA 表中的rowguid对应的字段值', `QLSX_UPDATE_DATE` datetime NOT NULL COMMENT ' AAAA 表中的update_date对应的字段值', `NAME` ) NOT NULL COMMENT '材料名称', `FORMAT` ) COMMENT '材料形式,代码项:材料形式', `DETAIL_REQUIREMENT` ) COMMENT '材料详细要求', `NECESSITY` ) COMMENT '材料必要性,代码项:材料必要性', `NECESSITY_DESC` ) COMMENT '材料必要性描述', `IS_RQ` ) COMMENT '', `BAK` ) COMMENT '备注', `UPDATE_DATE` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (`materialguid`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='权力事项库-申报材料主表'; DROP TABLE IF EXISTS `material_res`; CREATE TABLE `material_res` ( `ID` bigint unsigned auto_increment COMMENT '物理主键,无意义', `MATERIALGUID` ) NOT NULL COMMENT '逻辑主键,参照material_info表中对应的materialguid字段值', `MATERIAL_RES` ) COMMENT '材料出具单位', `EXAMPLETABLE` ) ' NOT NULL COMMENT 'FILENAME、FILECONTENT、FILEURL的xml中的父标签是否为EXAMPLETABLE 1是 0不是', `FILENAME` ) COMMENT '空白表格文件名称(完整文件名,带后缀)', `FILECONTENT` longtext COMMENT '文件内容,BASE64编码格式', `FILEURL` ) COMMENT '附件链接地址(公有云地址)', `UPDATE_DATE` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='权力事项库-申报材料出具单位和材料信息表'; DROP TABLE IF EXISTS `material_trans_log`; CREATE TABLE `material_trans_log` ( `ID` bigint unsigned auto_increment COMMENT '物理主键,无意义', `QLSX_ROWGUID` ) NOT NULL COMMENT ' AAAA 表中的rowguid对应的字段值', `QLSX_UPDATE_DATE` datetime NOT NULL COMMENT ' AAAA 表中的update_date对应的字段值', `QLSX_CHANGE_FLAG` ) NOT NULL COMMENT '0:未变化,1:变化', `CREATE_TIME` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='权力事项库-申报材料解析入库的日志表';
取出三个字段的值,做参数传给自己写的xml解析方法parse();在解析方法中进行xml解析并进行对应bean的封装。
经过请示可以不必非要按照demo,果断改用dom4j开始解析赋值。自己的代码如下【踩坑提示:在处理xml时,一定要注意标签之间的层级关系以及数量关系,不然容易出现逻辑错误】】:
public XmlParserVO parse(String rowguid,Timestamp updatedate,String materialinfo) throws DocumentException {//参数就是刚刚取出的三个字段的值 Document document = DocumentHelper.parseText(materialinfo); // materialinfo 为xml格式字符串 //一个xml就一个 CHANGE_FLAG 标签,不在material标签内部,故在遍历前取出 String changeFlag = document.selectSingleNode("/DATAAREA/CHANGE_FLAG").getText(); //materialinfo MaterialInfo MaterialTransLog 为新建三张表对应的类bean List<MaterialRes> listRes = new ArrayList<MaterialRes>(); List<MaterialInfo> listInfo = new ArrayList<MaterialInfo>(); MaterialTransLog materialtrauslog = new MaterialTransLog(); materialtrauslog.setQLSX_ROWGUID(rowguid); materialtrauslog.setQLSX_UPDATE_DATE(updatedate); materialtrauslog.setQLSX_CHANGE_FLAG(changeFlag); //获取MATERIALS节点 Node nodeMaterials = document.selectSingleNode("/DATAAREA/MATERIALS"); //取得MATERIALS节点下所有名为“MATERIAL”的子节点,并进行遍历. 遍历后每一个元素就是一组 MATERIAL 标签中的值 List listMaterial = ((Element) nodeMaterials).elements("MATERIAL"); for (Iterator it = listMaterial.iterator(); it.hasNext();) { Element elmMaterial = (Element) it.next(); // 获取一个 MATERIAL 节点 //提前取出materialRes、materialGuid,供下面material_res复用 String materialRes = elmMaterial.element("MATERIAL_RES").getText(); String materialGuid = elmMaterial.element("MATERIALGUID").getText(); MaterialInfo materialInfo = new MaterialInfo(); materialInfo.setMATERIALGUID(materialGuid); materialInfo.setQLSX_ROWGUID(rowguid); materialInfo.setQLSX_UPDATE_DATE(updatedate); materialInfo.setNAME(elmMaterial.element("NAME").getText()); materialInfo.setFORMAT(elmMaterial.element("FORMAT").getText()); materialInfo.setDETAIL_REQUIREMENT(elmMaterial.element("DETAIL_REQUIREMENT").getText()); materialInfo.setNECESSITY(elmMaterial.element("NECESSITY").getText()); materialInfo.setNECESSITY_DESC(elmMaterial.element("NECESSITY_DESC").getText()); materialInfo.setIS_RQ(elmMaterial.element("IS_RQ").getText()); materialInfo.setBAK(elmMaterial.element("BAK").getText()); listInfo.add(materialInfo); /* * EMPTYTABLE EXAMPLETABLE 标签(可能有多个)下 均有FILENAME、FILECONTENT、FILEURL子标签, * 会产生多个数据,遍历后在每一个数据下再进行bean的创建封装,以对应每一条记录。 */ List listEmptytable = elmMaterial.elements("EMPTYTABLE"); for (Iterator it2 = listEmptytable.iterator(); it2.hasNext();) { Element elmEmptytable = (Element) it2.next(); // 获取一个 EMPTYTABLE 节点 MaterialRes materialres = new MaterialRes(); materialres.setMATERIALGUID(materialGuid); materialres.setMATERIAL_RES(materialRes); materialres.setEXAMPLETABLE(EnumNumber.NUMZERO.getNumber()); //枚举类型 值为0 materialres.setFILENAME(elmEmptytable.element("elmEmptytable").getText()); materialres.setFILECONTENT(elmEmptytable.element("FILECONTENT").getText()); materialres.setFILEURL(elmEmptytable.element("FILEURL").getText()); listRes.add(materialres); } List listExampletable = elmMaterial.elements("EXAMPLETABLE"); for (Iterator it3 = listExampletable.iterator(); it3.hasNext();) { Element elmExampletable = (Element) it3.next(); // 获取一个 EXAMPLETABLE 节点 MaterialRes materialres = new MaterialRes(); materialres.setMATERIALGUID(materialGuid); materialres.setMATERIAL_RES(materialRes); materialres.setEXAMPLETABLE(EnumNumber.NUMONE.getNumber()); //枚举类型 值为1 materialres.setFILENAME(elmExampletable.element("elmEmptytable").getText()); materialres.setFILECONTENT(elmExampletable.element("FILECONTENT").getText()); materialres.setFILEURL(elmExampletable.element("FILEURL").getText()); listRes.add(materialres); } } //返回封装好的数据集合 XmlParserVO xmlparservo = new XmlParserVO(listRes, listInfo, materialtrauslog); return xmlparservo;
我把一些细节以及修改在代码中用注释进行了标注,以便于理解。
小细节:
①枚举类型的使用,而不是直接给值1或者0,枚举的好处在此不再赘述。【我也是被经理指出后的建议才修改的】,其实这里可以直接就在本类中定义常量的形式代替枚举,因为别的地方也没有用到。总之不要直接在代码中去写“0”这一类的代码。目的是为了以后便与修改。
②最后返回数据用 数据传输对象 封装返回。
③ 变量命名规范,我个人的坏毛病总是喜欢用下划线,在这里强调下能用驼峰别用下划线,推荐安装阿里的java开发规范插件,代码至少要做到工整,还有,注释要完整,比如我经常会忘记在方法的注释中只写个简洁的说明,而不写参数@param等注释,这样很不规范严谨,给后来的开发者维护带来困难。
对返回的集合遍历取出bean,作为object参数传入dao,进行数据库插入:
[java] view plain copy <code class="language-java">@SuppressWarnings("rawtypes") public class GetMaterialInfoDao extends HibernateEntityDao { private SessionFactory sessionFactory; public SessionFactory getSessionFactory() { return sessionFactory; } public void setSessionFactory(SessionFactory sessionFactory) { this.sessionFactory = sessionFactory; super.sessionFactory = sessionFactory; } @SuppressWarnings("unchecked") @Transactional public void saveDate(Object obj){ Session session = sessionFactory.getCurrentSession(); session.save(obj); } }</code>
这段代码其实就是我不会用hibernate的体现。-save()方法还用在dao层自己写吗??? ̄□ ̄||
功能逻辑上到此就完成了。但是因为一些细节,导致一直在不断修改,也算是踩坑记录吧。
1、当数据存入新建的表之后,要把 AAAA 表中已经取出并入库的该条数据的process字段从0 改为1 ,来标志着该条数据记录已经完成取值入库的处理流程。一开始我是用rowguid和update_date两个字段参数去 AAAA 表更新process字段,但是经理说我逻辑不对,为什么?我用做更新process字段传递的这两个参数rowguid和update_date值,来自于最开始从 AAAA 中取回xml数据时的那个查询语句,这个update_date 是取得最大值【max(UPDATE_DATE) UPDATE_DATE】,如果我还用这个update_date做参数去定位数据记录,那么我只能更新 AAAA 表中该rowguid下rowguid相同,update_date最大的那条数据的process,其他的给漏掉了。比如:
---------------------------------------------------------
rowguid | update_date |process
12 | 2017-08-13 | 0 ---------------也应该改为1,但被漏掉了
12 | 2017-08-14 | 0 ---------------也应该改为1,但被漏掉了
12 | 2017-08-15 | 0 ---------------改为 1
开发过程中考虑的不严谨不周全,【关于这一点,还有,在把解析出的数据存入库之前,再做一个验证,去material_info表里面查询一下这条数据是否已经存在,如果已存在,删了,再把现在刚解析出的数据插入进去,这一点也是我不曾考虑到的】,虽然对业务流程不熟悉,毕竟只是单一接到功能需求,大范围业务流程背景并不清楚,但是严谨周全的工作思路还是必须的。不然就是一堆bug了。。。。
2、 在最开始从 AAAA 表中取数据时,内存溢出异常。三十万条数据,我直接就一次取出放入list接收了,根本就没有考虑可行的意识,只是直接认为这样能实现功能,还是在实现功能的层面去开发。肯定要分页去查询了啊(mysql limit)。改进的过程中,先获取总记录数,定义一次查多少条,计算查询出次数,然后分页 limit 查询 。再从另外一角度考虑下,为什么不在这里加一个多线程去执行,这样不是更快吗,现在肯定很慢。再次改进,代码如下:
------------------------------------添加 线程 并 分页 从 _new表 查询 xml 等数据 代码---------------------------------
private static final int LIMIT = 50; private final static Executor executor = Executors.newCachedThreadPool();//启用多线程 @Override public void dataHanding() { Long countNum = qltQlsxDao.getCountNum(); int times = 0; if( 0 == countNum % LIMIT ){ times = (int) (countNum / LIMIT); }else{ times = (int) (countNum / LIMIT) +1; } //int times = (int) Math.floor(countNum / LIMIT); //分页查询 避免内存溢出 for (int i = 1; i <= times; i++) { // List<QltQlsxNewDto> dataLst = qltQlsxDao.getMaterialInfo((i - 1) * LIMIT, LIMIT); // if ( null == dataLst || dataLst.isEmpty() ) { // logger.info("无数据需要处理"); // return ; // } final int j=i; executor.execute(new Runnable() { @Override public void run() { try{ List<QltQlsxNewDto> dataLst = qltQlsxDao.getMaterialInfo((j - 1) * LIMIT, LIMIT); if ( null == dataLst || dataLst.isEmpty() ) { logger.info("无数据需要处理"); return ; } parseXMLInfoAndSave(dataLst); }catch(Exception e){ } } }); } }
经过实际测试,速度比原来快的多得多。参考:http://blog.csdn.net/bestcxx/article/details/49472035
----------------------------------------------------代码完 分割线---------------------------------------------------------------
3、关于上面的limit,给dao层sql语句穿两个参数,一个是开始取值的下标m,一个是每次取多少个n,其实就是limit 的两个参数 limit m,n
如果最后一次分页,未取数据剩余数目小于 n,这是没关系的,不受影响。最后一次分页剩45个数据没取,我每次都取50,也不会报错的啊。可我犯糊涂了,进行判断是不是最后一次的分页,是的话,就把传的参数n改为经过计算得出的最后还没取出的数目,比如 limit(m,45)。
4、还是关于代码的编写,尽量进行封装复用。
比如上面xml解析代码中的
materialInfo.setDETAIL_REQUIREMENT(elmMaterial.element("DETAIL_REQUIREMENT").getText());
更改后把
elmMaterial.element("DETAIL_REQUIREMENT").getText()
放到一个方法中去,
// 封装从Node中获取Element,并获取Text
private String getElementAsText(Element e, String nodeName ) {
Element targetElement = e.element(nodeName);
if ( null == targetElement ) return null;
return targetElement.getText();
}
5、注解事务 改为 手动事务
这个要看具体场景灵活选择。如果使用注解在方法A上,A中又调用方法B,B里面其中 x部分的代码次啊是真正想要进行事务控制的地方,就这x处手动开启 运用事务,而我之前只是简单的把事务注解放在A上面完事,压根就没有考虑这个方面的问题。。。。
session.beginTransaction();
xxxxxxxxxxxxxxxxxxxxxxx;
session.getTransaction().commit();
6、在新建dao层service层时,注意为以后的业务扩展考虑,不同表的增删改查操作方法不要写在一个dao里面,按照业务新建dao。其它层次也是同理。说到这想起了之前在北京的一位同事,当时给我讲解传参的场景,客户需求总是变来变去,有时候参数传递自己不要写的那么死,给自己留条路,便于自己修改,也利于项目代码优化。
在此,真心向给与我过知道帮助的同事朋友说一声谢谢。ღ( ´・ᴗ・` )比心
没有什么特别大的高深内容,但都是我每一步菜的坑和小结心得吧,警醒自己吸取教训,努力进步。
最新文章
- FFmpeg学习5:多线程播放视音频
- VS2012调试时很慢的解决方案
- 解剖SQLSERVER 第十五篇 SQLSERVER存储过程的源文本存放在哪里?(译)
- 第45讲:Scala中Context Bounds代码实战及其在Spark中的应用源码解析
- SSDB安装配置
- TF Boys (TensorFlow Boys ) 养成记(三)
- 深度学习 vs 机器学习 vs 模式识别
- git添加文件过滤
- 移动端 viewport设置
- 页面 Backspace 功能禁锢
- MySQL row模式binlog复制原理
- 关于Spark中RDD的设计的一些分析
- 设计模式 --迭代器模式(Iterator)
- Java-io流入门到精通详细总结
- C#基础之------委托
- Celery 源码解析七:Worker 之间的交互
- enote笔记法(2)——why的使用
- web项目部署到本地tomcat时,运行tomcat的startup.bat一闪而过
- spring整合mybatis框架
- eclipse没有server选项
热门文章
- How to compile a node file?如何编译一个节点文件?
- Spring MVC零配置(全注解)(版本5.0.7)
- [SinGuLaRiTy] NOIP膜你赛-Day 1
- CI框架定义判断POST GET AJAX
- CI框架源码学习笔记4——Benchmark.php
- slf4j + loback配置
- Apache HttpClient 4.3.6 API
- UML箭头
- Java学习笔记day07_琐碎知识_水仙花数_ASCII码_冒泡排序_简单选择排序_折半查找
- MSF利用ms17-010漏洞过程记录