对step文件进行信息抽取算法
任务描述:给定一个step文件,对该文件的字符串进行信息抽取,结构化的组织文件描述模型的数据。形成抽象化数据结构,存入计算机数据库。并能按照有条理结构把这些数据展示出来。
信息抽取的结果描述:
1 数据结构:
以key-value键值对形式将step文件描述的信息抽取并组织起来。
具体的,在java当中使用javabean技术,以类的嵌套的方式实现这种数据结构。
2 结果展示:
将javabean转换成json并格式化打印出来,查看转化结果是否正确。
3 存储:
将javabean的实例化对象映射为mysql中的数据库表。
信息抽取的方法描述: 团队商讨,编写一套算法来实现对step文件的抽取。
step文件信息抽取算法(伪代码流程):
输入: step文件
输出: 键值对数据结构(字典、或hashtable、或hashmap、或javabean对象) 和 json格式打印输出
1 读取step文件,整个文件存为字符串s
2 删除s的开头的 "ISO-10303-21\n" 和最后的 "END-ISO-10303-21\n"
3 搜索s,将 “HEADER\n“ 和在此之后第一个“ENDSEC\n“ 中间的部分,存为字符串header
4 搜索s,将 "DATA\n" 和在此之后第一个"ENDSEC\n"中间的部分,存为字符串data
5 声明一个key-value类型变量step_root,用于存储整个模型信息
(下面开始处理header部分)
6 声明一个key-value类型变量header_root,用于存储header部分的结构化信息
7 将header字符串按照 行 \n进行切分 header.split("\n") , 将所有行存为一个数组(ArrayList) header_list, 每个元素是一行
8 for line in header_list: (对header中的每一行字符串line, 做如下操作)
9 对字符串line,搜索第一个左括号(, 将第一个左括号( 左侧的英文串作为key,
10 包含该左括号一直到最右侧分号之前的右括号)为止的字符串作为value
11 将key value 添加到header_root中
12 将"header"作为key, header_root作为value, 添加到step_root中
(下面是对data部分处理)
13 声明一个key-value类型变量data_root 用于存储data部分的结构化数据
14 将data按照一行\n进行切分 data.split("\n"), 并存入一个数组(ArrayList) data_list, 每个元素是一行
15 声明一个key-value类型变量 data_lines 用于映射实体 每一行的编号(实体表示) 和 对应属性
16 for line in data_list: (对于data中的每一行做如下操作:)
17 对line按照 = 进行切分, 左侧 #数字 作为key, 右侧去掉; 作为value
18 将key value 添加到data_lines 当中
19 while data_lines 不为空:
20 从data_lines中取出最先添加进来的键值对num-line,并在data_lines中删除这个键值对
21 对line部分搜索第一个左括号(,第一个左括号左侧部分的英文串作为key
22 第一个左括号和最后一个右括号之间的字符串存为临时字符串tmp
23 声明一个可变类型数组list作为value, 稍后将值加入list
24 对tmp按照逗号,进行切分 tmp.split(",") 并把每一项存入list中
25 for cur in list: (拿出list的每一项cur进行检查:)
26 如果cur是能匹配成 #数字 的规则:
27 调用子算法 构造子实体 算法, 将cur和data_lines传入,拿到返回值res,
28 将list中的cur位置替换为res
29 将key,value加入到data_root中
30 将"data"作为key, data_root作为value,添加到step_root中
31 将step_root转换json字符串step_json
32 返回step_root 并 打印输出step_json
子算法: 构造子实体 算法(伪代码流程):
输入: 字符串cur, key-value类型 data_lines
输出: key-value类型 res
1 声明一个key-value类型变量res
2 在data_lines中用cur当作键来查找得到值tmp
3 从data_lines中删除这对键值对cur-tmp
4 对tmp搜索第一个出现左括号的位置,将第一个左括号左侧的英文串当做key
5 对tmp第一个左括号和最后一个右括号之间的字符串存为line
6 声明一个可变类型列表ArrayList变量list作为value,稍后加入元素
7 对line按照逗号,切分 line.split(",") 并把每一项加入list中
8 for s in list: 对list中的每一项做检查:
9 如果 s 能匹配 #数字 这种规则:
10 调用 构造子实体算法,传入s和data_lines, 拿到返回值res_tmp
11 将list中s对应的位置替换成res_tmp
12 将key,value添加到res当中
13 返回res
附上一段python实现的demo
def get_info(start, lines):
res = {}
tmp = lines[start]
lines.pop(start)
cut_position = tmp.find("(")
k, v = tmp[:cut_position], tmp[cut_position+1:-2].split(",")
for i, vv in enumerate(v):
v[i] = vv.strip()
if v[i].startswith("#"):
v[i] = get_info(v[i], lines)
res[k] = v
return res if __name__ == '__main__':
s = """
#1 = aa('',12,45,#2);
#2 = bb('',55, #3,33);
#3 = cc('', 234,jjj);
"""
lines = {} # 存放 #num 和右侧的映射关系
s = s.strip().split("\n")
for tmp in s:
tmp = tmp.split("=")
k = tmp[0].strip()
v = tmp[1].strip()
lines[k] = v
res = get_info("#1", lines)
print(res)
运行结果:
{'aa': ["''", '12', '45', {'bb': ["''", '55', {'cc': ["''", '234', 'jjj']}, '33']}]}
最新文章
- Windows Azure Storage (23) 计算Azure VHD实际使用容量
- 当编译AFNetworking 2.0时出现了Undefined symbols for architecture i386
- hdu4352 XHXJ's LIS
- jquery插件开发模板
- 设计模式六大原则——合成/聚合复用原则(CARP)
- CentOS 6.7安装Java JDK
- 安卓Intent(显式)
- 系统学下POWERSHELL吧,工作当中可能用得到呢。不能像以前那样修修改改了。
- C# 图解教程 第一章 C#和.NET框架
- 文件共享服务器share
- Linux服务器 XAMPP后添加PHP和MYSQL环境变量
- listcard记录
- css学习_css用户界面样式
- 一致性hash理解、拜占庭将军问题解读和CAP理论总结
- windows、ubuntu、centos7下mysql 的安装与使用
- 机器学习数据处理时label错位对未来数据做预测
- 如何将wordpress所有文章批量改为已发布状态
- Jedis使用总结【pipeline】【分布式的id生成器】【分布式锁【watch】【multi】】【redis分布式】(转)
- Go 语言中的 new() 和 make()的区别
- Oracle 大小写转换函数
热门文章
- JavaFX 井字棋游戏
- Android研发技术的进阶之路
- jmeter APP接口压力测试
- 201671010442 葸铃 实验十四 团队项目评审&;课程学习总结
- C++输入输出流 cin/cout 及格式化输出简介
- 2019牛客暑期多校训练营(第一场):XOR(线性基)
- 浏览器渲染详细过程:重绘、重排和 composite 只是冰山一角
- webpack.config.js配置信息的说明
- netflix flamescope 方便的不同时间范围的火焰图查看工具
- Reactive Extensions (Rx) 入门(4) —— Rx的事件编程