记一次用python对docx文档的处理
标签: python
前言
最近,我们马原老师给了我们关于马原的例题,但是他的题和答案是分开的,总共96页。当时,我就???。总不能看几道题就往后翻吧,那可是九十页的啊。让我一个一个的移答案?那是不可能的。于是我就想用python来替我完成。
文档结构
题目分为单选题、多选题、和简答题(简答题没有答案)。
欧克。了解了文档的结构,那么现在就开始完成这项任务。
代码的编写
首先引入库。
import docx
import re
import sys
为了更好的显示进度,我在分割答案、拼接答案、写入文件这三个过程中都加了进度条。
分割答案
然后定位答案的位置,将答案弄到两个列表中(第一题和第二题)。
在分割答案时,本来我想用空格来分割的,但是他给的答案中空格并不是一样的,这就可能造成有空元素,和答案分割错误。最后,我决定用正则来匹配数字来分割。
try:
doc = docx.Document("马克思主义基本原理概论.docx")
first = []
second = []
flag1 = 0
for i in range(4076,4099):
sys.stdout.write(' ' * 90 + '\r')
sys.stdout.flush()
sys.stdout.write("正在读取答案中({0:.2f}%):".format((i+1-4076)/23*100)+"["+"#"*int((i+1-4076)/23*40)+"-"*(40-int((i+1-4076)/23*40))+"]"+'\r')
sys.stdout.flush() //进度条
txt = doc.paragraphs[i].text
if txt.split('、')[0] == "一":
flag1 = 1
continue
elif txt.split('、')[0] == "二":
flag1 = 2
continue
if flag1 == 1:
strinfo = re.compile(r"\d+\d*")
t = strinfo.sub('**',txt)
t = t.split("**")
for j in range(len(t)):
if t[j] != "" and t[j] != ' ':
first.append(t[j])
elif flag1 == 2:
strinfo = re.compile(r"\d+\d*")
t = strinfo.sub('**',txt)
t = t.split("**")
for j in range(len(t)):
if t[j] != "" and t[j] != ' ':
second.append(t[j])
print("\n完成!")
except Exception as e:
print(e)
拼接答案
在这里,我遇到了难题,如何判断到了下一道题。我想到我刚用到了正则,那么我就判断第一个字符如果是数字,那么就是题,如果不是数字,就是选项。
但是,当我打出初稿时,运行了一下,发现多选题长度不对,然后我又看了下文档。我去,他有的答案没有。但是万幸的是,没有的题号是连着的。
try:
flag2 = 0
count = 0
for i in range(1,4076):
n = 3918
sys.stdout.write(' ' * 90 + '\r')
sys.stdout.flush()
sys.stdout.write("正在拼接答案中({0:.2f}%):".format((i)/n*100)+"["+"#"*int((i)/n*40)+"-"*(40-int((i)/n*40))+"]"+'\r')
sys.stdout.flush() //进度条
txt = doc.paragraphs[i].text
if txt.split('、')[0] == "一":
flag2 = 1
count = 0
continue
elif txt.split('、')[0] == "二":
flag2 = 2
count = 0
continue
elif txt.split('、')[0] == "三":
break
if flag2 == 1:
try:
txt = doc.paragraphs[i].text
s = re.compile(r"\d")
n = s.match(txt[0])
if n :
doc.paragraphs[i].text = doc.paragraphs[i].text + first[count]
count += 1
except:
continue
elif flag2 == 2:
try:
txt = doc.paragraphs[i].text
if txt[:3].isdigit():
if 170<int(txt[:3])<279:
continue
s = re.compile(r"\d")
n = s.match(txt[0])
if n :
doc.paragraphs[i].text = doc.paragraphs[i].text + second[count]
count += 1
except:
continue
print("\n完成!")
except Exception as e:
print(e)
写入文件
最后就是写入文件,我是没有添加格式的写入。
try:
document = docx.Document()
for i in range(0,4076):
document.add_paragraph(doc.paragraphs[i].text)
n = 4076
sys.stdout.write(' ' * 90 + '\r')
sys.stdout.flush()
sys.stdout.write("文件正在写入中({0:.2f}%):".format((i+1)/n*100)+"["+"#"*int((i+1)/n*40)+"-"*(40-int((i+1)/n*40))+"]"+'\r')
sys.stdout.flush() //进度条
document.save('demo.docx')
print("\n完成!")
except Exception as e:
print(e)
效果
结语
做完后,同学都来问我要拼接完答案的文档了。。。。
智能推荐
堆排序
堆排序就是利用堆进行排序的方法,基本思想是,将代排序列构造成一个大根堆,此时整个序列的最大值就是堆顶的根节点。将它与堆数组的末尾元素交换,此时末尾元素就是最大值,移除末尾元素,然后将剩余n-1个元素重新构造成一个大根堆,堆顶元素为次大元素,再次与末尾元素交换,再移除,如此反复进行,便得到一个有序序列。 (大根堆为每一个父节点都大于两个子节点的堆) 上面思想的实现还要解决两个问题: 1.如何由一个无...
基础知识(变量类型和计算)
一、值类型 常见的有:number、string、Boolean、undefined、Symbol 二、引用类型 常用的有:object、Array、null(指针指向为空)、function 两者的区别: 值类型暂用空间小,所以存放在栈中,赋值时互不干扰,所以b还是100 引用类型暂用空间大,所以存放在堆中,赋值的时候b是引用了和a一样的内存地址,所以a改变了b也跟着改变,b和a相等 如图: 值...
Codeforces 1342 C. Yet Another Counting Problem(找规律)
题意: [l,r][l,r][l,r] 范围内多少个数满足 (x%b)%a!=(x%a)%b(x \% b) \% a != (x \% a) \% b(x%b)%a!=(x%a)%b。 一般这种题没什么思路就打表找一下规律。 7 8 9 10 11 12 13 14 15 16 17 18 19 20 28 29 30 31 32 33 34 35 36 37 38 39 40 41 49 50...
[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3)
[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3) (Credit: https://gitee.com/paddlepaddle/Paddle/raw/develop/doc/imgs/logo.png) MNIST数据集 MNIST数据集可以认为是学习机器学习的“hello world”。最早出现在1998年LeC...
猜你喜欢
哈希数据结构和代码实现
主要结构体: 实现插入、删除、查找、扩容、冲突解决等接口,用于理解哈希这种数据结构 完整代码参见github: https://github.com/jinxiang1224/cpp/tree/master/DataStruct_Algorithm/hash...
解决Ubuntu中解压zip文件(提取到此处)中文乱码问题
在Ubuntu系统下,解压zip文件时,使用右键--提取到此处,得到的文件内部文件名中文出现乱码。 导致此问题出现的原因一般为未下载相应的字体。 解决方案: 在终端中使用unar命令。 需要注意的是系统需要包含unar命令,如果没有,采用如下的方式解决: 实例效果展示: 直接提取到此处: 使用 unar filename.zip得到的文件...
centos7安装mysql8.0.20单机版详细教程
mysql8.0之后与5.7存在着很大的差异,这些差异不仅仅表现在功能和性能上,还表现在基础操作和设置上。这给一些熟悉mysql5.7的小伙伴带来了很多困扰,下面我们就来详细介绍下8.0的安装和配置过程。 mysql在linux上的多种安装方式: 1.yum安装 由于centos默认的yum源中没有mysql,所以我们要使用yum安装mysql就必须自己指定mysql的yum源。在官网下载mysq...
Python自学记录——调用函数和定义函数
对于函数,我的理解是 抽象的方法。你不需要它是内部结构是什么样子的,只要遵从它给你的规则来使用,就能得到想要的效果。 调用函数 在 Python 中,有很多内置的函数供我们调用,常用的函数如下: help(obj) 帮助,解释传入的obj type(obj) 查看传入obj的类型 callable(obj) 查看obj是否可以像函数被调用 isinstance(obj,cls) 查看obj的数据类...
透视遮罩Shader
Unity的透视遮罩Shader 介绍 shader 效果 资源下载 介绍 一个透视遮罩的Shader,及其材质球,会按照模型的UV方向产生透视效果。 shader 效果 里面有个UV从里面向外的球形模型,添加入材质球之后,在球内部向外看时,则会透视球外部的所有3D物体,直接看到天空盒。 一般状态下的场景: 透视遮罩下的场景: 资源下载 资源链接:https://download.csdn.net...