记一次用python对docx文档的处理

标签: python

前言

最近,我们马原老师给了我们关于马原的例题,但是他的题和答案是分开的,总共96页。当时,我就???。总不能看几道题就往后翻吧,那可是九十页的啊。让我一个一个的移答案?那是不可能的。于是我就想用python来替我完成。

文档结构

题目分为单选题、多选题、和简答题(简答题没有答案)。
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
欧克。了解了文档的结构,那么现在就开始完成这项任务。

代码的编写

首先引入库。

import docx
import re 
import sys

为了更好的显示进度,我在分割答案、拼接答案、写入文件这三个过程中都加了进度条。

分割答案

然后定位答案的位置,将答案弄到两个列表中(第一题和第二题)。
在分割答案时,本来我想用空格来分割的,但是他给的答案中空格并不是一样的,这就可能造成有空元素,和答案分割错误。最后,我决定用正则来匹配数字来分割。

try:
	doc = docx.Document("马克思主义基本原理概论.docx")
	first = []
	second = []
	flag1 = 0
	for i in range(4076,4099):
	
		sys.stdout.write(' ' * 90 + '\r')
		sys.stdout.flush()
		sys.stdout.write("正在读取答案中({0:.2f}%):".format((i+1-4076)/23*100)+"["+"#"*int((i+1-4076)/23*40)+"-"*(40-int((i+1-4076)/23*40))+"]"+'\r')
		sys.stdout.flush() //进度条
		
		txt = doc.paragraphs[i].text
		if txt.split('、')[0] == "一":
			flag1 = 1
			continue
		elif txt.split('、')[0] == "二":
			flag1 = 2
			continue
		if flag1 == 1:
			strinfo = re.compile(r"\d+\d*")
			t = strinfo.sub('**',txt)
			t = t.split("**")
			for j in range(len(t)):
				if t[j] != "" and t[j] != '    ':
					first.append(t[j])
		elif flag1 == 2:
			strinfo = re.compile(r"\d+\d*")
			t = strinfo.sub('**',txt)
			t = t.split("**")
			for j in range(len(t)):
				if t[j] != "" and t[j] != '    ':
					second.append(t[j])
	
	print("\n完成!")
except Exception as e:
	print(e)

拼接答案

在这里,我遇到了难题,如何判断到了下一道题。我想到我刚用到了正则,那么我就判断第一个字符如果是数字,那么就是题,如果不是数字,就是选项。
但是,当我打出初稿时,运行了一下,发现多选题长度不对,然后我又看了下文档。我去,他有的答案没有。但是万幸的是,没有的题号是连着的。
在这里插入图片描述

try:
	flag2 = 0
	count = 0
	for i in range(1,4076):
		n = 3918
		sys.stdout.write(' ' * 90 + '\r')
		sys.stdout.flush()
		sys.stdout.write("正在拼接答案中({0:.2f}%):".format((i)/n*100)+"["+"#"*int((i)/n*40)+"-"*(40-int((i)/n*40))+"]"+'\r')
		sys.stdout.flush() //进度条
		
		txt = doc.paragraphs[i].text
		if txt.split('、')[0] == "一":
			flag2 = 1
			count = 0
			continue
		elif txt.split('、')[0] == "二":
			flag2 = 2
			count = 0
			continue
		elif txt.split('、')[0] == "三":
			break
		
		if flag2 == 1:
			try:
				txt = doc.paragraphs[i].text
				s = re.compile(r"\d")
				n = s.match(txt[0])
				if n :
					doc.paragraphs[i].text = doc.paragraphs[i].text + first[count]
					count += 1
			except:
				continue
		elif flag2 == 2:
			try:
				txt = doc.paragraphs[i].text
				if txt[:3].isdigit():
					if 170<int(txt[:3])<279:
						continue
				s = re.compile(r"\d")
				n = s.match(txt[0])
				if n :
					doc.paragraphs[i].text = doc.paragraphs[i].text + second[count]
					count += 1
			except:
				continue
	
	print("\n完成!")
except Exception as e:
	print(e)

写入文件

最后就是写入文件,我是没有添加格式的写入。

try:
	document = docx.Document()
	for i in range(0,4076):
		document.add_paragraph(doc.paragraphs[i].text)
		n = 4076
		
		sys.stdout.write(' ' * 90 + '\r')
		sys.stdout.flush()
		sys.stdout.write("文件正在写入中({0:.2f}%):".format((i+1)/n*100)+"["+"#"*int((i+1)/n*40)+"-"*(40-int((i+1)/n*40))+"]"+'\r')
		sys.stdout.flush() //进度条
		
	document.save('demo.docx')
	print("\n完成!")
except Exception as e:
	print(e)

效果

在这里插入图片描述
在这里插入图片描述

结语

做完后,同学都来问我要拼接完答案的文档了。。。。

版权声明:本文为weixin_44215027原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_44215027/article/details/90727298

智能推荐

堆排序

堆排序就是利用堆进行排序的方法,基本思想是,将代排序列构造成一个大根堆,此时整个序列的最大值就是堆顶的根节点。将它与堆数组的末尾元素交换,此时末尾元素就是最大值,移除末尾元素,然后将剩余n-1个元素重新构造成一个大根堆,堆顶元素为次大元素,再次与末尾元素交换,再移除,如此反复进行,便得到一个有序序列。 (大根堆为每一个父节点都大于两个子节点的堆) 上面思想的实现还要解决两个问题: 1.如何由一个无...

基础知识(变量类型和计算)

一、值类型 常见的有:number、string、Boolean、undefined、Symbol 二、引用类型 常用的有:object、Array、null(指针指向为空)、function 两者的区别: 值类型暂用空间小,所以存放在栈中,赋值时互不干扰,所以b还是100 引用类型暂用空间大,所以存放在堆中,赋值的时候b是引用了和a一样的内存地址,所以a改变了b也跟着改变,b和a相等 如图: 值...

Codeforces 1342 C. Yet Another Counting Problem(找规律)

题意: [l,r][l,r][l,r] 范围内多少个数满足 (x%b)%a!=(x%a)%b(x \% b) \% a != (x \% a) \% b(x%b)%a!=(x%a)%b。 一般这种题没什么思路就打表找一下规律。 7 8 9 10 11 12 13 14 15 16 17 18 19 20 28 29 30 31 32 33 34 35 36 37 38 39 40 41 49 50...

[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3)

[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3) (Credit: https://gitee.com/paddlepaddle/Paddle/raw/develop/doc/imgs/logo.png) MNIST数据集 MNIST数据集可以认为是学习机器学习的“hello world”。最早出现在1998年LeC...

猜你喜欢

哈希数据结构和代码实现

主要结构体: 实现插入、删除、查找、扩容、冲突解决等接口,用于理解哈希这种数据结构 完整代码参见github: https://github.com/jinxiang1224/cpp/tree/master/DataStruct_Algorithm/hash...

解决Ubuntu中解压zip文件(提取到此处)中文乱码问题

在Ubuntu系统下,解压zip文件时,使用右键--提取到此处,得到的文件内部文件名中文出现乱码。 导致此问题出现的原因一般为未下载相应的字体。 解决方案: 在终端中使用unar命令。 需要注意的是系统需要包含unar命令,如果没有,采用如下的方式解决: 实例效果展示: 直接提取到此处: 使用 unar filename.zip得到的文件...

centos7安装mysql8.0.20单机版详细教程

mysql8.0之后与5.7存在着很大的差异,这些差异不仅仅表现在功能和性能上,还表现在基础操作和设置上。这给一些熟悉mysql5.7的小伙伴带来了很多困扰,下面我们就来详细介绍下8.0的安装和配置过程。 mysql在linux上的多种安装方式: 1.yum安装 由于centos默认的yum源中没有mysql,所以我们要使用yum安装mysql就必须自己指定mysql的yum源。在官网下载mysq...

Python自学记录——调用函数和定义函数

对于函数,我的理解是 抽象的方法。你不需要它是内部结构是什么样子的,只要遵从它给你的规则来使用,就能得到想要的效果。 调用函数 在 Python 中,有很多内置的函数供我们调用,常用的函数如下: help(obj) 帮助,解释传入的obj type(obj) 查看传入obj的类型 callable(obj) 查看obj是否可以像函数被调用 isinstance(obj,cls) 查看obj的数据类...

透视遮罩Shader

Unity的透视遮罩Shader 介绍 shader 效果 资源下载 介绍 一个透视遮罩的Shader,及其材质球,会按照模型的UV方向产生透视效果。 shader 效果 里面有个UV从里面向外的球形模型,添加入材质球之后,在球内部向外看时,则会透视球外部的所有3D物体,直接看到天空盒。 一般状态下的场景: 透视遮罩下的场景: 资源下载 资源链接:https://download.csdn.net...