3 files changed, 85 insertions, 15 deletions
diff --git a/libmat2/office.py b/libmat2/office.py
index 5381eb9..acd8ca2 100644
--- a/libmat2/office.py
+++ b/libmat2/office.py
@@ -14,6 +14,24 @@ from . import abstract, parser_factory
 assert Set
 assert Pattern
+def _parse_xml(full_path: str):
+    """ This function parse XML with namespace support. """
+    def parse_map(f):  # etree support for ns is a bit rough
+        ns_map = dict()
+        for event, (k, v) in ET.iterparse(f, ("start-ns", )):
+            if event == "start-ns":
+                ns_map[k] = v
+        return ns_map
+    ns = parse_map(full_path)
+    # Register the namespaces
+    for k,v in ns.items():
+        ET.register_namespace(k, v)
+    return ET.parse(full_path), ns
 class ArchiveBasedAbstractParser(abstract.AbstractParser):
    # Those are the files that have a format that _isn't_
    # supported by MAT2, but that we want to keep anyway.
@@ -72,7 +90,11 @@ class ArchiveBasedAbstractParser(abstract.AbstractParser):
                zin.extract(member=item, path=temp_folder)
                full_path = os.path.join(temp_folder, item.filename)
-                self._specific_cleanup(full_path)
+                if self._specific_cleanup(full_path) is False:
+                    shutil.rmtree(temp_folder)
+                    os.remove(self.output_filename)
+                    print("Something went wrong during deep cleaning of %s" % item.filename)
+                    return False
                if item.filename in self.files_to_keep:
                    # those files aren't supported, but we want to add them anyway
@@ -118,6 +140,45 @@ class MSOfficeParser(ArchiveBasedAbstractParser):
            '^docProps/',
    }))
+    def __remove_revisions(self, full_path:str) -> bool:
+        """ In this function, we're changing the XML
+        document in two times, since we don't want
+        to change the tree we're iterating on."""
+        tree, ns = _parse_xml(full_path)
+        # No revisions are present
+        if tree.find('.//w:del', ns) is None:
+            return True
+        elif tree.find('.//w:ins', ns) is None:
+            return True
+        parent_map = {c:p for p in tree.iter( ) for c in p}
+        elements = list([element for element in tree.iterfind('.//w:del', ns)])
+        for element in elements:
+            parent_map[element].remove(element)
+        elements = list()
+        for element in tree.iterfind('.//w:ins', ns):
+            for position, item in enumerate(tree.iter()):
+                if item == element:
+                    for children in element.iterfind('./*'):
+                        elements.append((element, position, children))
+                    break
+        for (element, position, children) in elements:
+            parent_map[element].insert(position, children)
+            parent_map[element].remove(element)
+        tree.write(full_path, xml_declaration=True)
+        return True
+    def _specific_cleanup(self, full_path:str) -> bool:
+        if full_path.endswith('/word/document.xml'):
+            return self.__remove_revisions(full_path)
+        return True
    def get_meta(self) -> Dict[str, str]:
        """
        Yes, I know that parsing xml with regexp ain't pretty,
@@ -168,27 +229,16 @@ class LibreOfficeParser(ArchiveBasedAbstractParser):
    def __remove_revisions(self, full_path:str) -> bool:
-        def parse_map(f):  # etree support for ns is a bit rough
+        tree, ns = _parse_xml(full_path)
-            ns_map = dict()
-            for event, (k, v) in ET.iterparse(f, ("start-ns", )):
-                if event == "start-ns":
-                    ns_map[k] = v
-            return ns_map
-        ns = parse_map(full_path)
        if 'office' not in ns.keys():  # no revisions in the current file
            return True
-        # Register the namespaces
-        for k,v in ns.items():
-            ET.register_namespace(k, v)
-        tree = ET.parse(full_path)
        for text in tree.getroot().iterfind('.//office:text', ns):
            for changes in text.iterfind('.//text:tracked-changes', ns):
                text.remove(changes)
-        tree.write(full_path, xml_declaration = True)
+        tree.write(full_path, xml_declaration=True)
        return True
@@ -219,4 +269,3 @@ class LibreOfficeParser(ArchiveBasedAbstractParser):
                metadata[key] = value
        zipin.close()
        return metadata
diff --git a/tests/data/revision.docx b/tests/data/revision.docx
new file mode 100644
index 0000000..8a2d814
--- /dev/null
+++ b/tests/data/revision.docx
Binary files differ
diff --git a/tests/test_libmat2.py b/tests/test_libmat2.py
index 1573790..4df6385 100644
--- a/tests/test_libmat2.py
+++ b/tests/test_libmat2.py
@@ -121,6 +121,7 @@ class TestRemovingThumbnails(unittest.TestCase):
        zipin.close()
        os.remove('./tests/data/clean.cleaned.odt')
+        os.remove('./tests/data/clean.odt')
 class TestRevisionsCleaning(unittest.TestCase):
@@ -142,6 +143,26 @@ class TestRevisionsCleaning(unittest.TestCase):
        os.remove('./tests/data/clean.odt')
        os.remove('./tests/data/clean.cleaned.odt')
+    def test_msoffice(self):
+        with zipfile.ZipFile('./tests/data/revision.docx') as zipin:
+            c = zipin.open('word/document.xml')
+            content = c.read()
+            r = b'<w:ins w:id="1" w:author="Unknown Author" w:date="2018-06-28T23:48:00Z">'
+            self.assertIn(r, content)
+        shutil.copy('./tests/data/revision.docx', './tests/data/revision_clean.docx')
+        p = office.MSOfficeParser('./tests/data/revision_clean.docx')
+        self.assertTrue(p.remove_all())
+        with zipfile.ZipFile('./tests/data/revision_clean.cleaned.docx') as zipin:
+            c = zipin.open('word/document.xml')
+            content = c.read()
+            r = b'<w:ins w:id="1" w:author="Unknown Author" w:date="2018-06-28T23:48:00Z">'
+            self.assertNotIn(r, content)
+        os.remove('./tests/data/revision_clean.docx')
+        os.remove('./tests/data/revision_clean.cleaned.docx')
 class TestDeepCleaning(unittest.TestCase):
    def __check_deep_meta(self, p):

diff --git a/libmat2/office.py b/libmat2/office.py index 5381eb9..acd8ca2 100644 --- a/libmat2/office.py +++ b/libmat2/office.py
@@ -14,6 +14,24 @@ from . import abstract, parser_factory
14	assert Set	14	assert Set
15	assert Pattern	15	assert Pattern
16		16
		17	def _parse_xml(full_path: str):
		18	""" This function parse XML with namespace support. """
		19	def parse_map(f): # etree support for ns is a bit rough
		20	ns_map = dict()
		21	for event, (k, v) in ET.iterparse(f, ("start-ns", )):
		22	if event == "start-ns":
		23	ns_map[k] = v
		24	return ns_map
		25
		26	ns = parse_map(full_path)
		27
		28	# Register the namespaces
		29	for k,v in ns.items():
		30	ET.register_namespace(k, v)
		31
		32	return ET.parse(full_path), ns
		33
		34
17	class ArchiveBasedAbstractParser(abstract.AbstractParser):	35	class ArchiveBasedAbstractParser(abstract.AbstractParser):
18	# Those are the files that have a format that _isn't_	36	# Those are the files that have a format that _isn't_
19	# supported by MAT2, but that we want to keep anyway.	37	# supported by MAT2, but that we want to keep anyway.
@@ -72,7 +90,11 @@ class ArchiveBasedAbstractParser(abstract.AbstractParser):
72	zin.extract(member=item, path=temp_folder)	90	zin.extract(member=item, path=temp_folder)
73	full_path = os.path.join(temp_folder, item.filename)	91	full_path = os.path.join(temp_folder, item.filename)
74		92
75	self._specific_cleanup(full_path)	93	if self._specific_cleanup(full_path) is False:
		94	shutil.rmtree(temp_folder)
		95	os.remove(self.output_filename)
		96	print("Something went wrong during deep cleaning of %s" % item.filename)
		97	return False
76		98
77	if item.filename in self.files_to_keep:	99	if item.filename in self.files_to_keep:
78	# those files aren't supported, but we want to add them anyway	100	# those files aren't supported, but we want to add them anyway
@@ -118,6 +140,45 @@ class MSOfficeParser(ArchiveBasedAbstractParser):
118	'^docProps/',	140	'^docProps/',
119	}))	141	}))
120		142
		143	def __remove_revisions(self, full_path:str) -> bool:
		144	""" In this function, we're changing the XML
		145	document in two times, since we don't want
		146	to change the tree we're iterating on."""
		147	tree, ns = _parse_xml(full_path)
		148
		149	# No revisions are present
		150	if tree.find('.//w:del', ns) is None:
		151	return True
		152	elif tree.find('.//w:ins', ns) is None:
		153	return True
		154
		155	parent_map = {c:p for p in tree.iter( ) for c in p}
		156
		157	elements = list([element for element in tree.iterfind('.//w:del', ns)])
		158	for element in elements:
		159	parent_map[element].remove(element)
		160
		161	elements = list()
		162	for element in tree.iterfind('.//w:ins', ns):
		163	for position, item in enumerate(tree.iter()):
		164	if item == element:
		165	for children in element.iterfind('./*'):
		166	elements.append((element, position, children))
		167	break
		168
		169	for (element, position, children) in elements:
		170	parent_map[element].insert(position, children)
		171	parent_map[element].remove(element)
		172
		173	tree.write(full_path, xml_declaration=True)
		174
		175	return True
		176
		177	def _specific_cleanup(self, full_path:str) -> bool:
		178	if full_path.endswith('/word/document.xml'):
		179	return self.__remove_revisions(full_path)
		180	return True
		181
121	def get_meta(self) -> Dict[str, str]:	182	def get_meta(self) -> Dict[str, str]:
122	"""	183	"""
123	Yes, I know that parsing xml with regexp ain't pretty,	184	Yes, I know that parsing xml with regexp ain't pretty,
@@ -168,27 +229,16 @@ class LibreOfficeParser(ArchiveBasedAbstractParser):
168		229
169		230
170	def __remove_revisions(self, full_path:str) -> bool:	231	def __remove_revisions(self, full_path:str) -> bool:
171	def parse_map(f): # etree support for ns is a bit rough	232	tree, ns = _parse_xml(full_path)
172	ns_map = dict()
173	for event, (k, v) in ET.iterparse(f, ("start-ns", )):
174	if event == "start-ns":
175	ns_map[k] = v
176	return ns_map
177		233
178	ns = parse_map(full_path)
179	if 'office' not in ns.keys(): # no revisions in the current file	234	if 'office' not in ns.keys(): # no revisions in the current file
180	return True	235	return True
181		236
182	# Register the namespaces
183	for k,v in ns.items():
184	ET.register_namespace(k, v)
185
186	tree = ET.parse(full_path)
187	for text in tree.getroot().iterfind('.//office:text', ns):	237	for text in tree.getroot().iterfind('.//office:text', ns):
188	for changes in text.iterfind('.//text:tracked-changes', ns):	238	for changes in text.iterfind('.//text:tracked-changes', ns):
189	text.remove(changes)	239	text.remove(changes)
190		240
191	tree.write(full_path, xml_declaration = True)	241	tree.write(full_path, xml_declaration=True)
192		242
193	return True	243	return True
194		244
@@ -219,4 +269,3 @@ class LibreOfficeParser(ArchiveBasedAbstractParser):
219	metadata[key] = value	269	metadata[key] = value
220	zipin.close()	270	zipin.close()
221	return metadata	271	return metadata
222


diff --git a/tests/data/revision.docx b/tests/data/revision.docx new file mode 100644 index 0000000..8a2d814 --- /dev/null +++ b/tests/data/revision.docx
Binary files differ


diff --git a/tests/test_libmat2.py b/tests/test_libmat2.py index 1573790..4df6385 100644 --- a/tests/test_libmat2.py +++ b/tests/test_libmat2.py
@@ -121,6 +121,7 @@ class TestRemovingThumbnails(unittest.TestCase):
121	zipin.close()	121	zipin.close()
122		122
123	os.remove('./tests/data/clean.cleaned.odt')	123	os.remove('./tests/data/clean.cleaned.odt')
		124	os.remove('./tests/data/clean.odt')
124		125
125		126
126	class TestRevisionsCleaning(unittest.TestCase):	127	class TestRevisionsCleaning(unittest.TestCase):
@@ -142,6 +143,26 @@ class TestRevisionsCleaning(unittest.TestCase):
142	os.remove('./tests/data/clean.odt')	143	os.remove('./tests/data/clean.odt')
143	os.remove('./tests/data/clean.cleaned.odt')	144	os.remove('./tests/data/clean.cleaned.odt')
144		145
		146	def test_msoffice(self):
		147	with zipfile.ZipFile('./tests/data/revision.docx') as zipin:
		148	c = zipin.open('word/document.xml')
		149	content = c.read()
		150	r = b'<w:ins w:id="1" w:author="Unknown Author" w:date="2018-06-28T23:48:00Z">'
		151	self.assertIn(r, content)
		152
		153	shutil.copy('./tests/data/revision.docx', './tests/data/revision_clean.docx')
		154	p = office.MSOfficeParser('./tests/data/revision_clean.docx')
		155	self.assertTrue(p.remove_all())
		156
		157	with zipfile.ZipFile('./tests/data/revision_clean.cleaned.docx') as zipin:
		158	c = zipin.open('word/document.xml')
		159	content = c.read()
		160	r = b'<w:ins w:id="1" w:author="Unknown Author" w:date="2018-06-28T23:48:00Z">'
		161	self.assertNotIn(r, content)
		162
		163	os.remove('./tests/data/revision_clean.docx')
		164	os.remove('./tests/data/revision_clean.cleaned.docx')
		165
145		166
146	class TestDeepCleaning(unittest.TestCase):	167	class TestDeepCleaning(unittest.TestCase):
147	def __check_deep_meta(self, p):	168	def __check_deep_meta(self, p):