Bugfixes (especially for pdf), and more pylint conformity

author: jvoisin 2011-07-26 15:14:48 +0200
committer: jvoisin 2011-07-26 15:14:48 +0200
commit: 962e9aec5ffcdaae39e06f277dd47d1943205c37 (patch)
tree: 85d57c245f010579dc3eb9199fe3ed6e379e96d8 /lib
parent: 7c9edd6514854f707b87e150a1ffa327ebd8dcac (diff)
7 files changed, 63 insertions, 25 deletions
diff --git a/lib/archive.py b/lib/archive.py
index f11506a..1aaf74b 100644
--- a/lib/archive.py
+++ b/lib/archive.py
@@ -10,7 +10,7 @@ import parser
 import mat
-class GenericArchiveStripper(parser.Generic_parser):
+class GenericArchiveStripper(parser.GenericParser):
    '''
        Represent a generic archive
    '''
@@ -29,24 +29,40 @@ class GenericArchiveStripper(parser.Generic_parser):
        shutil.rmtree(self.tempdir)
    def remove_all(self):
+        '''
+            Call _remove_all() with in argument : "normal"
+        '''
        self._remove_all('normal')
    def remove_all_ugly(self):
+        '''
+            call remove_all() with in argument : "ugly"
+        '''
        self._remove_all('ugly')
+    def _remove_all(self, method):
+        '''
+            Remove all meta, normal way if method is "normal",
+            else, use the ugly way (with possible data loss)
+        '''
+        raise NotImplementedError
 class ZipStripper(GenericArchiveStripper):
    '''
        Represent a zip file
    '''
-    def is_file_clean(self, file):
+    def is_file_clean(self, fileinfo):
-        if file.comment is not '':
+        '''
+            Check if a ZipInfo object is clean of metadatas added
+            by zip itself, independently of the corresponding file metadatas
+        '''
+        if fileinfo.comment is not '':
            return False
-        elif file.date_time is not 0:
+        elif fileinfo.date_time is not 0:
            return False
-        elif file.create_system is not 0:
+        elif fileinfo.create_system is not 0:
            return False
-        elif file.create_version is not 0:
+        elif fileinfo.create_version is not 0:
            return False
        else:
            return True
@@ -74,7 +90,7 @@ class ZipStripper(GenericArchiveStripper):
                    #best solution I have found
                    logging.info('%s\'s fileformat is not supported, or is a \
 harmless format' % item.filename)
-                    base, ext = os.path.splitext(name)
+                    _, ext = os.path.splitext(name)
                    bname = os.path.basename(item.filename)
                    if ext not in parser.NOMETA:
                        if bname != 'mimetype':
@@ -84,6 +100,10 @@ harmless format' % item.filename)
        return True
    def get_meta(self):
+        '''
+            Return all the metadata of a ZipFile (don't return metadatas
+            of contained files : should it ?)
+        '''
        zipin = zipfile.ZipFile(self.filename, 'r')
        metadata = {}
        for field in zipin.infolist():
@@ -231,6 +251,9 @@ class TarStripper(GenericArchiveStripper):
 class GzipStripper(TarStripper):
+    '''
+        Represent a tar.gz archive
+    '''
    def __init__(self, realname, filename, parser, editor, backup,
        add2archive):
        super(GzipStripper, self).__init__(realname,
@@ -239,6 +262,9 @@ class GzipStripper(TarStripper):
 class Bzip2Stripper(TarStripper):
+    '''
+        Represents a tar.bz2 archive
+    '''
    def __init__(self, realname, filename, parser, editor, backup,
        add2archive):
        super(Bzip2Stripper, self).__init__(realname,
diff --git a/lib/audio.py b/lib/audio.py
index 35d4fde..d77efd9 100644
--- a/lib/audio.py
+++ b/lib/audio.py
@@ -1,7 +1,7 @@
 import parser
-class MpegAudioStripper(parser.Generic_parser):
+class MpegAudioStripper(parser.GenericParser):
    '''
        mpeg audio file (mp3, ...)
    '''
diff --git a/lib/images.py b/lib/images.py
index bab0bfb..df3d256 100644
--- a/lib/images.py
+++ b/lib/images.py
@@ -1,7 +1,10 @@
 import parser
-class JpegStripper(parser.Generic_parser):
+class JpegStripper(parser.GenericParser):
+    '''
+        Represents a .jpeg file
+    '''
    def _should_remove(self, field):
        if field.name.startswith('comment'):
            return True
@@ -11,7 +14,10 @@ class JpegStripper(parser.Generic_parser):
            return False
-class PngStripper(parser.Generic_parser):
+class PngStripper(parser.GenericParser):
+    '''
+        Represents a .png file
+    '''
    def _should_remove(self, field):
        if field.name.startswith("text["):
            return True
diff --git a/lib/mat.py b/lib/mat.py
index e4371ce..8d01e05 100644
--- a/lib/mat.py
+++ b/lib/mat.py
@@ -25,7 +25,7 @@ LOGGING_LEVEL = logging.DEBUG
 logging.basicConfig(level=LOGGING_LEVEL)
-strippers = {
+STRIPPERS = {
    hachoir_parser.image.JpegFile: images.JpegStripper,
    hachoir_parser.image.PngFile: images.PngStripper,
    hachoir_parser.audio.MpegAudioFile: audio.MpegAudioStripper,
@@ -83,7 +83,7 @@ def create_class_file(name, backup, add2archive):
        (which herits from the "file" class), based on the editor
        of given file (name)
        '''
-        stripper_class = strippers[editor.input.__class__]
+        stripper_class = STRIPPERS[editor.input.__class__]
    except KeyError:
        #Place for another lib than hachoir
        logging.info('Don\'t have stripper for format %s' % editor.description)
diff --git a/lib/misc.py b/lib/misc.py
index ce14313..f846388 100644
--- a/lib/misc.py
+++ b/lib/misc.py
@@ -2,7 +2,7 @@ import hachoir_core
 import parser
-class TorrentStripper(parser.Generic_parser):
+class TorrentStripper(parser.GenericParser):
    '''
        A torrent file looks like:
        -root
@@ -21,8 +21,7 @@ class TorrentStripper(parser.Generic_parser):
            if self._should_remove(field):
                #FIXME : hachoir does not support torrent metadata editing :<
                del self.editor['/root/' + field.name]
-        hachoir_core.field.writeIntoFile(self.editor,
+        hachoir_core.field.writeIntoFile(self.editor, self.output)
-            self.filename + parser.POSTFIX)
        self.do_backup()
    def is_clean(self):
diff --git a/lib/office.py b/lib/office.py
index 432bc0b..5fa475d 100644
--- a/lib/office.py
+++ b/lib/office.py
@@ -6,6 +6,7 @@ import glob
 import logging
 import zipfile
 import re
+import shutil
 from xml.etree import ElementTree
@@ -97,7 +98,7 @@ class OpenDocumentStripper(archive.GenericArchiveStripper):
        return True
-class PdfStripper(parser.Generic_parser):
+class PdfStripper(parser.GenericParser):
    '''
        Represent a pdf file, with the help of pdfrw
    '''
@@ -109,10 +110,17 @@ class PdfStripper(parser.Generic_parser):
        self.realname = realname
        self.shortname = os.path.basename(filename)
        self.mime = mimetypes.guess_type(filename)[0]
+        self.tempdir = tempfile.mkdtemp()
        self.trailer = pdfrw.PdfReader(self.filename)
        self.writer = pdfrw.PdfWriter()
        self.convert = 'gm convert -antialias -enhance %s %s'
+    def __del__(self):
+        '''
+            Remove the temp dir
+        '''
+        shutil.rmtree(self.tempdir)
    def remove_all(self):
        '''
            Remove all the meta fields that are compromizing
@@ -133,19 +141,18 @@ class PdfStripper(parser.Generic_parser):
            Transform each pages into a jpg, clean them,
            then re-assemble them into a new pdf
        '''
-        _, self.tmpdir = tempfile.mkstemp()
+        subprocess.call(self.convert % (self.filename, self.tempdir +
-        subprocess.call(self.convert % (self.filename, self.tmpdir +
            'temp.jpg'), shell=True)  # Convert pages to jpg
-        for current_file in glob.glob(self.tmpdir + 'temp*'):
+        for current_file in glob.glob(self.tempdir + 'temp*'):
        #Clean every jpg image
-            class_file = mat.create_class_file(current_file, False)
+            class_file = mat.create_class_file(current_file, False, False)
            class_file.remove_all()
-        subprocess.call(self.convert % (self.tmpdir +
+        subprocess.call(self.convert % (self.tempdir +
            'temp.jpg*', self.output), shell=True)  # Assemble jpg into pdf
-        for current_file in glob.glob(self.tmpdir + 'temp*'):
+        for current_file in glob.glob(self.tempdir + 'temp*'):
        #remove jpg files
            mat.secure_remove(current_file)
@@ -155,7 +162,7 @@ class PdfStripper(parser.Generic_parser):
            name = self.realname
        else:
            name = self.output
-        class_file = mat.create_class_file(name, False)
+        class_file = mat.create_class_file(name, False, False)
        class_file.remove_all()
    def is_clean(self):
diff --git a/lib/parser.py b/lib/parser.py
index 28e0849..ae647fe 100644
--- a/lib/parser.py
+++ b/lib/parser.py
@@ -12,7 +12,7 @@ import mat
 NOMETA = ('.bmp', 'html', '.py', '.rdf', '.txt', '.xml')
-class Generic_parser(object):
+class GenericParser(object):
    def __init__(self, realname, filename, parser, editor, backup,
        add2archive):
        basename, ext = os.path.splitext(filename)
@@ -78,7 +78,7 @@ class Generic_parser(object):
            return True if the field is compromizing
            abstract method
        '''
-        raise NotImplementedError()
+        raise NotImplementedError
    def do_backup(self):
        '''
author	jvoisin	2011-07-26 15:14:48 +0200
committer	jvoisin	2011-07-26 15:14:48 +0200
commit	962e9aec5ffcdaae39e06f277dd47d1943205c37 (patch)
tree	85d57c245f010579dc3eb9199fe3ed6e379e96d8 /lib
parent	7c9edd6514854f707b87e150a1ffa327ebd8dcac (diff)