jueves, 23 de octubre de 2014

MAT.- Limpiando Metadatos en Python

Hace bastante tiempo que quería meterme con es extracción y eliminación de metadatos en Python para poder hacer un script propio. Pero rebuscando en Google, en una de las entradas del [Binario.net], he encontrado a MAT una herramienta para la limpieza de metadata de muchísimos tipos de archivos. 


MAT son las siglas de Metadata Anonymisation Toolkit que, en mi opinión, no es un nombre muy bien escogido porque por muchos metadatos que borres si en el documento hay información confidencial no va a ser anónimo. Pero solo es mi opinión.  La verdad es que este programa funciona bien y es capaz de limpiar bastantes tipos de archivos. 

Tipos de archivos que puede limpiar: 
  • Gráficos: png, jpg, jpeg, … 
  • Documentos ofimaticos libres: odt, odx, ods, … 
  • Documentos ofimaticos openXml: docx, pptx, xlsx, … 
  • Archivos de documentos portables: pdf 
  • Archivos comprimidos: tar, tar.bz2, … 
  • Audio: mp3, mp2, mp1, ogg, flac, … 
  • Torrents: . Torrent
Contiene una interfaz gráfica pero también puede ser ejecutado en consola. Ademas es bastante facil de usar como podéis ver en este vídeo. 


Es una herramienta muy buena pero, no se ha hecho una buena gestión de las dependencias y requiere todas estas librerías e herramientas para poder ser utilizada. 
  • python2.7
  • python-hachoir-core y python-hachoir-parser
  • python-pdfrw, gir-poppler y python-gi-cairo
  • python-gi
  • shred
  • python-mutagen
  • exiftool
Si la queréis descargar y aprender un poco mas de ella os dejo el link de la fuente aquí: 

No hay comentarios:

Publicar un comentario