Difference between revisions of "Repeatmasker"

From wiki
Jump to: navigation, search
(Created page with "= Installation requirements = * variouus Perl modules * trf: Tandem Repeats Finder, only seems necessary for the subprogram '''RepeatProteinMask''' * One of the following: ''...")
 
Line 3: Line 3:
 
* variouus Perl modules
 
* variouus Perl modules
 
* trf: Tandem Repeats Finder, only seems necessary for the subprogram '''RepeatProteinMask'''
 
* trf: Tandem Repeats Finder, only seems necessary for the subprogram '''RepeatProteinMask'''
* One of the following: '''cross_match''', '''wublast''' y '''rmblast'''. However, it now appears that cross_match is not recommeneded due to slow code (coded in C in 1998) and that it's better to use thr 64-bit rmblast binary.
+
* One of the following: '''cross_match''', '''wublast''' y '''rmblast'''. However, cross_match not recommeneded (slow code in C from 1998). Best off using the 64-bit '''rmblast''' binary.
 
* The Repeat library/database from [http://www.girinst.com GIRI].  
 
* The Repeat library/database from [http://www.girinst.com GIRI].  
  
 
= Installation method =
 
= Installation method =
* Unfortunately it is interactive which means it will be geared towards the single computer installation, which is fine if using a laptop. Also the tab complete won'Desafortunadamente es interactivo, con lo que no funciona el TAB-complete.
+
* Unfortunately it is interactive which means it will be geared towards the single computer installation, which is fine if using a laptop, but not a cluster. Also the tab complete won't work, which is annoying.
Algunos mensajes:
+
 
 +
Typical messages that are output:
 
* Building monolithic RM database ...
 
* Building monolithic RM database ...
 
* Building RMBlast frozen libraries ...
 
* Building RMBlast frozen libraries ...
Line 34: Line 35:
  
 
Eso lo de "perl interpreter" es vestigio de una etapa anterior, cuando elige el interpretador de perl. Al usar '''/usr/bin/env''', elige la versión del perl actual del instalador.
 
Eso lo de "perl interpreter" es vestigio de una etapa anterior, cuando elige el interpretador de perl. Al usar '''/usr/bin/env''', elige la versión del perl actual del instalador.
 +
 
== El Repeat Library/Update ==
 
== El Repeat Library/Update ==
 
Ha que pedir permiso para registrarse en la web de GIRI y descargar los ficheros. Los ficheros son los siguientes:
 
Ha que pedir permiso para registrarse en la web de GIRI y descargar los ficheros. Los ficheros son los siguientes:

Revision as of 16:34, 9 March 2017

Installation requirements

  • variouus Perl modules
  • trf: Tandem Repeats Finder, only seems necessary for the subprogram RepeatProteinMask
  • One of the following: cross_match, wublast y rmblast. However, cross_match not recommeneded (slow code in C from 1998). Best off using the 64-bit rmblast binary.
  • The Repeat library/database from GIRI.

Installation method

  • Unfortunately it is interactive which means it will be geared towards the single computer installation, which is fine if using a laptop, but not a cluster. Also the tab complete won't work, which is annoying.

Typical messages that are output:

  • Building monolithic RM database ...
  • Building RMBlast frozen libraries ...

Lo recomendado es uitlizar RMBlast, pero hay una opción para incluir nhmmer y DFAM también .. puede ser util. No mencionan que nhmmerscan también es parte de nhmmer, y los dos forman parte del HMMER.

Mensaje al final:
Add a Search Engine:
  1. CrossMatch: [ Un-configured ]
  2. RMBlast - NCBI Blast with RepeatMasker extensions: [ Configured, Default ]
  3. WUBlast/ABBlast (required by DupMasker): [ Un-configured ]
  4. HMMER3.1 & DFAM: [ Configured ]
  5. Done
 
Enter Selection: 5
 -- Setting perl interpreter...
 
Congratulations!  RepeatMasker is now ready to use.
The program is installed with a full version of the repeat library:
 DFAM Library Version = Dfam_1.2
 RMLibrary Version = 20140131
 Repbase Version = 20140131
Further documentation on the program may be found here:
 /share/apps/src/RepeatMasker-open-4-0-5/repeatmasker.help

Eso lo de "perl interpreter" es vestigio de una etapa anterior, cuando elige el interpretador de perl. Al usar /usr/bin/env, elige la versión del perl actual del instalador.

El Repeat Library/Update

Ha que pedir permiso para registrarse en la web de GIRI y descargar los ficheros. Los ficheros son los siguientes:

  • EMBL format (59.08 MB) 11-10-2012: "Local: RepBase17.11.embl.tar.gz"
  • FASTA format (28.76 MB) 11-10-2012: "Local: RepBase17.11.fasta.tar.gz"
  • Repeatmasker editions: "Local:repeatmaskerlibraries-20090604.tar.gz (11.27 MB)" y "Local:repeatmaskerlibraries-20120418.tar.gz (26.76 MB)". Creo que solo hay que elegir uno de estos dos
  • REPET edition: "Local:RepBase17.11_REPET.embl.tar.gz (28.77 MB)"

Efectivamente, sólo se requiere uno de estos ficheros: el "repeatmaskerlibraries-20120418.tar.gz" que contiene el fichero RepeatMaskerLib.embl que tiene el mismo nombre y se encuentra en el mismo directorio del que vino con el propio RepeatMasker, pero que es mucho más grande.

De todas formas, Repeatmasker se va quejar si no es el RepeatMaskerLib.embl del GIRI.

¿Y dónde meter este fichero? En el subdirectorio "Libraries" del source de RepeatMasker

Para actualizar estas BBDD, se acude al sitio web de giri y se utiliza el userid ramonf con contraseña u9xyvu.

Modificaciones a los principales scripts

Los principales scripts son:

  • RepeatMasker
  • ProcessRepeats
  • DateRepeats

Hay que cambiar la primera línea al interprete de Perl.

Por otro lado, es necesario informar a RepeatMasker sobre la ubicación exacta de los principales ejecutables, pero al contrario de los que dicen los documentos, se deben identificar en el fichero RepeatMaskerConfig.tmpl en vez del fichero llamado RepeatMasker.

Pequeño Test

Sólo queremos asegurarnos que se puede ejecutar el Repeatmasker sin arrojar errores de la siguiente manera. El propio ejecutable RepeatMasker es un perl script. Primero es bueno asegurarse que el RepeatMasker está en el PATH del usuario. En el fatnode, el PATH de RepeatMasker es

/opt/src/RepeatMasker-open-3-3-0-p1/

Repeatmasker tiene varias opciones, pero para una análisis rápido, la opción -gccalc se puede usar. Por tanto, si teneos el siguietne fichero de entrada

>Sequence1
ACGTGCGCGATCGCCTGCTAGGCGTACGTCGCAG
GCACTGGCAGATCGATGTGCTAGATCAGATGACA
>Sequence2
GGGCTATTCCGATTAGCACCACATACATCGCTCA

con el nombre in.seq podemos ejecutar lo siguiente:

RepeatMasker -gccalc in.seq

Este fichero no va a tener un resultado sustancial para el programa, pero el objetivo era encontrar errores de instalación de RepeatMasker y nada más.