ubiquitour.com

Cómo extraer las entradas de Fasta múltiple

Cómo extraer las entradas de Fasta múltiple

FASTA es un formato basado en texto utilizado en bioinformática para representar secuencias, especialmente los de nucleótidos y péptidos, con pares de bases representadas por una sola letra. Una secuencia FASTA consiste en una descripción de una línea, distinguida por un símbolo "mayor que" en la primera línea, seguido por una secuencia de nucleótidos o péptido de varias líneas. Puede extraer secuencias múltiples de un archivo FASTA mediante módulos especiales o complementos, para el Perl de programación lengua, conocida como BioPerl, que han sido especialmente desarrollados para manejar el formato FASTA. Manualmente también puede codificar un script en Perl para emparejar patrones en un archivo o utilizar otras herramientas disponibles para extraer secuencias FASTA.

Instrucciones

1 Lanzamiento de la aplicación de editor de Perl. Se puede utilizar un editor de texto simple como Notepad. Tendrá que guardar el archivo con la extensión "PL" para indicar que se trata de un programa Perl.

2 Extraer una secuencia de un archivo FASTA múltiple realizando búsqueda de patrones en Perl, escribiendo el siguiente código en el editor:

! / usr/bin/perl mi $ fasta_seq = cambio;mi $sequence = cambio;mi $workfile = cat $ fasta_seq ;mi ($fasta_seq) = $workfile = ~ /(>$sequence[^>]+)/s;impresión $fasta_seq;

3 Extraer las secuencias del archivo FASTA usando BioPerl. Puede extraer múltiples secuencias escribiendo el siguiente código en el editor:

! / bin/perl -w Use Bio::SeqIO;

$sequenceobject = Bio::SeqIO -> new (-archivo = > "fasta_file_path",-formato = > "fasta");

El módulo de Bio::SeqIO proporciona procesamiento de secuencia inconsútil. Puede recuperar una sola secuencia con la siguiente declaración:

$retrievedsequence = $ sequenceobject -> next_seq;

Puede recorrer el objeto y recuperar secuencias múltiples, como sigue:

mientras que ($retrievedsequence = $ sequenceobject -> next_seq){

print $ retrievedsequence ->seq,"\n";

}

4 Extraer las secuencias del archivo FASTA mediante la aplicación de "Biopieces", que es el marco que contiene un conjunto de herramientas modulares para manipular datos de Bioinformática. Ejecute el comando Biopieces en la línea de comandos.

read_fasta -i fasta_file | Tome la secuencia -p | write_fasta -o sequence_file-x

Esto es una buena opción si no eres muy técnicamente inclinado, como el marco encapsula gran parte del esfuerzo de programación necesario para procesar el archivo FASTA y salida de las secuencias combinadas.