ubiquitour.com

Cómo extraer texto de un documento PDF

Puede ser muy frustrante intentar extraer texto de un archivo PDF para utilizarlo en otra aplicación. No es infrecuente para gráficos en la forma o diseño del documento para que sea difícil para la prueba de que se transferirán en oraciones significativas. Aunque no es imposible extraer texto con un enfoque de copiar y pegar, puede ser desperdiciador de tiempo y no permite para que el texto del archivo PDF ser exportado como un formato diferente. Sin embargo, hay algunas maneras de extraer texto de un archivo PDF.

Instrucciones

Extraer texto utilizando Acrobat Reader

1 Abra el archivo en Acrobat Reader. En Windows, seleccione "Archivo--> Exportar documento a texto," nombre del documento y guárdelo.

2 Copie el texto en un Mac o sistema operativo Linux acceder al menú Ver y eligiendo "Continua" o "Continua orientada." (La anterior le proporcionará el texto en una columna, mientras que el último formateará el texto como páginas de lado a lado.) Ir a "Editar -> seleccionar todo" y luego "Edit--> Copy."

3 Use la herramienta seleccionar si desea extraer parte del texto. Haga clic en la herramienta "Seleccionar texto" y seleccione la información que desee. En un documento con formato de columnas múltiples, debe utilizar la herramienta "Seleccionar columna" primero. Ir a "Editar--> Copiar".

Convertir PDF a HTML

4 Utilizar Gmail como un acceso directo. Adjuntar el archivo PDF a un correo electrónico y enviarlo a tu cuenta de Gmail. Cuando abres el correo electrónico, verá un número de opciones al lado del accesorio. Seleccione "Ver como HTML" y guardar el archivo que se abre en una ventana independiente. Aunque usted no será capaz de ver los gráficos, el archivo HTML conservará el formato de texto del documento.

5 Extraer y convertir los archivos en la línea de comandos. Los usuarios de Linux pueden utilizar un comando de conversión básica que va a cambiar un archivo PDF a un archivo .txt: "pdftotext resultante." Asegúrese de reemplazar el nombre del archivo con el nombre del archivo PDF.

6 Descargar PDF programa de conversión de texto. Se dispone de un número de programas abiertos de la fuente y freeware como PDFBox y fácil convertidor de PDF a texto (ver recursos más adelante). Muchos de estos programas también pueden convertir archivos PDF a HTML, así.

Consejos y advertencias

  • Determinar si el documento tiene el formato que contiene texto y gráficos. El enfoque de Adobe Acrobat sólo funcionará si el archivo PDF contiene ambos; no funciona para archivos con imágenes solamente. En algunos casos el texto en un documento PDF hecho con formato como una imagen. Esto sucede a menudo cuando se escanea un documento original y se crea un archivo PDF de la imagen escaneada.
  • Esté preparado para cambiar el formato de parte del texto cuando se utiliza Acrobat Reader. Esta forma de extracción simplemente exporta el archivo PDF a un archivo de texto--no mantienen necesariamente conservar el formato. Sin embargo, si se necesitan usar las palabras esto no debería ser un problema.