Cómo: REGEX para analizar XML
Análisis sintáctico XML representa un reto para el analizador de texto posibles debido a la extensibilidad de XML. Convenciones de formato XML son jerárquicas en naturaleza, significando que algunas etiquetas dominan otras etiquetas. Expresiones regulares (REGEXes) identifican patrones de texto XML--un REGEX para emparejar las etiquetas XML coincidirá con todo dentro de <> de etiquetas de xml, pero no muestra la organización jerárquica de estas etiquetas. Es posible separar esta estructura de la etiqueta de texto utilizando el lenguaje de programación Python y el paquete de herramientas de Lenguaje Natural, que incrusta expresiones regulares y manipulación de texto y puede mostrar las etiquetas XML y su organización.
Instrucciones
1 Abra una ventana de terminal y escriba el comando "python - v" en el indicador para comprobar la presencia y la versión de Python en tu computadora. Ir a la página NLTK y descargar el paquete de installer NLTK apropiado para su sistema operativo. Compruebe que NLTK esté instalado correctamente escribiendo el comando ">>> Importar nltk" en el prompt de Python.
2 Tipo ">>> nltk.download()" para abrir una ventana. Elige la fila con la etiqueta "todos" y haga clic en el botón de descarga. Esto descargará una serie de textos para NLTK a trabajar, entre ellos "El mercader de Venecia" de Shakespeare formateado con etiquetas XML especiales para juegos.
3 Importar el mercader de Venecia con la etiqueta en XML con el siguiente comando en el prompt de Python:
merchant_file = nltk.data.find('corpora/shakespeare/merchant.xml')
Asignar el archivo una variable que puede manipular con comandos de Python:
materia prima = open(merchant_file).read()
Sólo para asegurarse de que está ahí, escriba el siguiente comando para ver los caracteres primero 168:
imprimir crudo [0:168]
Podrás ver las etiquetas de encabezado XML y XML especial jugar etiquetas.
4 Escriba el siguiente comando en el prompt de Python:
de nltk.etree.ElementTree importación ElementTree
y pulse "Retorno", a continuación, escriba lo siguiente en el prompt de Python:
comerciante = ElementTree().parse(merchant_file)
El comando de análisis permite al usuario ver las etiquetas XML y su contenido. Para crear una vista jerárquica de etiquetas correctamente anidadas XML, escriba el siguiente comando en el prompt de Python:
Merchant.GetChildren()
Esto mostrará el especial XML juega etiquetas en su orden jerárquico. La salida de este comando debería ser como esta:
[< elemento TITLE en 2261b48 >, < elemento PERSONAE en 2261b20 >, < elemento SCNDESCR en el 22cc260 >, < elemento PLAYSUBT en el 22cc198 >, < elemento acto en 22cc0f8 >, < elemento acto en f2bff08 >, < elemento acto en f3218a0 >, < elemento acto en f0e8a30 >, < elemento acto en ee07328 >]
Artículos relacionados
- Programas para analizar XML
- Cómo utilizar Oracle SQL Loader para analizar XML
- Cómo utilizar ASP para analizar un enlace de Google Alerts en XML
- Cómo analizar XML en Mozilla
- Cómo utilizar Variables en Perl Regex para Ubuntu
- Cómo utilizar Excel como una herramienta para analizar los datos para una organización
- Regex para extraer un cuerpo de un HTML
- Herramientas para analizar archivos Log4
- Cómo configurar Apache2 para analizar PHP