ubiquitour.com

Cómo: REGEX para analizar XML

Cómo: REGEX para analizar XML

Análisis sintáctico XML representa un reto para el analizador de texto posibles debido a la extensibilidad de XML. Convenciones de formato XML son jerárquicas en naturaleza, significando que algunas etiquetas dominan otras etiquetas. Expresiones regulares (REGEXes) identifican patrones de texto XML--un REGEX para emparejar las etiquetas XML coincidirá con todo dentro de <> de etiquetas de xml, pero no muestra la organización jerárquica de estas etiquetas. Es posible separar esta estructura de la etiqueta de texto utilizando el lenguaje de programación Python y el paquete de herramientas de Lenguaje Natural, que incrusta expresiones regulares y manipulación de texto y puede mostrar las etiquetas XML y su organización.

Instrucciones

1 Abra una ventana de terminal y escriba el comando "python - v" en el indicador para comprobar la presencia y la versión de Python en tu computadora. Ir a la página NLTK y descargar el paquete de installer NLTK apropiado para su sistema operativo. Compruebe que NLTK esté instalado correctamente escribiendo el comando ">>> Importar nltk" en el prompt de Python.

2 Tipo ">>> nltk.download()" para abrir una ventana. Elige la fila con la etiqueta "todos" y haga clic en el botón de descarga. Esto descargará una serie de textos para NLTK a trabajar, entre ellos "El mercader de Venecia" de Shakespeare formateado con etiquetas XML especiales para juegos.

3 Importar el mercader de Venecia con la etiqueta en XML con el siguiente comando en el prompt de Python:

merchant_file = nltk.data.find('corpora/shakespeare/merchant.xml')

Asignar el archivo una variable que puede manipular con comandos de Python:

materia prima = open(merchant_file).read()

Sólo para asegurarse de que está ahí, escriba el siguiente comando para ver los caracteres primero 168:

imprimir crudo [0:168]

Podrás ver las etiquetas de encabezado XML y XML especial jugar etiquetas.

4 Escriba el siguiente comando en el prompt de Python:

de nltk.etree.ElementTree importación ElementTree

y pulse "Retorno", a continuación, escriba lo siguiente en el prompt de Python:

comerciante = ElementTree().parse(merchant_file)

El comando de análisis permite al usuario ver las etiquetas XML y su contenido. Para crear una vista jerárquica de etiquetas correctamente anidadas XML, escriba el siguiente comando en el prompt de Python:

Merchant.GetChildren()

Esto mostrará el especial XML juega etiquetas en su orden jerárquico. La salida de este comando debería ser como esta:

[< elemento TITLE en 2261b48 >, < elemento PERSONAE en 2261b20 >, < elemento SCNDESCR en el 22cc260 >, < elemento PLAYSUBT en el 22cc198 >, < elemento acto en 22cc0f8 >, < elemento acto en f2bff08 >, < elemento acto en f3218a0 >, < elemento acto en f0e8a30 >, < elemento acto en ee07328 >]