Mastering lxml in Python: Parse XML and HTML Like a Pro

#python #xml #webscraping #html

Introduction

XML and HTML are everywhere—from APIs to scraped websites. In this post, I’ll show you how to use lxml, a powerful and fast Python library for parsing and manipulating XML/HTML.

Installation

pip install lxml

Parsing XML

from lxml import etree

xml_data = '''<root><item>One</item><item>Two</item></root>'''
root = etree.fromstring(xml_data)

for item in root.findall('item'):
    print(item.text)

Parsing HTML

from lxml import html

html_content = '<html><body><h1>Hello</h1></body></html>'
tree = html.fromstring(html_content)

heading = tree.xpath('//h1/text()')
print(heading[0])  # Output: Hello