circobit

Posted on Jun 29

Financiële Tabellen Extraheren: Aandelen, ETF's en Marktdata

#python #webdev #tutorial #datascience

Financiële websites zijn goudmijnen aan tabeldata. Aandelenkoersen, ETF-posities, marktindices, kwartaalcijfers — allemaal in HTML-tabellen, klaar om geanalyseerd te worden.

Maar die data in een bruikbaar formaat krijgen is niet altijd eenvoudig.

Deze gids behandelt de veelvoorkomende uitdagingen met financiële tabellen en praktische oplossingen om ze schoon te extraheren.

Waarom Financiële Tabellen Lastig Zijn

Financiële data heeft eigenaardigheden die naïeve extractiemethoden breken.

Gemengde Getalnotaties

Amerikaanse sites tonen 1,234.56. Europese sites tonen 1.234,56. Sommige financiële portalen mengen beide, afhankelijk van de databron.

Kopiëren en plakken in Excel verpest dit vaak. Een duizendtal wordt een decimaal. Een datum wordt een getal. Chaos.

Realtime Updates

Veel financiële tabellen worden dynamisch bijgewerkt. De DOM verandert na het laden van de pagina. Als je te vroeg scrapt, krijg je verouderde data of lege cellen.

Geneste Structuren

Tabellen met posities hebben vaak uitklapbare rijen. De top-10 posities van een fonds worden getoond, met een "Alles tonen"-knop die de rest verbergt. De verborgen data staat wel op de pagina, maar is niet zichtbaar.

Percentage- en Valutasymbolen

+2,34% en €1.234 zien er prima uit voor mensen. Voor een spreadsheet zijn het tekststrings die niet correct sorteren of berekenen.

Veelvoorkomende Financiële Databronnen

Yahoo Finance

Aandelenkoersen, historische data, portefeuilleposities. Tabellen zijn relatief schoon maar worden dynamisch bijgewerkt.

Tip: Wacht tot de pagina volledig is geladen voordat je extraheert. De eerste render toont vaak laad-placeholders.

Google Finance

Minimale tabellen, vooral kaarten en grafieken. Minder geschikt voor bulkextractie.

Bekijk voor een gedetailleerde uitleg onze gids over het exporteren van Google Finance-tabellen naar Excel.

Morningstar

Fondsposities, prestatiegegevens, sectorverdelingen. Tabellen zijn goed gestructureerd maar vaak gepagineerd.

Tip: Zoek naar "Alles tonen" of paginatieknoppen. De eerste pagina toont mogelijk alleen de top 10 posities.

SEC EDGAR

Rapportages bevatten tabellen, maar ze zijn ingebed in complexe documenten. 10-K- en 10-Q-rapporten bevatten financiële overzichten als HTML-tabellen.

Tip: De tabellen zijn er, maar omgeven door juridische tekst. Identificeer de specifieke tabel die je nodig hebt voordat je extraheert.

MarketWatch, Investing.com, Reuters

Nieuwsgericht maar met datatableellen voor koersen, kwartaalcijfers en economische kalenders.

Extractiestrategieën

Strategie 1: Directe Export

De eenvoudigste aanpak — als je de data slechts één keer nodig hebt.

Tools zoals HTML Table Exporter detecteren tabellen op de pagina en exporteren direct naar CSV of Excel. Geen code nodig.

Specifiek voor financiële data:

Gebruik schoonmaakpresets die getalnotaties normaliseren
Exporteer naar CSV als je verder verwerkt; Excel als het de einddestinatie is
Controleer of dynamische content is geladen voordat je exporteert

Strategie 2: Python + Pandas

Voor herhaalde extractie of integratie in pipelines.

import pandas as pd

# Basisextractie
tables = pd.read_html('https://example.com/stock-data')
df = tables[0]  # Eerste tabel op de pagina

# Met headerspecificatie
df = pd.read_html(url, header=0)[0]

# Encoding afhandelen
df = pd.read_html(url, encoding='utf-8')[0]

Beperkingen: read_html voert geen JavaScript uit. Dynamische tabellen worden niet geladen.

Strategie 3: Selenium voor Dynamische Content

Wanneer tabellen via JavaScript laden:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd

driver = webdriver.Chrome()
driver.get('https://example.com/stock-data')

# Wacht tot de tabel is geladen
WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.TAG_NAME, "table"))
)

# Extraheren
html = driver.page_source
tables = pd.read_html(html)

Afweging: Meer opzet nodig, maar verwerkt JavaScript-gerenderde content.

Financiële Data Opschonen

Ruwe exports hebben meestal opschoonwerk nodig.

Valutasymbolen Verwijderen

df['Price'] = df['Price'].replace('[\$,]', '', regex=True).astype(float)

Percentages Afhandelen

df['Change'] = df['Change'].str.rstrip('%').astype(float) / 100

Getalnotaties Normaliseren

Voor Europees formaat (1.234,56 → 1234.56):

df['Value'] = df['Value'].str.replace('.', '', regex=False)
df['Value'] = df['Value'].str.replace(',', '.', regex=False).astype(float)

Datums Parsen

Financiële sites gebruiken inconsistente datumformaten.

df['Date'] = pd.to_datetime(df['Date'], format='mixed')

Praktijkvoorbeeld: ETF-posities

Stel dat je de posities van een fonds wilt analyseren.

De handmatige manier:

Bezoek de fondspagina
Zoek de positietabel
Kopieer en plak in Excel
Besteed 20 minuten aan het herstellen van opmaak

De efficiënte manier:

Navigeer naar de positietabel
Exporteer direct naar Excel met getalnormalisatie
Klaar

Het verschil stapelt op. Als je maandelijks meerdere fondsen volgt, bespaar je met automatisering uren.

Randgevallen om op te Letten

Tabellen Verdeeld over Tabs

Sommige sites tonen verschillende data (Posities, Prestaties, Risico) in tabs die verschillende tabellen laden. Elke tab is een aparte extractie.

Voetnoten en Annotaties

Financiële tabellen houden van sterretjes en kruisjes. 1.234* kan "geschat" betekenen, maar breekt numerieke parsing.

Oplossing: Strip niet-numerieke achtervoegsels vóór conversie.

Herhaalde Koprijen

Lange tabellen herhalen soms headers halverwege voor leesbaarheid. Je extractie kan dubbele koprijen als data bevatten.

Oplossing: Filter rijen waar alle waarden overeenkomen met de header.

Wanneer Automatiseren vs. Wanneer Handmatig Exporteren

Handmatige export werkt bij:

Eenmalige analyse
Onregelmatig schema
Steeds verschillende tabellen

Automatisering werkt bij:

Dagelijkse/wekelijkse terugkerende pulls
Dezelfde tabellen, dezelfde structuur
Integratie in grotere pipelines

Voor de meeste analisten die incidenteel onderzoek doen, is handmatige export met een goede tool sneller dan scripts bouwen en onderhouden.

Samenvatting

Financiële tabellen zijn waardevol maar rommelig. De belangrijkste uitdagingen zijn getalnotaties, dynamisch laden en inconsistente structuur.

Voor snelle extracties verwerken browsertools de meeste gevallen. Voor pipelines doet Python met de juiste wachttijden en opschoning de rest.

Het doel is niet perfecte automatisering — het is schone data met minimale wrijving.

Wil je financiële tabellen snel exporteren? Meer info op gauchogrid.com/nl/html-table-exporter of probeer HTML Table Exporter gratis in de Chrome Web Store.

DEV Community