Methodik (Methods)

Deutsche Version (English version below)

Wir benutzen grundlegende Ideen aus der Bayesschen Statistik und frei verfügbare Umfragedaten.

Für unsere Berechnungen sind folgende Punkte von zentraler Bedeutung:

  1. Wir nehmen an, dass die Aufteilung der Mandate exakt der Aufteilung der Stimmen entspricht. Das ist u. a. wegen der vorgenommenen Rundungen in den Wahlkreisen und Bundesländern (vgl. Wahlrecht in Deutschland) nur näherungsweise wahr. Wie sich aus folgender Grafik entnehmen lässt, in der wir die Anzahl der Wahlkreise mit einer bestimmten Anzahl Wähler auftragen, unterliegt diese Zahl auch deutlichen Schwankungen.
    Anzahl der Wahlkreise mit bestimmter Einwohnerzahl
  2. Wir gehen davon aus, dass alle Unsicherheiten in den von den Umfrageinstituten veröffentlichen Prognosen durch eine zufällige Stichprobe mit einer effektiven Zahl Interviewter modellierbar ist. Diese effektive Teilnehmerzahl ist kleiner als die Zahl der von den Instituten befragten Personen, weil die Umfragemethoden auch zu systematischen Fehlern führen. Bei den angegebenen Fehlertoleranzen von ±1.4 Prozentpunkten bei einem Ergebnis von 5% und ±-3.1 Prozentpunkte bei 50%  an (siehe z.B. ARD Deutschlandtrend April 2013 [pdf]) ergibt sich für uns eine effektive Stichprobengröße von 1000 Befragten. Dieser Wert wird bei allen unseren Rechnungen verwandt.
  3. Wir mitteln über die jeweils letzte veröffentliche Prognose sechs großer Umfrageinstitute (Allensbach, Infratest dimap, FG Wahlen, FORSA, Emnid und GMS), deren Umfrageergebnisse auf wahlrecht.de zusammengestellt sind. Dieses Vorgehen hilft nicht nur Fluktuationen zu reduzieren, sondern erhöht auch die Präzision unserer Rechnungen. Die meisten Institute geben nur ganze Prozent an; durch das Mitteln steht uns jedoch eine Genauigkeit auf die erste Nachkommastelle zur Verfügung, was für unseren Algorithmus wichtig ist.
  4. Basierend auf dem Bayesschen Wahrscheinlichkeitsbegriff erfolgt die Berechnung unserer Wahrscheinlichkeiten für die verschiedenen Ereignisse (z.B. Bundestagseinzug einer Partei) durch Integration der A-Posteriori-Wahrscheinlichkeitsverteilung. Letztere setzt sich aus einer Multinomialverteilung (Likelihood) und einer flachen A-Priori-Wahrscheinlichkeitsdichte zusammen.
Uns ist bewusst, dass unsere hier vorgestellte Methodik ein sehr einfaches Modell darstellt. Wir sind interessiert, das in Zukunft zu verbessern und würden uns darum über Anregungen, Kritik oder Literaturhinweise sowohl in den Kommentaren unten als auch per Email sehr freuen.

English version

We use basic ideas from Bayesian statistics to compute the probability of possible outcomes (e.g. what is the probability that FDP passes the 5% threshold?) from the available data on polls.

For our calculations the following points are of central importance:
  1. The division of the parliament corresponds exactly to the division of the second votes in the country as a whole. This is only an approximation because of the many discretisations and round-offs to next integers present in the (new) German election law amongst other things. For instance, the plot below shows that the number of voters in each electoral district (i.e., one deputy) fluctuates.
    Number of districts with a given number of inhabitants
  2.  We assume in our calculations that all uncertainties in the polls of the institutes can be accounted for by a random sampling model with an effective number of interviewed people. This effective number is smaller than the actual number of participants of the poll because of biases in the methods employed by the institutes. The reported errors of ±1.4 percentage points for a result of 5% and ±3.1 percentage points for a result of 50% (see ARD Deutschlandtrend April 2013 [pdf, German]) yield an effective sample size of 1000 interviewed persons. This value is used throughout all our calculations.
  3. We average over the six previously published polls, one for each of the six major polling institutes (Allensbach, Infratest dimap, FG Wahlen, FORSA, Emnid und GMS), as reported on wahlrecht.de. In this way we reduce fluctuations and increase the precision of our calculations. Most institutes only report integer percentages and by averaging we obtain numbers with one decimal place, an important issue in our calculations.
  4. Based on Bayesian statistics we compute the probability of certain events (e.g. passing the 5% threshold) by integrating the posterior probability distribution. The latter consists of a multinomial (the likelihood) and a flat prior.
We are planning to improve our model in the future and we appreciate suggestions, criticism or literature recommendations. You can use the comments section below, or send us an email.

Bibliographie (Bibliography)

[1] Lyons, L.: Bayes and Frequentism: a particle physicist’s perspective, Contemp. Phys. (2013)

[2] Lynch, S. M.: Introduction to Bayesian Statistics and Estimation for Social Scientists (2007)

[3] Wahlen, Wahlrecht und Wahlsysteme (English Version here)

No comments:

Post a Comment