Wet van Benford
De wet van Benford beschrijft de frequentieverdeling van het begincijfer van getallen in grote dataverzamelingen waarin een beperkte mate van stochasticiteit optreedt. De wet van Benford werd in 1881 ontdekt door de Amerikaanse wiskundige en astronoom Simon Newcomb, maar kreeg grote bekendheid door de herontdekking en publicaties in 1938 van Frank Benford, een fysicus die zijn hele leven bij het Amerikaanse bedrijf General Electric heeft gewerkt.[1]
De wet voor het eerste cijfer van getallen
[bewerken | brontekst bewerken]In 1938 publiceerde Benford een artikel in een wetenschappelijk tijdschrift,[2] waarin hij het verschijnsel beschrijft dat in veel verzamelingen van getallen uit het normale leven (maar niet allemaal) de meeste van die getallen met een 1 beginnen. Minder getallen beginnen met een 2 en de minste met een 9. Dit wijst erop dat de kans om begincijfer te zijn niet voor alle cijfers van 1 tot en met 9 hetzelfde is. Benford toonde aan dat de kans dat in een reeks getallen een getal met een 1 begint, ongeveer 30% is. De kans dat een getal met een 9 begint, is daarentegen slechts 5%. Deze wetmatigheid is de wet van Benford gaan heten. Wiskundig wordt deze wet uitgedrukt met de volgende kansfunctie die de kansverdeling geeft van eerste cijfer van een getal. De kans dat gelijk is aan , wordt gegeven door:
- voor
Deze kansfunctie staat in de volgende tabel.
begincijfer 1 2 3 4 5 6 7 8 9 kans (%) 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6
Benford onderzocht enorme hoeveelheden numerieke gegevens, zoals de lengtes van rivieren, de oppervlakten van meren en landerijen, hoogtes van bergen, numerieke fenomenen uit de natuurkunde en scheikunde, wiskundige tafels, getallen uit kranten en tijdschriften, enzovoorts. Daardoor vond hij steeds meer empirisch bewijs voor de juistheid van zijn formule. Een verklaring voor de juistheid van zijn formule kon hij echter niet geven.
Velen hebben later de moeite genomen om grote datasets te onderzoeken op de geldigheid van de wet van Benford. Tegenwoordig vindt dat onderzoek plaats met computers.
Een interessante bron voor onderzoek naar de wet van Benford vormt Plouffes inverter, een database van meer dan 215 miljoen mathematische constanten.
De wet van Benford komt in de praktijk ongeveer overeen met een uniforme verdeling van de mantisses van de getallen (in de zin van logaritme met grondtal 10, verminderd met de naar beneden op een geheel getal afgeronde waarde daarvan; voor een getal is dit het gedeelte achter de komma van die logaritme).
De schaalinvariantiehypothese
[bewerken | brontekst bewerken]Als verschijnsel is de wet van Benford eenvoudig waar te nemen; het blijkt echter verre van eenvoudig een goede (wiskundige) verklaring te geven waarom die wet zou moeten gelden.
In 1961 suggereerde de wiskundige Pinkham dat schaalinvariantie mogelijk een onderliggende verklaring van de wet van Benford is, maar hoe de wet van Benford uit die invariantie moest worden afgeleid was nog een raadsel. Schaalinvariantie betekent: als de begincijfers van de getallen die de waarde van fysische grootheden voorstellen, voldoen aan een universeel geldende kansverdeling, zoals die van de wet van Benford, dan moet die verdeling onafhankelijk zijn van de gekozen eenheden waarin die waarden worden uitgedrukt. Of die waarden worden uitgedrukt in bijvoorbeeld SI-eenheden of in Engels-Amerikaanse eenheden, de verdeling van de begincijfers moet identiek zijn.
In 1976 publiceerde Ralph A. Raimi het resultaat van een diepgaand onderzoek naar de wet van Benford, waarin hij alle tot dan toe bekende verklaringen analyseert.[3] Geen enkele bleek een definitieve verklaring voor de logaritmische verdeling van het begincijfer van getallen.
De Amerikaanse wiskundige Theodore P. Hill publiceerde in 1995 een baanbrekende studie over de wet van Benford die voor een doorbraak in het onderzoek zorgde.[4] Hill gebruikte in zijn studie moderne fundamentele waarschijnlijkheidsrekening als basis voor de verklaring van de wet. Hill bewees daarmee dat de wet van Benford noodzakelijkerwijs optreedt als schaalinvariantie geldt voor een grote dataverzameling.
Dat wil zeggen dat schaalinvariantie - zoals die voorkomt in grote verzamelingen van natuurlijke gegevens - een voldoende voorwaarde voor de wet van Benford is. Maar schaalinvariantie blijkt geen noodzakelijke voorwaarde te zijn: er zijn verzamelingen te construeren waarin de wet van Benford geldt en waarin toch geen schaalinvariantie optreedt. Zulke verzamelingen construeert men bijvoorbeeld door getallengroepen uit verschillende, onafhankelijke bronnen samen te voegen. Maar ook de bovenstaande illustratie van de wet van Benford, waarin een verzameling van producten van aselect gekozen getallen wordt geconstrueerd, laat zien dat er naar een diepgaandere verklaring dan schaal-invariantie moet worden gezocht.
In 1998 publiceerde Theodore Hill een vervolgstudie over de wet van Benford[5]. Hierin onderzoekt hij het gedrag van mantisses in producten van uit stochastische variabelen gekozen getallen door toepassing van bepaalde types centrale limietstellingen. De wet van Benford blijkt steeds beter benaderd te worden naarmate het aantal stochastische variabelen toeneemt.
De studie van Hill uit 1998 wordt algemeen beschouwd als de meest bevredigende verklaring van de wet van Benford.
Afleiding van de wet van Benford
[bewerken | brontekst bewerken]Kansdichtheid
[bewerken | brontekst bewerken]Dat schaalinvariantie leidt tot de wet van Benford is als volgt in te zien. We beperken ons in eerste instantie tot het halfopen interval [1,10). Ieder (positief) reëel getal is immers in wetenschappelijke notatie te schrijven als een mantisse in dit interval, vermenigvuldigd met een macht van 10 (mantisse wordt hier dus in de andere betekenis gebruikt dan boven). Voor negatieve getallen geldt de volgende redenering ook, na toevoeging van een minteken.
We gaan op zoek naar een continue kansdichtheid gedefinieerd op het interval [1,10). Het interval [1,10) wordt door een vermenigvuldiging met de positieve constante getransformeerd naar een interval We noemen de getallen in dit interval en de kansdichtheid op dit interval Omdat we schaalinvariantie veronderstellen moet gelden:
- .
Hierin is een functie van de factor Uit de schaalinvariantie volgt dat de kansdichtheid hetzelfde functievoorschrift moet hebben als de kansdichtheid
De oppervlakte onder beide kansdichtheden moet gelijk zijn aan 1, dus:
Hieruit volgt:
en daarmee:
Differentiëren naar levert:
Voor geeft dat de volgende differentiaalvergelijking voor :
De oplossingen van deze vergelijking zijn:
De logaritmische verdeling
[bewerken | brontekst bewerken]De kansdichtheid f(x) heeft het halfopen interval [1,10) als domein, dus:
- ,
zodat
- .
De kans dat een getal tussen twee getallen en in dit interval ligt is:
Alle getallen met begincijfer liggen in het halfopen interval zodat we uiteindelijk voor de kans dat een getal het begincijfer heeft, vinden:
Algemene wet
[bewerken | brontekst bewerken]De wet van Benford wordt meestal besproken aan de hand van begincijfers, maar geldt ook voor tweede, derde en volgende cijfers van getallen. Die algemene wet wordt de General Significant Digit Law[6] genoemd. Daarmee kunnen we bijvoorbeeld de kans berekenen dat een getal (dat met ten minste drie cijfers wordt geschreven) met de cijfers 2, 7 en 1 begint:
- .
Radix-invariantie
[bewerken | brontekst bewerken]In 1995 bewees Hill dat schaal-invariantie radix-invariantie impliceert. Daarmee wordt bedoeld dat de wet van Benford ook blijft gelden als het grondtal van het toegepaste talstelsel wordt gewijzigd. Zo is de kans dat een binair getal begint met de cijfers 1001 gelijk aan:
- .
Merk op, dat alleen het grondtal van de logaritme hoeft te worden gewijzigd; in de breuk in de logaritme kunnen we het decimale equivalent (in het voorbeeld 9) van de binaire uitdrukking (in het voorbeeld 1001) blijven gebruiken.
Radix-invariantie verklaart ook de hierboven genoemde algemene wet voor het eerste cijfer. De wet van Benford geldt immers ook voor het talstelsel met het (in de praktijk natuurlijk onhandig grote) grondtal 1000. In dat talstelsel is bijvoorbeeld 271, of een ander daarvoor gekozen symbool, niet meer dan een van de cijfers, waarvoor de bijbehorende kans volgens de logaritmische verdeling kan worden berekend.
De kans op volgende cijfers
[bewerken | brontekst bewerken]Door herhaalde toepassing van de formule van de wet van Benford kan men de kans uitrekenen dat bijvoorbeeld 5 als derde cijfer in een getal van ten minste drie cijfers voorkomt. Hiertoe is het handig de cijfers van het getal van rechts naar links te nummeren, te beginnen bij 0:
Voorbeelden waar de wet geldig is
[bewerken | brontekst bewerken]- Getallen in facturen
- Getallen in belastingsbrieven
- Aantal inwoners
- Lengte van rivieren
- Fysische en mathematische constanten (zie Plouffes inverter)
De wet geldt niet bij een kunstmatige bovengrens, bijvoorbeeld aantal inwoners van kleine plaatsen, gedefinieerd als plaatsen met minder dan 50.000 inwoners.
Toepassing: forensische analyse
[bewerken | brontekst bewerken]In 1972 bedacht Hal Varian dat de wet van Benford gebruikt kan worden om mogelijke fraude op te sporen in lijsten met socio-economische gegevens ter ondersteuning van overheidsbeslissingen. Hij baseerde zich op de veronderstelling dat mensen die zelf getallen uitvinden geneigd zijn de cijfers uniform te verdelen. Door de frequentieverdeling van de eerste en volgende cijfers van de getallen te vergelijken met de verwachte verdelingen volgens de wet van Benford zouden anomalieën snel en geautomatiseerd opgemerkt kunnen worden.[7]
Verdergaand op dit idee toonde Mark Nigrini aan dat afwijkingen van de wet van Benford ook gebruikt kunnen worden als indicator van vervalsing van een boekhouding of uitgavenfraude.[8]
De wet van Benford werd gebruikt als bewijsmateriaal voor fraude in de Iraanse verkiezingen van 2009.[9] Sommige deskundigen verwerpen de toepassing van de wet van Benford echter in het geval van verkiezingsfraude.[10]
Oneindige verzamelingen gehele getallen
[bewerken | brontekst bewerken]Bij een oneindige verzameling V van positieve gehele getallen is de relatieve frequentie van de getallen beginnend met een bepaald cijfer nul of onbepaald. Dit kan men proberen op te lossen door de limiet voor naar oneindig te nemen van de relatieve frequentie van de getallen beginnend met een bepaald cijfer binnen de deelverzameling van V van getallen . Echter, de relatieve frequentie van de getallen beginnend met bijvoorbeeld een 1 is als twee maal een macht van 10, min 1, is, vaak groter dan wanneer de eerstvolgende macht van 10, min 1, is (het aantal getallen beginnend met een 1 is gelijk), en er is vaak geen convergentie.
Een eenvoudig voorbeeld is de verzameling van alle positieve gehele getallen. De relatieve frequentie van de getallen beginnend met een 1 daalt van 1 naar 1/9, stijgt dan naar 11/19, daalt dan naar 11/99 (=1/9), stijgt dan naar 111/199, daalt dan naar 111/999 (=1/9), enzovoort, en oscilleert dus tussen 1/9 en ruim 5/9.
Een "oplossing" is om bij het nemen van de limiet voor alleen machten van 10 te nemen (ronde getallen, dit lijkt redelijk), maar dit geeft een bias (systematische "fout") in de zin van een "benadeling" van een laag cijfer, in het bijzonder 1, als eerste cijfer: net als er weer veel getallen beginnend met een 1 zijn wordt de telling gestopt na het eerste daarvan. Het resultaat is de rij relatieve frequenties 2/10, 12/100, 112/1000, 1112/10000, convergerend naar 1/9 (iets boven de ondergrens bij de bovengenoemde oscillatie). Elk cijfer als eerste cijfer geeft dezelfde limiet. Dezelfde limieten gelden als voor alleen machten van 10, min 1, te nemen (getallen tot en met die met een bepaald aantal cijfers), alle relatieve frequenties zijn dan 1/9. In deze gevallen geldt de wet van Benford dus niet.
Een andere oplossing is toepassing van een soort "gewogen frequentie", waarbij het gewicht kleiner is naarmate het getal groter is. Deze kan zo gekozen worden dat de verzameling van alle positieve gehele getallen, en bijvoorbeeld ook de verzameling priemgetallen, aan de zo gemodificeerde wet van Benford voldoet.[11]
- ↑ Achtergrondinformatie bij de Wet van Benford
- ↑ F. Benford. 1938. The law of anomalous numbers, Proceedings of the American Philosphical Society 78, p. 551-572
- ↑ Raimi, R.A., "The first Digit Problem", American Mathematics Monthly, aug./sept. 1976, p. 521-537
- ↑ Hill, T.P., "The Significant-Digit Phenomenon", American Mathematical Monthly, april 1995, p. 322-327
- ↑ Hill, T.P, "The first Digit Phenomenon", American Scientist, no. 86, 1998, p. 358-363
- ↑ Salm, S.A.M. van der, "Benford's Logarithmic Distribution of Digits", Journal of the Oughtred Society, Vol. 16, No. 2, 2007, p. 26-31
- ↑ Varian, Hal. Benford's law. The American Statistician 26: 65.
- ↑ Mark J. Nigrini (mei 1999). I've Got Your Number. Journal of Accountancy.
- ↑ Stephen Battersby Statistics hint at fraud in Iranian election, New Scientist 24 juni 2009
- ↑ Joseph Deckert, Mikhail Myagkov and Peter C. Ordeshook, (2010) The Irrelevance of Benford’s Law for Detecting Fraud in Elections, Caltech/MIT Voting Technology Project Working Paper No. 9
- ↑ https://primes.utm.edu/notes/faq/BenfordsLaw.html