Den amerikanske
naturvetenskapsmannen och filosofen Charles Sanders Pierce, död 1914,
funderade, långt före dataåldern, på vad som krävs för att beskriva
kommunikation, för att beskriva språkets
funktion, det matematiska eller vardagliga. Språk förutsätter tecken. Du har
inte en elefant inne i huvudet när du tänker på en elefant. Du har ett tecken.
Men det Pierce kallar ett tecken är en triad som består av ett objekt,
ett primärt tecken och en uttolkare. "Alla som tänker förnuftigt", säger Pierce,
"måste ha en eller annan generell föreställning om vad det vill säga att tänka
förnuftigt, och detta är en teori om logik."
Vilka logiska lagar gäller då vid användandet
av rationella argument och bedömning av vad erfarenheten säger oss, antingen erfarenheten
består av vetenskapliga experiment eller naturen talar till oss i
mer vardagliga sammanhang? Hur språkar vi bäst med naturen? Finns det en
idealmodell för sunt förnuft?
Den amerikanske biltillverkaren Henry Ford sa
en gång, att en bra idé är en idé man kan göra en maskin av. Idén om sunt
förnuft är en av de svåraste idéerna
att automatisera, att göra en programmerbar modell (en maskin) av. I själva verket
blir vi ständigt påminda om det kloka i att använda alla former av
automatiserat beslutstöd med sunt förnuft och inte med blind tilltro, annars
kan det gå riktigt galet. Detta är i själva verket ett av de bästa exemplen på
just sunt förnuft.
Men vad jag tjatar om sunt förnuft! Är inte en rationell varelse en som följer logikens
lagar, även om de skulle råka strida mot just sunt förnuft? Den deduktiva
logiken är förvisso en del i rationalitetsbegreppet, men bara som ett gränsfall. Det följande är ett försök att visa att den behöver utvidgas med
någon form av sunt förnuft.
Den deduktiva logiken härrör i sin helhet
ytterst från två slutledningsregler:
1. Om det är så att när A är
sant så är B sant, så kan man av att A är sant sluta sig till att B är sant.
2. Om det är så att när A är
sant så är B sant, så kan man av att B är osant sluta sig till att A är osant.
Sedan länge finns en fungerande programmerbar
modell, Booleansk algebra, som täcker in hela fältet av kombinationer och upprepningar av dessa
regler i en formell syntax. Lägg märke till att i en maskin som fungerar enligt denna
syntax så orsakar "icke-B" "icke-A" (enligt sats 2), men
detta är inget förhållande som en maskin som uppvisar sunt förnuft skulle tillskriva naturliga
förhållanden i sin omgivning.
Om A i maskinens omgivning är den fysiska orsaken till B,
så är det naturligtvis inte därmed troligt att frånvaron av B skulle orsaka
frånvaron av A!
En autonom robot som har att klara sig på egen
hand i verkligheten behöver alltså ha betydligt
fler verktyg än deduktiv logik till hands. Till att börja med behöver den en modell för sunt förnuft bara för att klara de flesta
förekommande situationer där man behöver dra troliga slutsatser av i deduktiv mening otillräcklig information.
Vi behöver en fungerande programmerbar modell för åtminstone tre former av
slutledningar som vi dagligen gör med sunda förnuftet:
1. Om det är så att när A är
sant så är B sant, så kan man av att B är sant sluta sig till att A är mer
sannolikt.
2. Om det är så att när A är
sant så är B sant, så kan man av att A är osant sluta sig till att B är mindre
sannolikt.
3. Om det är så att när A är
sant så är B mer sannolikt, så kan man av att B är
sant sluta sig till att A är mer sannolikt.
Som framgår av formuleringarna har vi
förflyttat oss från den deduktiva logiken till någon form av sannolikhetslära.
Vilka grundanspråk bör man ställa på en
modell för ett idealiserat sunt
förnuft?
Man kan som bekant inte jämföra äpplen med
päron, såvida man inte jämför dem efter en gemensam skala, t ex deras vikt. Ju mer vi lär oss hur
saker och ting hänger ihop, ju fler saker kan vi faktiskt jämföra efter en gemensam
skala. Som en första idealisering av det sunda förnuftet antas att allt kan bedömas
efter sin rimlighetsgrad och därmed jämföras med avseende på rimlighet.
De associativa och kommutativa reglerna i Booleansk
algebra leder emellertid till att om vi
vill kunna göra jämförelser av typen "hur rimligt är A givet C" i
förhållande till "B givet C" så måste vi kunna åsätta förhållandet
ett numeriskt värde, ett sannolikhetsvärde, annars blir sådana jämförelser i
förlängningen motsägande. Vi vill också kunna ange rimlighetsgraden på en
kontinuerlig skala så att bara en anings högre grad av rimlighet hos ett
påstående inte ger mer än en anings större sannolikhet för att påståendet skulle vara
sant. Det finns också en fundamental princip som ligger bakom varje korrekt
slutledning: Man bör kalkylera sannolikheten för att något är sant med
beaktande av all förhandenvarande erfarenhet!
Vi måste kunna lita på vårt idealiserade
sunda förnuft. Därför har vi också två grundanspråk på dess
"användargränssnitt".
1. En idealiserad modell måste ta med alla tidigare
erfarenheter som är relevanta för ett nytt problem, och inte av ideologiska
eller andra skäl bortse från viss erfarenhet.
2. Samma kunskap måste i alla situationer
tillmätas samma sannolikhet, d v s en rationellt handlande enhet måste i sina relationer till
omvärlden bete sig konsekvent.
Dessa regler tillsammans med konventionen att
sannolikheten (p) för att A är sant om B är sant skrivs p(A|B) är allt
som krävs för att logiskt härleda Bayes teorem.
Om vi har en hypotes och har samlat in data (D) för att undersöka
hypotesens giltighet så behöver vi inte bara bedöma sannolikheten ( p) för
dessa data givet hypotesen (H) och annan förhandenvarande initial
erfarenhet (I) - p(D|HI) - utan också bedöma
sannolikheten för dessa data enbart givet denna andra
förhandenvarande initiala erfarenhet - p(D|I)
- samt bedöma sannolikheten också för hypotesen enbart givet den
initiala erfarenheten - p(H|I).
Kvoten av de två första leden i beräkningarna
- p(D|HI)
och p(D|I) - kallas hypotesens
"rimlighet" (likelihood). I Bayes teorem fås sannolikheten för att en hypotes är sann givet data och annan förhandenvarande
initial erfarenhet (något som kallas dess "posterior", som betyder ungefär det som kommer efter, i logisk
mening inte nödvändigtvis temporärt eller kausalt!)
genom att multiplicera "rimligheten" med sannolikheten för att
hypotesen är sann enbart med avseende på den initiala erfarenheten enligt det
tredje ledet i beräkningarna ovan - p(H|I) - (denna sannolikhet kallas "prior", som betyder ungefär det som kommer före, igen i
logisk mening inte nödvändigtvis temporärt eller kausalt! ). Sannolikheten
för hypotesens giltighet givet data
och initial erfarenhet - p(H|DI) - ges därför på följande sätt av Bayes teorem:
.gif)
Detta teorem kan utläsas som att den
beräknade sannolikheten (posterior) är lika med den initiala sannolikheten (prior) multiplicerad med rimligheten.
Hur man delar upp all förhandenvarande
erfarenhet mellan data och annan erfarenhet är egentligen oviktigt eftersom beräkningarna
ändå, enligt våra grundanspråk på rationalitet, skall leda till samma resultat.
Det blir mest en fråga om att hitta en uppdelning
där vi kan utföra beräkningarna. Att göra rationella slutledningar blir därmed
en kreativ aktivitet i utgångsläget. Det är t ex viktigt att hitta en hypotes ( ur mängden av alla tänkbara )
som är rimlig och kan testas och beräknas!
Den deduktiva logikens två slutledningsregler kan i vårt vidgade perspektiv skivas om på följande vis:
1. Sannolikheten för att B
är sant givet A gränsar till 1 givet summan av alla våra erfarenheter C.
2. Sannolikheten för att A
är sant givet icke-B gränsar till 0 givet summan av alla våra erfarenheter C.
Hela den deduktiva logiken reduceras till
dessa gränsfall, där något antingen är helt
rimligt eller fullständigt orimligt, medan Bayes teorem är det mest kraftfulla
verktyget för alla slutledningar i den meningen att det uttömmande säger vilka
sannolikheter man bör räkna med givet viss information.
Bayes teorem garanterar bland annat att alla
rationella sätt att nå en slutledning på ger samma resultat (vilket inte
hindrar rationella konflikter beroende på olika utgångspunkter!)
Sannolikhetsläran och de därpå grundade
statistiska slutledningsmetoderna är en utbyggnad på deduktiv logik och omfattar denna som ett
gränsfall. Statistiska resonemang som anlägger detta synsätt
kallas ibland Bayesiansk analys.
Att göra Bayesiansk analys är att vara rationell.
Inom evolutionen, såväl den biologiska som den kunskapsmässiga fungerar Bayes teorem som en slags gravitationslag, en regel som i det långa loppet är den utslagsgivande. För de som
likt Casti
inte erkänner evolutionens vetenskapliga status, därför att de inte hittat en
matematisk modell motsvarande de matematiska modeller som används inom den övriga
naturvetenskapen, är det nu dags att kasta
in handduken. Hur Bayes teorem, matematiska modeller och abstrakta idéer i allmänhet knyter ihop
idéutveckling med biologisk utveckling återkommer jag till i nästa kapitel.
Statistik handlar oftast om vilka utfall
man kan förvänta sig. Den berömda normalfördelningen, formad som en kyrkklocka,
visar hur man förväntar sig att t ex längden av alla nyinryckta värnpliktiga
fördelar sig när man mäter dem. Sådana sannolikhetsfördelningar förmedlar information, blir en kunskap i sig och är viktiga att hitta. Men för naturvetenskapsmän är det
oftast inte att se om data passar med den förväntade fördelningen som är det mest pressande
slutledningsproblemet, utan att se om hittade data stöder en viss hypotes, och i så fall med vilken sannolikhet. Sannolikhet blir då en fråga om graden av tilltro till en tes, eller
om man så vill, styrkan i kunskapen.
Det blir då också uppenbart att alla
sannolikhetsberäkningar är beroende av ingående kunskapsförhållanden (medvetna
eller omedvetna förutsättningar). Normalfördelningen är ofta användbar när man inte
vet vad man kan förvänta sig av data. Man kan jämföra resultatet med den som grundförutsättning. Många
sådana sannolikhetsfördelningar finns och flera kommer till
hela tiden. Det viktiga är att dessa matematiska modeller nu kan ackumuleras
och byggas upp till en vetenskaplig kunskapsteori.
Om man gör Bayesiansk analys "baklänges" kan den också
användas för att mäta styrkan i våra uppfattningar i olika frågor. Vilka
alternativa uppfattningar kan vi tänka oss om vår favoritkäpphäst inte slår in?
Jag har i mångt och mycket skrivit den här boken för att reda ut hur mycket
tilltro jag ställer till naturvetenskaparnas nyvunna optimism att snart ha
svaren på de yttersta frågorna.
Bayesiansk slutledningsteori brukar ibland beskyllas för att
vara subjektiv därför att bland all förhandenvarande erfarenhet som måste beaktas finns
naturligtvis den subjektiva uppfattningen av situationen. Detta är emellertid
styrkan hos Bayesiansk slutledningsteori, vilket i praktiken förvandlar den till en kunskapsteori. Och eftersom Bayesiansk
slutledningsteori är en matematisk teori förvandlar den den hopplösa
filosofiska grenen kunskapsteori till en vetenskapsgren med potentiellt omvälvande
implikationer.
Vilken objektiv betydelse den
subjektiva uppfattningen av situationen har för olika utfalls sannolikhet belyses kristallkart med
följande exempel. Data talar aldrig för sig själva!
För några år sedan diskuterades problemet med
bilen och getterna livligt i en del tidskrifter.
Vid en TV-tävling fick den tävlande chansen
att vinna en bil om han/hon kunde välja rätt dörr bland tre. Bakom en dörr
fanns en bil och bakom de två övriga stod en get. Oavsett vilken dörr den
tävlande pekade på så valde tävlingsledaren att öppna en av de två andra - och
där stod en get! Han erbjöd därefter den tävlande att hålla fast vid sitt
ursprungliga val eller byta dörr och peka på den andra av de två ännu ej
öppnade dörrarna.
Problemet är: Kan den tävlande öka sin chans
att vinna bilen genom att byta dörr?
Svaret är: Det beror på hur den tävlande
subjektivt uppfattar situationen!
Om den tävlande uppfattar programledarens
strategi så att han alltid öppnar en "getdörr" för att kunna öka spänningen i
tävlingen genom att ge den tävlande erbjudandet att byta dörr så ökar han/hon
sin chans till bilen genom att byta.
Om den tävlande tror att programledaren är en
elak typ som bara erbjuder den tävlande att byta dörr om han/hon valt
vinstdörren så förlorar naturligtvis han/hon sin chans till bilen genom att
byta.
Om den tävlande tror att programledaren är en
snäll typ som bara erbjuder den tävlande att byta dörr om han/hon valt en
getdörr så vinner han/hon naturligtvis bilen genom att byta.
Om den tävlande tror att programledaren är
berusad och slumpmässigt öppnar en av de kvarvarande dörrarna oavsett om där
finns en bil eller get bakom, och det därför bara råkade vara en get bakom den
öppnade dörren, så spelar det ingen roll om han/hon byter dörr eftersom chansen
att det står en bil bakom den slutligt valda dörren förblir densamma.
När man resonerar rationellt måste man ta med
i beräkningen all information man har om situationen
(inklusive den egna förmågan att intuitivt bedöma andras personligheter) och
liknande situationer i det förgångna. Ackumulationen av information genom
erfarenhet ger, i bästa fall, den mogna människan den mentala stabiliteten
att motstå diverse fantasier.
Samtidigt måste man hålla i minnet att alla
erfarna samband inte är orsakssamband och att sådana samband aldrig kan ersätta
förnuftigt resonerande. På vad sätt en explosionsmotor kan sluta att fungera vet
oftast den som konstruerat den mycket bättre än vad en mängd tester och
statistiska beräkningar kan leda till. Den kunskapen skall alltså tas med,
liksom kunskap om naturlagar och annat. Slumpmässiga tester
är egentligen bäst lämpade för att upptäcka helt oväntade saker.
Induktionsproblemet: Vid opinionsundersökningar drar man slutsatser om åsikterna hos människor som
inte tillfrågats i en viss undersökning utifrån svaren från de som tillfrågats.
På vad sätt skiljer sig det från att dra slutsatsen att 10 sexor i rad, i en
experimentserie där utfallen kan variera mellan 1 till 6, ökar sannolikheten
att nästa utfall är just 6?
Det beror på bakomliggande information. Om vi får reda på att det senare handlar om tärningskast och om vi
får kontrollera tärningen - och tror att kastaren är ärlig - så drar vi
slutsatsen att sannolikheten för 6 i nästa kast är 1 på 6. Om vi inte får
kontrollera tärningen kan vi dra den induktiva slutsatsen att något förmodligen
systematiskt influerar tärningskastet på samma sätt varje gång och att
sannolikheten för 6 i nästa utfall är större än 1 på 6. Om vi får reda på att
tärningen består av sex sidor med samma nummer, men inte vilket, är
naturligtvis sannolikheten för 6 i nästa kast lika med 1. Om det finns en
mekanism som ser till att efter 90 kast
så är antalet möjliga utfall exakt 15 av varje, så får vi använda oss av en
annan regel för att beräkna sannolikheten för 6 i nästa utfall.
Det finns alltså inte någon generell regel
för att göra induktiva slutledningar, utan man får använda olika medel beroende
på vilken bakomliggande information man har tillgång till. Men
detta är naturligtvis inte detsamma som att induktion är omöjlig, som filosoferna
Hume och Popper hävdat.
Induktiva resonemang visar vilka
förutsägelser vi kan göra utifrån den information vi väljer att använda vid våra
beräkningar. Det kan ofta vara bra att göra beräkningar utifrån hypoteser vi
inte tror på, eller till och med är säkra på är fel, för att se vilka
förutsägelser de leder till. När man sätter upp ett experiment är det ofta genom att göra
sådana beräkningar man kan bestämma vad man ska leta efter och vad man hoppas
inte skall dyka upp om de förmodat felaktiga alternativa teorierna är riktiga.
Och utan induktiva resonemang skulle vetenskapsmän aldrig veta hur de skulle
kunna testa sina teorier.
Om en teori fortsätter att ge förväntade
experimentella resultat, d v s göra riktiga förutsägelser, blir
vetenskapsmännen mer och mer säkra på att den innehåller mer än ett korn av
sanning, men det är viktigt att inse att lyckade förutsägelser inte leder till
någon ny kunskap, bara att man med större
tilltro kan planera utifrån en kunskap man redan har.
När förutsägelserna visar sig vara fel är de
som mest användbara! Då är den kunskap vi utgår från fel eller
ofullständig och sättet förutsägelsen falsifierades på kan ge ledtrådar till
hur kunskapen bör förändras för att bli bättre. Det är ju ingenting i
verkligheten som har förändrats utan bara
sannolikheterna som representerar vår kunskap.
Att fråga vad sannolikheten är att vissa
resultat ska uppkomma är att fråga om sannolikheten för de förhållanden som
leder till dessa resultat, och har vi kläm på hela den kausala kedjan under
experimentet är det sannolikheten för de olika ingångsförhållandena till
experimentet som vi frågar om. Den som vet om att rotationsmomentet bevaras när
man singlar slant kan ganska lätt öva upp förmågan att få krona eller klave "på
beställning"!
Men
vilka kausala förhållanden leder till ingångsförhållandena? När vi har kläm på
det har vi förflyttat frågan om sannolikheten ytterligare en nivå bort. Detta
kommer med ökande kunskap att fortgå hela tiden. Det verkar aldrig som vi kommer till en av
vår kunskap oberoende sannolikhet! När man formulerar sannolikheten i termer av logik är det just för att undkomma
denna regress, allteftersom de olika
empiriska vetenskaperna utökar sina kunskapsdomäner.
Men om sannolikheter inte är fysiska av oss
oberoende entiteter, hur kan man då använda statistiska metoder för att
utvärdera t ex effektiviteten eller biverkningar av medicinska behandlingar?
Ja, egentligen vore den enda säkra metoden att följa varje kemisk reaktion i
detalj som följer på att inta en viss medicin hos personer i alla tänkbara
hälsostadier. Då skulle vi kunna förutsäga vilken effekt medicinen skulle få
hos varje ny patient som får den ordinerad. Eftersom detta inte är praktiskt
möjligt ger man medicinen till en grupp personer som är tillräckligt stor för
att man ska kunna anta att individerna skiljer sig initialt väldigt mycket i
relevanta hälsoaspekter. Man noterar så frekvensen som blir hjälpta av
medicinen och antar induktivt att om inget oförutsett inträffar håller sig
denna relativa frekvens även vid framtida behandlingar. Men om matvanor eller
andra livsstilsförändringar inträffar är det mycket möjligt att frekvensen som
blir hjälpta går upp eller ner, vilket då blir en indikation på att just
levnadsvanor hos allmänheten har ändrats.
Det finns alltid en fysisk
mekanism som orsak till att ett fenomen uppträder återkommande. En induktiv hypotes som inte förutsatte det vore inte något annat än ren vidskepelse.
Vissa populärvetenskapliga journalister som rapporterar om hur djur
ändamålsenligt anpassar sig till sin omgivning tycks inte ha fattat att ett osubstansiellt ändamål naturligtvis
inte kan åstadkomma fysiska förändringar i djuret. Man har ställt Darwin på
huvudet. Istället uppkommer en mutation i djuret först, som därefter söker upp en miljö där det kan
överleva. Bara de som lyckas med detta finns kvar att rapportera om och det ser
därför ut som om de varit fantastiska på att anpassa sig till "sin" omgivning.
En sjua och en åtta i en kortlek har lika
stor chans att dyka upp i en bridgehand, därför att det bara är de mekaniska krafterna vid blandningen som
bestämmer vilka kort jag får i min hand och inte vad som är tryckt på kortet.
Vid kortblandning är situationen symmetrisk med avseende på vad som är tryckt
på korten, vi kan därför med nästan lika hög säkerhet som vid deduktivt
resonerande tro att åttan och sjuan har samma chans att hamna i en bridgehand.
Symmetrier under situationens
förutsättningar leder till exakta förutsägelser (samma informationsinnehåll skall ge samma sannolikhet) och kan omvänt användas vid experimentella resultat som avviker från
dessa förutsägelser för att hitta systematiska förändringar av den fysiska mekanismen bakom
de förväntade upprepningarna.
Om vi inte vet tillräckligt om en situation
kan vi inte säga att vi kan utesluta okända influenser. T ex om vi inte
studerat slanten kan vi bara antaga att det är fifty-fifty om den kommer upp
krona eller klave vid första singlingen, men efter hand kanske en trend uppkommer som inte stämmer, och
vi måste leta efter okända influenser. Symmetriargument är ett sätt att sätta
initiala sannolikheter. När vi inte har kunskap om några klara symmetrier är
frågan om hur vi sätter initiala sannolikheter öppen från varje speciell
situation till nästa. En total okunnighet skulle innebära att man kan använda
sig av principen om maximal oordning.
Om jag har en förkunskap måste jag försöka ta
med i beräkningen inte bara den, utan också alla möjligheter som inte
begränsas av denna min förkunskap och erkänna full osäkerhet beträffande dessa. Det ger ett
mått på min information om situationen. Den maximala oordningen är den som det absolut
övervägande antalet faktiska möjliga "grupperingar" är godtyckligt nära.
Shannon, grundaren av informationsteorin, kallar informationsmängden "ett mått
på vår osäkerhet". Det är här man ser sambandet mellan statistik, empiriska
mätningar och kommunikationsteori. I alla används samma slutledningsprinciper. Varje gång vi använder
oss av normalfördelningskurvan för att sätta initiala sannolikheter är det bara
en enkel användning av principen om maximal oordning. Principen förhindrar att vi använder initiala
sannolikhetsfördelningar som vår kunskap inte berättigar till.
Det är också därför termodynamikens andra
sats är så generell. Den har inget
med några särskilda fysiska egenskaper hos ingående substanser att
göra, utan är en konsekvens av matematiken i sannolikhetsläran som
utvidgad logik. Sannolikhetsfördelningen
som uttrycker maximal oordning är numeriskt lika med den
frekvensdistribution som kan uppnås på flest antal sätt. Denna kommer naturligtvis att
visa sig i det övervägande antalet experiment (och det är dessa fördelningar
som observeras i naturen).
Graden av osäkerhet är en objektiv funktion av de data som används vid beräkningarna.
Om personer kalkylerar med olika data, leder detta ibland till olika
förutsägelser, såvida inte olikheterna härrör från redundanta data. Om extra data är motsägande kan man inte räkna fram en
sannolikhetsfördelning alls, men om dessa nya data är varken redundanta eller
motsägande får man en ny fördelning som tyder på att de var "användbara", så
att vi får en mindre maximal spridning. Så om alla faktiska begränsningar tas
med stämmer förutsägelserna i det övervägande antalet experiment. Skulle de inte göra det, i en rad experiment, är det en ledtråd som
säger oss att det finns ytterligare begränsande fakta som vi inte tagit med i
beräkningarna. Ofta finns det begränsningar i informationen som gör att man
börjar tala om signaler mot bakgrund av brus. Och vi är ofta intresserade av att hitta just signaler, d v s vilka
begränsande villkor gäller för att åstadkomma ett sådant dataflöde som vi
uppfattar. Det var så kvantmekaniken upptäcktes!
Den tidigare klassiska mekaniken förutspådde konsekvent för hög
entropi (oordning) jämfört med den som faktiskt kunde konstateras i vissa fysiska system. Hur vetenskapsmännen utifrån detta resonerade sig fram till
kvantmekaniken är ett underbart exempel på rationellt resonerande. Vi följer här
Greenes
framställning. Inom fysiken använder man termen entropi bland annat vid mått på
värme. Ju varmare något inneslutet i en behållare är, desto högre entropi sägs
det ha. Hur varmt det är inuti t ex en ugn beror i sin tur på energin hos den
elektromagnetiska strålningen inuti ugnen. När fysikerna utrustade med
ekvationerna från den klassiska mekaniken räknade på energinivån vid olika
ugnstemperaturer, fick de alltid det underliga resultatet att den totala
strålningsenergin var oändlig! Detta berodde på att man ville räkna ut för varje
bestämd ungstemperatur hur mycket energi varje elektromagnetisk våg inom
ugnen måste bidra med. Problemet är bara att antalet vågor med olika
vågfrekvens är oändligt, och alltså blir summan av energin oändlig. Men om man antar att
energin bara kan ha diskreta värden, i likhet med t ex pengar, och att vågorna måste lämna ett exakt
energibidrag till ugnens temperatur, så kommer inte de vågor med större "sedlar"
än vad de skall bidra med att "komma på bussen", och den totala energin som de
"betalande" vågorna bidrar med blir inte längre oändlig. Bara om energi har en
minsta "myntfot" löser man paradoxen. Det visade sig snart att alla
energiformer har en minsta "myntfot", sin kvanta, och kvantmekaniken var född!
I fallet med alltid återkommande oändligheter
som resultat av beräkningarna var det uppenbart att experimenterandet inte
kunde komma längre om man inte uppfann en helt ny teori att göra beräkningar med som
bättre stämde med hur naturen faktiskt fungerade. Men sannolikhetsläran talar i
sig inte om när vi ska anse en testserie avslutad, eller vid vilken nivå ett
statistiskt urval skall anses var tillfyllest. Till sannolikheterna måste här
läggas ett värderande beslut. Vi ska titta närmare på hur beslutsteori relaterar till sannolikhetslära.
Problemet med hur man ska handla utifrån
kunskaper om sannolikheter var från början oskiljaktigt från sannolikhetsläran
eftersom denna uppstod ur funderingar kring hasardspel. Värderingsprincipen
bakom vadslagningsbesluten antogs vara att maximera vinsten utifrån kända
sannolikheter och vad man vann om de slog in. Ganska snart kom man fram till
att vinstmaximering inte räckte som princip, utan att om man bör anta ett vad eller
inte också beror på hur mycket man riskerar. Även om jag vet att det är större
sannolikhet att en trea, fyra, femma eller sexa kommer upp vid ett
tärningskast än en etta eller tvåa, så satsar jag rimligtvis inte allt jag äger
på ett vad att det ska ske.
Man började därför tala om den nytta man har av pengar, och att
beslutsprincipen borde vara att maximera den förväntade nyttan. Man kallade
nytta ett moralisk värde. Och minsann har det inte vuxit upp en hel
moralfilosofisk skola på den principen. Den pessimistiska skolan kallar
maximering av förväntad nytta för minimering av förväntad förlust.
Försäkringsbranschen växte som en följd av
att människor insåg att de hade nytta av försäkringar i denna omvända
(negativa) bemärkelse, samtidigt som försäkringsbolagen hade det i den
ursprungliga (positiva) betydelsen.
En grov matematisk formulering av graden av nytta man har av pengar är logaritmen
av ens förmögenhet. Alla utom matematiker hatar logaritmer eller är helt oförstående inför
dess betydelse. Matematikern Rudy Rucker
har uppfunnit ett sätt vi alla kan använda dem på utan att bry oss om de exakta
talen. Det visar sig nämligen att ett tals logaritm är ungefärligt lika
med antalet siffror som krävs för att skriva talet. Logaritmen av 10 är 1,
logaritmen av 100 är 2, logaritmen av 1987 (året Rucker skrev boken "Mind
Tools") är ungefär 3, logaritmen av 12345 är ungefär 5 o s v. Med hjälp av
denna insikt kan alla, utan fickkalkylator, pröva den enda spelstrategi vid
rouletteborden som inte leder till ruin i längden. Man skall sträva efter
att maximera den förväntade logaritmiska ökningen av sitt kapital!
Spelar man på hästar är den optimala maximala
ökningen av kapitalet densamma som skillnaden mellan vinnartipsens osäkerhet och den maximala osäkerheten av
inga tips alls. Detsamma torde gälla på börsen, det är därför man hör talas om
att marknaden avskyr osäkerhet. Beslutsteori har med informationens entropi att göra. Eller med andra ord
vilken tilltro vi sätter till informationen, med vilken sannolikhet vi räknar med att den är
riktig.
Man kan också manipulera andra människors
nytta och därmed maximera sin egen
nytta. Detta sker hela tiden med hjälp av belönings- och bestraffningssystem
inom affärsvärlden och används av skickliga administratörer för att deras
organisation ska fungera så optimalt som möjligt. Det torde vara möjligt att
organisera hela samhällen så att människor som handlar för att maximera sin
nytta inom de ramar som finns också maximerar samhällets nytta, men ingen vet om något existerande samhälle fungerar
något åt det hållet, även om det väl är det som nyliberalerna hävdar att det
västerländska kapitalistiska samhället gör.
Beslutsteori kräver först en Bayesiansk
analys, därefter en listning av alla tillgängliga handlingsalternativ,
därefter knyts ett nyttovärde till varje par av sannolikt utfall och handlingsalternativ.
Den handling bör väljas som minimerar förlusten eller maximerar nyttan vid
multiplicering av sannolikhet med nyttovärde. Men
sannolikhetsbedömningar och nyttobedömningar är inget man normalt har så bra
koll på. Vad beslutsteorin säger är att du ska besluta som om du hade det!
En rolig tanke: Människor med liknande
sannolikhetsbedömningar kommer bra överens, men har man olika (olika
övertygelse) går det åt skogen – medan människor med lika nyttobedömningar
hamnar i en tävlingssituation medan om de har olika bedömningar av nytta oftast kommer bra överens och
kan göra för båda parter gynnsamma affärer, som i exemplet med
försäkringsbolaget och dess kunder.
Slutledningsteori är mer fundamental än
beslutsteori. Den handlar inte om slump även om den är en sannolikhetsteori.
Vad den egentligen handlar om är optimal hantering av information (Bayes teorem är den allmänna regeln för "att
lära av erfarenheten"). Denna hantering bör vara oberoende av våra
värderingar. Det vi tror på bör vara oberoende av vad vi skulle önska. Vad som
är "nyttigt" är däremot svårdefinierat, även inom rent ekonomiska sammanhang.
Medan slutledningsteori klarar sig med en dimension – sannolikhet – så kräver utvecklingen av
beslutsteori att vad som är nyttigt representeras flerdimensionellt. Medan
beslutsteori handlar om att studera och behandla "nytta" på ett sammanhängande sätt, handlar slutledningsteori om logisk
följdriktighet.
Att upptäcka signaler i brus eller att upptäcka systematiska
okända influenser i försöksserier är egentligen ett och samma problem. Det som
skiljer är de beslutsregler vi kopplar till uppskattningarna av sannolikheten
av signaler eller systematiska okontrollerade variabler. Detta visar naturligtvis att statistiska signifikansregler är det enda som skiljer
statistiska slutledningar från den "rena" sannolikhetsläran. Och därmed att
"den tredje lögnen" är en del av den utvidgade logiken.
Stokastiska processer (som varierar
slumpmässigt) existerar inte oberoende av
mänsklig informationsbehandling. Att vara objektiv i slutledningar betyder att använda sig av all den
information man har om den verkliga situationen (som alltid är
deterministisk); och noggrant undvika fantasier om situationer som inte finns.
S k signifikansregler utgår från alla möjliga datautfall man kunde ha fått i en
situation, oftast dock utan att ta hänsyn till hur det faktiska datautfallet
ser ut.
Mycket av vanlig statistisk inferens med sina
signifikansregler för "statistisk säkerställning" är rena illusionstricken, vare sig
man söker 95-procentig eller 99-procentig "säkerhet". Man söker normalt efter
en systematisk påverkan, men istället för att öppet redogöra för detta antagande och ta
med detta vid beräkningarna av förväntade sannolika utfall så antar man en "nollhypotes" som går ut på att någon systematisk påverkan inte finns. Sedan
försöker man förkasta nollhypotesen därför att resultatet visar sig osannolikt.
Men detta kan ju aldrig vara ett argument för hypotesen om systematisk
påverkan, eftersom vad man gör är att förkasta den enda hypotes man prövar och därmed också de
sannolikheter som man beräknade utifrån denna hypotes! Inte så konstigt att man
kan bevisa vad som helst med statistik när den används med åsidosättande av
elementär logik. Det mest graverande är
emellertid när man använder sådana innehållslösa trick för att motbevisa
samband som är helt klara för alla inblandade parter utom för statistikern (och
de som har betalt denne för att trolla bort någon obehaglig sanning).
.gif)
Nu tillbaka till frågan om ett idealiserat
sunt förnuft. Liksom vid alla
vetenskapliga modellbyggen startar man med att modellera enkla förhållanden som
sedan, tack vare den matematiska formen, kan byggas på att så småningom omfatta
alltmer av verkligheten. Om man antar att vi skulle bygga en robot programmerad med generella
principer för att förvandla information den får till numeriska värden i
form av initiala sannolikheter och sedan via Bayes teorem och insamlade data omvandla dessa till förväntade
sannolika utfall som ett resultat av dessa nya erfarenheter, samt dessutom med hjälp av någon nyttofunktion omvandla sannolika utfall till
handlingsbeslut – så handlar den ganska rationellt.
Problemet som återstår för att åstadkomma en
förenklad modell av sunt förnuft är hanteringen av allt den
redan lärt sig. Ju mer den lär sig desto större minnesmängder måste den skumma
för att se om den hittar någon relevant information om det problem den är ställd
inför för tillfället. Ju erfarnare den blir, ju längre tid tar det. Men människor fungerar
inte så, vi kan summera våra tidigare erfarenheter på ett sätt som gör att vi
kan glömma detaljerna och bara behöver komma ihåg slutsatsen. Vår robot behöver ett sätt att lagra
slutsatser och inte bara isolerade fakta.
Om jag tror att nästa kast av ett mynt som
jag inspekterat har sannolikhet ½ att komma klave upp och jag
fortsätter tro det även efter fem kast med bara krona upp så beror det på att
styrkan i min tro på just den sannolikheten är större än styrkan i min tro på
exempelvis att sannolikheten för att det en gång funnits liv på mars är ½. Om man hittar ett
enda fossil på mars har ju den teorin plötsligt sannolikheten 1 (det är alltså
fel att teorier bara kan falsifieras).
Det här kan modelleras som ett slags
sannolikheter för sannolikheterna. Man kan tänka sig en normalfördelning kring
varje sannolikhetsvärde som åsatts varje föreställnings hypotetiska riktighet.
Varje gång nya data inhämtas som berör en föreställnings hypotetiska riktighet berörs
inte bara den sannolikheten utan också denna "andra" fördelning, som kan vara
mer eller mindre "smal" kring toppvärdet med branta "sidor" (då ändras inte vår
sannolikhet så mycket av nya fakta), eller "bred" med svagt sluttande "sidor"
(då ändras vår sannolikhet inom ett ganska brett fält av nya fakta). Detta
förändrade "fördelningsutseende" är då allt vår robot behöver ta hänsyn till utöver
den nya informationen. När vi säger att något har en viss sannolikhet givet att
nåt annat är sant, så är detta andra (det som sätts sant) något med mycket
branta sidor. Det är också viktigt att notera att all sannolikhet och all
kunskap är just givet nåt annat.
Här finns två nivåer. Den första är den där
roboten åsätter föreställningar som respresenterar dess tänkande om den yttre
verkligheten sannolikheter, den andra är den där robotens "undermedvetna" åsätter "föreställningar" som respresenterar dess "tänkande" om den
"medvetna" robotens aktiviteter sannolikheter. Naturligtvis kan man bygga nivå
på nivå. Det viktiga är att inte sammanblanda nivåerna när man jämför
hypoteser.
Inom sannolikhetslära måste jag ange alla antaganden
jag finner möjliga som "hypotesrymd" på en viss nivå. Innan detta är gjort har jag inte formulerat en
meningsfull fråga att ta ställning till. Därför löser sannolikhetsteori aldrig
verkliga problem, utan bara idealiserade problem. Abstrakta modeller är aldrig
desamma som den konkreta verkligheten "där ute" de modellerar. Men om
idealiseringen är bra gjord kan resultatet vara användbart i den verkliga
världen.
Men detta gäller inte bara abstrakta
resonemang. Om någon påstår att han kan sia om framtiden och det visar sig att
han har rätt, så har en människa med sunt förnuft ett antal alternativa hypoteser till detta som är mycket rimligare
än att tro att siaren har parapsykologiska förmågor. Och vår uppfattning om hur världen hänger ihop ändras inte av att
spådomen skulle råka slå in. När vi ser någonting drar vi slutledningar
av otillräcklig information på precis samma sätt. När
hjärnan får intryck via sinnesorganen som inte stämmer med tidigare erfarenhet, antar hjärnan att den ser något annat än vad ögat faktiskt
registrerar, d v s den använder sig av en rimlig alternativ hypotes. Men även under "normala" synintryck är det inte vad som registreras
på näthinnan vi ser. Långt därifrån! Vi ser med hjärnan, inte med ögonen,
och det vi ser är hur hjärnan resonerar.
Nya erfarenheter som inte förändrar vår
tilltro (sannolikhetsvärdet) till något kan ändå göra de ovan omnämnda
tillhörande sluttningarna "brantare" och konfirmerar då vår tilltro, i annat
fall är den bara kompatibel med den. Den "vikt" vi lägger på en erfarenhet är alltså inte om den ändrar
vår sannolikhet utan om den gör sluttningarna så mycket brantare. Om två olika
erfarenheter ger olika sannolikhetsvärde men där den ena har väldigt svagt
sluttande sidor, så skulle sannolikhetsprodukten vara mycket nära
sannolikhetsvärdet med skarp sluttande sidor (se figur 2).
Någon som har kunskap om en fullständig symmetri och
någon som är helt ovetande bör åsätta varje utfall samma sannolikhet, men bara inför första testet. Sen ändrar den utan förkunskaper hela
tiden sina uppskattningar medan den med symmetrikunskapen i det längsta vägrar
att ändra sina eftersom hans "sluttningar" är mycket branta.
А
В
А·B
.gif)
.gif)
Figur 2
När vetenskapsmän ska förklara varför de
väljer den ena eller andra modellen för att beskriva verkligheten brukar de förr eller senare
hänvisa till Ockhams rakblad. Ockham var en munk som levde på 1300-talet och som råkade yttra
följande som kommit att kallas just Ockhams rakblad: "Entities are not to be
multiplied without necessity."
Vetenskapsmän har tagit detta som en
grundläggande princip att söka efter det enkla. Tillsammans med den
Kopernikanska principen är den en
av vetenskapens äldsta och mest beprövade principer.
En sammansatt hypotes gör flera antaganden än en
enkel. Men när man väljer en förklaringsmodell för att förklara en samling
fakta väljer man inte den med det minsta antalet antaganden utan den som har de
rimligaste antagandena. Men å andra sidan har en modell med mer sammansatta hypoteser
en större rymd av tänkbara alternativ och därför blir den initiala
sannolikheten för varje alternativ mindre. Så mer sannolika (rimliga) hypoteser
tenderar att vara enklare. På detta sätt kan en hypotes som har färre lika
rimliga alternativ sägas vara enklare.
Förhoppningsvis har läsaren nu fått en grund
att stå på när det gäller att språka med naturen på naturvetenskaparens vis.
Vetenskapsmännen använder matematikens språk. Av alla språkliga
kommunikationskanaler är matematiken den som har minst brus. Är kanalen brusig, betyder det att ett skickat meddelande kan komma
fram som flera olika budskap! Kunskapens gener skall helst inte ha den
egenskapen.
Kapaciteten hos kanalen har emellertid inget
med det enskilda budskapet att göra utan är en egenskap beroende på vilka
budskap som kunde ha skickats. Det övervägande antalet budskap, givet de
tecken som får användas i ett överenskommet språk mellan sändare och mottagare,
har en teckenfrekvens som är nästan likformig. Sedan Shannon hade formulerat
sin informationsteori på 50-talet
har många velat tolka information som beroende på okunskapen hos
mottagaren om vilket meddelande som skall komma. Men sannolikhetsfördelningen är
inte mottagarens utan beskriver kunskapen hos ingenjören som sätter upp
kommunikationsapparaturen om vilka meddelanden som ska kunna skickas. Han kan ju inte gärna veta vilka meddelanden som faktiskt kommer att
sändas via den.
I princip kan ingenjörens initiala kunskap bestå i att bara budskap med
semantiskt innehåll ska kunna sändas. Kunde han så
hitta en algoritm som kunde hitta semantisk mening i en korrumperad signal, så är
naturligtvis det en relevant kunskap som kan användas. Denna typ av korrelation
skulle då hjälpa ingenjören att konstruera en så smal kanal som möjligt för att
åstadkomma jobbet. Och göra det möjligt för mottagaren att uppfatta rätt signaler
oftare.
Informationsteori i formen av
kommunikationsteori är inte nödvändigtvis bara syntax. Men vem är ingenjören bakom det
matematiska språkets utveckling?