Beste Prijs Kwaliteit Verhouding

Aanbestedende diensten baseren de gunning van overheidsopdrachten op de economisch meest voordelige inschrijving (artikel 67 lid 1 Richtlijn 2014/24/EU en artikel 2.114 lid 1 Aanbestedingswet 2012). De winnende inschrijving moet namelijk het economisch meest voordelige aanbod hebben gedaan. Om verwarring te voorkomen met het voorheen gebruikte gunningscriterium EMVI, wordt dit criterium onder Richtlijn 2014/24/EU beste prijs-kwaliteitsverhouding (BPKV) genoemd. De aanbestedende dienst moet vooraf, bij de aankondiging van de overheidsopdracht, bekend maken op grond waarvan het gaat gunnen en het relatieve gewicht van de verschillende onderdelen binnen het gunningscriterium (artikel 67 lid 5 Richtlijn 2014/24/EU en artikel 2.115 lid 4 Aanbestedingswet 2012).

Uit welke gunningscriteria kan de aanbestedende dienst kiezen?

De aanbestedende dienst kan kiezen tussen drie gunningscriteria (artikel 2.114 lid 2 Aanbestedingswet 2012):

Sub a: beste prijs-kwaliteitsverhouding;
Sub b: laagste kosten op basis van kosteneffectiviteit;
Sub c: laagste prijs.

Lid 3 van artikel 2.114 Aanbestedingswet 2012 bepaalt dat aanbestedende diensten als hoofdregel een overheidsopdracht op basis van de beste prijs-kwaliteitverhouding (sub a) moeten gunnen. Aanbestedende diensten hebben daarnaast de mogelijkheid om op basis van de laagste kosten op basis van kosteneffectiviteit (sub b) of laagste prijs (sub c) te gunnen. Zij moeten dit echter wel afdoende in de aanbestedingsstukken kunnen motiveren (artikel 2.114 lid 4 Aanbestedingswet 2012).

Beste prijs-kwaliteitsverhouding

Wanneer aanbestedende diensten conform het wettelijke uitgangspunt op grond van de beste prijs-kwaliteitsverhouding gunnen, betrekken zij in de rangschikking van de inschrijving zowel kwalitatieve als financiële informatie uit de offerte. Om dit te kunnen doen dienen in ieder geval twee subgunningscriteria te worden onderscheiden (prijs en kwaliteit), inclusief de relatieve weging. Daarnaast is het veelal nodig om in ieder geval binnen het subgunningscriterium kwaliteit een verdere onderverdeling te maken naar van belang zijnde kwaliteitsaspecten. De subgunningscriteria en de nadere onderverdeling daarbinnen moeten verband houden met het voorwerp van de opdracht.

De kwalitatieve subgunningscriteria kunnen onder meer betreffen:

kwaliteit, waaronder technische verdienste;
functionele of esthetische kenmerken;
geschiktheid van het ontwerp voor alle gebruikers;
de kwaliteit van het personeel.

Deze lijst is niet limitatief (artikel 67 lid 2 Richtlijn 2014/24/EU en artikel 2.115 lid 2 Aanbestedingswet 2012). De aanbestedende dienst heeft een ruime mate van vrijheid als het gaat om het kiezen van de (invulling van de) subgunningscriteria.

Handreiking

Op de website van PIANOo kunt u handreikingen vinden over de 'beste prijs-kwaliteitsverhouding'.

Handreiking deel 1 (de basis) bestaat uit een stappenplan voor het toepassen van het gunningscriterium BPKV tijdens (de voorbereiding op) een aanbesteding.

Handreiking deel 2 (een verdiepingsversie) is niet gebonden aan een volgorde en beschrijft onder meer alternatieve methoden. Zo komen verschillende gunningsmethoden aan bod, te gebruiken als alternatief voor de Gewogen Factor methode. Ook worden in deze handreiking overige situaties beschreven, zoals raamovereenkomsten en het gebruik van percelen. Dit maakt deel 2 geschikt voor inkoopadviseurs die hun vaardigheden verder willen ontwikkelen en perfectioneren om deze bijvoorbeeld in te zetten bij complexe en omvangrijke aanbestedingen.

In deel 2 wordt er dieper ingegaan op onder meer de volgende onderwerpen:

Kwalitatieve gunningscriteria
Over participatieve gunningscriteria, minimale kwaliteit: minimale scores op kwaliteit en een alternatief: toetsingscriteria.
Prijscriteria
Over relatief beoordelen, total cost of ownership en laagste kosten (life cycle costs), op kwalitatieve wijze een prijscriterium vaststellen en het prijscriterium en wortel- of kwadratische formules (zie ook de tool scoregrafieken prijs).
Gunningsmethodes
Over de keuze van de gunningsmethode, de verschillende gunningsmethoden, het bepalen van het belang van gunningscriteria met behulp van het 'Analytisch Hiërarchisch Proces' (AHP) en simuleer mogelijke effecten: het belang van gevoeligheidsanalyses.
Overige situaties
Over raamovereenkomsten, concurrentiegerichte dialoog, percelen en varianten.

Gunningsmethodiek

Een gunningsmethodiek is het systeem waarmee een aanbestedende dienst bepaalt welke inschrijving economisch het meest voordelig is. De kwaliteit van de gunningsmethodiek bepaalt rechtstreeks de kwaliteit, verdedigbaarheid en juridische houdbaarheid van de uiteindelijke gunningsbeslissing.

Bij organisaties zoals Rijkswaterstaat, de Belastingdienst en Defensie gaat het vaak om complexe opdrachten met aanzienlijke risico's, lange looptijden, hoge maatschappelijke impact en substantiële budgetten. Een gebrekkige gunningsmethodiek leidt daar niet alleen tot juridische procedures, maar ook tot verkeerde contractpartners, hogere beheerkosten en kwaliteitsverlies gedurende de contractperiode.

Juridische eisen

1. Transparantie

De beoordelingssystematiek moet vooraf volledig inzichtelijk zijn.

Een inschrijver moet vooraf kunnen begrijpen:

waarop wordt beoordeeld;
hoe wordt beoordeeld;
welke score mogelijk is;
welke weging wordt toegepast;
hoe de eindscore wordt berekend.

De Commissie van Aanbestedingsexperts heeft herhaaldelijk geoordeeld dat onvoldoende transparante beoordelingsmethodieken strijdig zijn met de aanbestedingsbeginselen. Vooral subjectieve beoordelingscriteria zonder duidelijke beoordelingskaders leveren risico's op. Zie Advies 200

2. Objectiviteit

Een beoordelaar mag niet kunnen kiezen op basis van voorkeur of gevoel.

Foute formuleringen:

"aantrekkelijk plan"
"overtuigende aanpak"
"goede kwaliteit"

Betere formuleringen:

aantoonbare reductie van faalkosten;
aantoonbare reductie van doorlooptijd;
aantoonbare beschikbaarheid;
meetbare prestatie-indicatoren.

3. Proportionaliteit

Criteria moeten in verhouding staan tot het belang van de opdracht.

Bij een kantoorartikelencontract is een uitgebreide beoordeling van innovatie disproportioneel.

Bij een ICT-contract van € 500 miljoen is een zwaarwegende beoordeling van:

cyberveiligheid;
continuïteit;
architectuur;
exit-strategie

juist zeer proportioneel. Zie ook NCTV - Handvatten risicomitigatie bij inkoop en aanbesteding

4. Controleerbaarheid

De beoordeling moet achteraf reproduceerbaar zijn.

Een rechter of klachtencommissie moet kunnen vaststellen waarom inschrijver A een hogere score heeft gekregen dan inschrijver B.

Dit vereist:

beoordelingsformulieren;
individuele beoordelaarscores;
consensusverslagen;
motivering per score.

Technische eisen

Rijkswaterstaat

Rijkswaterstaat gebruikt BPKV nadrukkelijk om kwaliteit te stimuleren.

Veel voorkomende kwaliteitsaspecten zijn:

risicobeheersing;
duurzaamheid;
publieksgerichtheid;
hinderbeperking;
innovatie.

Belastingdienst

Bij ICT-aanbestedingen spelen vaak:

beschikbaarheid;
informatiebeveiliging;
privacy;
schaalbaarheid;
beheerbaarheid;

een grote rol.

De Belastingdienst heeft een tool ontwikkeld om inkopers te ondersteunen bij het toepassen van de 'Gewogen Factor Methode' (GFM). Voor een optimaal gebruik van de tool is ook een handleiding opgesteld. De tool en de handleiding helpen bij het formuleren van een gunningsformule die aansluit op uw inkoopopdracht.

Defensie

Defensie kijkt naast prijs vaak naar:

leveringszekerheid;
operationele inzetbaarheid;
beveiliging;
supply chain-risico's;
strategische autonomie.

Een leverancier die iets goedkoper is maar onvoldoende leveringszekerheid biedt, mag niet automatisch winnen.

Kwaliteitszorg eisen

Een professionele gunningsmethodiek moet ook voldoen aan kwaliteitsborging.

Beoordelaarstraining

Iedere beoordelaar moet dezelfde interpretatie hanteren.

Anders ontstaat:

beoordelaarsbias;
score-inflatie;
willekeur.

Kalibratiesessies

Vooraf beoordelen beoordelaars voorbeeldcasussen.

Hierdoor ontstaat:

uniforme interpretatie;
hogere reproduceerbaarheid;
minder bezwaarprocedures.

Vier-ogenprincipe

Geen enkele beoordelaar mag zelfstandig beslissen.

Gebruik minimaal:

individuele beoordeling;
gezamenlijke consensusbeoordeling.

Likert-schaal

De likertschaal (beoordelingsschaal) is een getalsmatige waardering van een persoon ten aanzien van diverse onderwerpen. De schaal is vernoemd naar Rensis Likert, die de schaal voor het eerst in 1932 gebruikte.

Veel gebruikte schaallengten zijn 5- en 7-punts likertschalen, maar ook langere schalen worden soms gebruikt. De voorkeur wordt gegeven om een 4-, 5-, 6- of 7-punts likertschaal te gebruiken, aangezien bij meer dan 7 niveaus het beoordelaars niet meer goed lukt om prestaties van elkaar te onderscheiden: Piet Sanders ('Toetsen op School', Cito 2011) geeft aan om minimaal 4 en maximaal 7 niveaus te gebruiken.

Persoonlijk ben ik een voorstander om een 6-punts likertschaal te hanteren in plaats van een 5- of 7-punts likertschaal. Bij een 6-punts likertschaal is de cesuur makkelijk vast te stellen van 'Onvoldoende/Matig' versus 'Voldoende/Goed' en kunt u niet in het grijze gebied belanden van de 'middelste' beoordeling; vaak een twijfelgeval.

Probleem van een 5-punts likertschaal

Een 5-punts likertschaal bevat een middenpositie.

Bijvoorbeeld:

slecht
onvoldoende
neutraal
goed
uitstekend

Veel beoordelaars kiezen automatisch voor de veilige middenpositie.

Hierdoor ontstaat:

scoreconcentratie;
onvoldoende onderscheid;
lagere discriminerende waarde.

Voordelen van een 6-punts likertschaal

Een 6-punts likertschaal:

dwingt tot een positieve of negatieve keuze;
voorkomt neutrale scores;
biedt voldoende onderscheid;
blijft begrijpelijk;
is juridisch goed uitlegbaar;
sluit aan bij volwassen beoordelingsmethodieken.

De beoordelaar moet dus kiezen:

"onder verwachting" of "boven verwachting".

Dat vergroot de onderscheidende werking.

Deze 6-punts likertschaal sluit goed aan bij opdrachten van Rijkswaterstaat, de Belastingdienst en Defensie omdat zij niet alleen minimale naleving willen beoordelen, maar juist onderscheid zoeken in kwaliteit, risicobeheersing en toegevoegde waarde.

Een 6-punts likertschaal zou u bijvoorbeeld zo kunnen beschrijven:

Zeer slecht. Voldoet niet aan de vraag. Grote risico's aanwezig. (bijvoorbeeld bij 0 - 19 punten).
Onvoldoende. Voldoet beperkt. Risico's onvoldoende beheerst. (bijvoorbeeld bij 20 - 39 punten).
Matig. Voldoet aan minimumniveau zonder aantoonbare meerwaarde. (bijvoorbeeld bij 40 - 59 punten).

Goed. Voldoet volledig en bevat relevante meerwaarde. (bijvoorbeeld bij 60 - 75 punten).
Zeer goed. Aanzienlijke meerwaarde met aantoonbaar voordeel. (bijvoorbeeld bij 76 - 90 punten)
Uitstekend. Uitzonderlijke meerwaarde, innovatief en aantoonbaar effectief. (bijvoorbeeld bij 91 - 100 punten).

Conclusie

Een goede gunningsmethodiek voldoet aan vijf kernvoorwaarden:

Transparant.
Objectief.
Proportioneel.
Controleerbaar.
Onderscheidend.

Beoordelingsschalen vormen de basis om prestaties in niveaus in te delen, om daarmee de prestaties te scoren. Een beoordelingsschaal kan niet los worden gezien van beoordelingscriteria (wat wordt beoordeeld).

De praktijk van Rijkswaterstaat, de Belastingdienst en Defensie laat zien dat kwalitatieve aspecten zoals risicobeheersing, continuïteit, veiligheid, duurzaamheid en innovatie steeds belangrijker worden dan de laagste prijs alleen.

Voor de beoordeling van kwalitatieve criteria is een 6-punts likertschaal het meest bruikbaar. Het voorkomt de neutraliteitsbias van een 5-punts likertschaal en levert voldoende onderscheidend vermogen om inschrijvingen juridisch houdbaar, technisch verdedigbaar en kwalitatief consistent te rangschikken. Daarmee vormt zij voor complexe aanbestedingen de meest robuuste beoordelingssystematiek.

Voorbeelden van beoordelingsschalen

Hierna wordt een lijst met 24 voorbeelden van beoordelingsschalen gegeven. Voor het overzicht zijn de schalen gegroepeerd met de dikke contouren. De lijst is niet uitputtend en de niveauaanduidingen dienen slechts als voorbeeld. De voorbeelden zijn uit diverse bronnen verzameld.

De verticale groene lijn | in de lijst met voorbeelden geeft de grenswaarde tussen zakken en slagen weer (cesuur) als de schaal de score op een summatieve toets weer zou geven[1]. Waar de verticale groene lijn ontbreekt is geen sprake van zakken of slagen, is grenswaarde niet aan te geven of nog nader te bepalen. Zoals uit de lijst blijkt hoeft de grenswaarde niet altijd in het midden te liggen.

[1] Een summatieve toets is een toets die helpt om beslissingen te nemen over zakken of slagen, het is een momentopname. De toets is dan een selectiemiddel. Bij summatief beoordelen geef u een cijfer gebaseerd op een norm. Een formatieve toets is een doorlopend proces van informatie verzamelen.

Tabel: beoordelingsschalen

Toelichting bij de verschillende beoordelingsschalen

1. Beoordelingsschaal op een hoog abstract niveau. Het nadeel is dat weinig gedifferentieerd kan worden tussen de niveaus en tussen studenten. Gerichte feedback is lastig. Toegepast bij bijvoorbeeld het rijexamen.

2. en 3. Idem, maar nu met andere aanduidingen.

4. Weer met een andere aanduiding, maar door de aard van de aanduidingen lijkt de schaal gebruikt te worden voor een formatief doel, namelijk inschalen of een student nog beginnend of gevorderd is, om daarop zijn studieprogramma (verder) af te stemmen. Let goed op het woordgebruik voor de aanduidingen.

5. Idem als 4., maar nu met drie niveaus. Ook bij drie ranges zijn nog weinig mogelijkheden om studenten van elkaar te onderscheiden. Bij een formatieve toets hoeft dit een minder groot probleem te zijn dan bij een summatieve toets.

6. Idem als 5, maar nu met ander aanduidingen. Let op dat de betekenis van de aanduidingen voor beoordelaars duidelijk en ook eenduidig is. Wat is laag, midden of hoog? Zorg voor een toelichting wat onder laag, midden en hoog moet worden verstaan.

7. Deze schaal lijkt voor een summatieve toets bedoeld te zijn. Bedenk dat aan de zakkant van de cesuur één scorerange voorkomt en aan de slaagkant twee scoreranges. Denk hieraan bij het vaststellen van de cesuur.

8. Idem als 7. maar met meer voorkomende aanduidingen. Merk op dat de range van 'Goed' de student kan uitdagen meer te doen dan alleen een voldoende halen.

9. Idem als 7. en 8. maar specifiek voor een bepaalde situatie.

10. Met vier niveaus kunnen beoordelingen onderscheidend worden gemaakt en kan ook een duidelijk onderscheid in niveaus worden aangegeven.

11. Idem als 10, maar door de benaming van 'Zeer onvoldoende' in plaats van 'Onvoldoende' wordt aangegeven dat een dergelijke beoordeling zwaar onder de maat is. Om consistent te blijven is 'Matig' aangepast in 'Onvoldoende'.

12. Bedenk dat aan de zakkant van de cesuur één scorerange voorkomt en aan de slaagkant drie scoreranges. Denk hieraan bij het vaststellen van de cesuur. Merk op dat de studenten met deze schaal worden uitgedaagd tot ook het leveren van een 'Uitstekende' prestatie.

13. Zonder de context te kennen is dit een wat onduidelijk schaal. Hij lijkt summatief bedoeld, maar waar ligt dan de cesuur, tussen 'Beginnend' en 'Gevorderd' of tussen 'Gevorderd' en 'Geoefend'? Of is de schaal formatief bedoeld?

14. Deze schaal lijkt te zijn bedoeld voor een formatieve toets.

15. Een schaal met een veel voorkomende notatie, maar minder gebruikelijk bij toetsen. Apart van de schaal zal een verklaring voor de notatie aanwezig moeten zijn zoals bijvoorbeeld 'Onvoldoende', 'Matig', 'Voldoende' en 'Goed'. Doordat de ' - + ' ontbreekt is aannemelijk dat een eventuele cesuur ligt tussen ' - ' en ' + '.

16. Idem als 13. maar nu als een vijfpuntsschaal. Zonder de context te kennen is niet duidelijk waar een eventuele cesuur ligt.

17. tot en met 20: oplopende schalen in cijfers van 4 tot en met 7. Dit aantal niveaus (4 tot en met 7) maakt onderscheid tussen de beoordelingsniveaus mogelijk. De betekenis van de cijfers dient ergens weergegeven te worden, zodat duidelijk is waarvoor een niveau staat. Waar de cesuur ligt als de beoordelingsschaal ook voor een toets wordt gebruikt, dient onderbouwd en eenduidig te worden weergegeven.

21. Combinatie van twee beoordelingsschalen in één (zie 8. in combinatie met een 7-puntsschaal, gerelateerd aan de bekende 10-puntsschaal, maar zonder de lage cijfers 1, 2 en 3).

22. De standaard tien niveaus die in het onderwijs worden gebruikt. Het nadeel van deze schaal voor het beoordelen van opdrachten is dat de niveaus 1, 2, 3, 9 en 10 veelal weinig worden gebruikt en de mate van detaillering groot is. Het voordeel van deze schaal is dat iedereen een goed gevoel heeft bij de waarde van de niveaus.

23. Vertaling van de cijferniveaus van 22. in tekst volgens een Nederlandse wet uit 1929?

24. Vertaling van de cijferniveaus van 22. in tekst die in het Nederlands onderwijs wordt gebruikt.