Deze tekst geeft een overzicht van de mogelijk technische oplossingen voor een subsidiegever om een subsidieproces te automatiseren. De doelgroepen van lezers zijn beleidsmedewerkers, programmacoördinator en geïnteresseerden. Verder bevat deze tekst informatie over de monitoring van de betreffende data, regelmatige gevraagd door het bestuur van een subsidiegever.
Centraal vraag: “Hoe kan een subsidiegever de kunstmatige intelligentie voor een efficiënter proces gebruiken?”
Het proces van automatisering is gegeven voor een algemene subsidie. De beschrijving is beperkt tot een enkele mogelijkheden.
PLANNINGSFASE
Deze fase beschrijft voorbeelden van verzoeken door de beleidsmedewerkers, bijvoorbeeld over enquête analysis en over data verbinding mogelijkheden met externe partijen.
Teksten analyseren
De analyses van discussies, notities, vergaderingen, minuten tijdens de planningsfase zijn belangrijk voor de planning van een subsidieronde. Daarbij horen zinnen clusteren per onderwerp en topic modeling op de basis van meeste voorkomende woorden. Het bestuur of het publiek kan vragen voor een onderzoek in een bepaald thema(Covid). In zulke gevallen is het belangrijk om de trefwoorden te zoeken in de subsidiegeversdatabase. Of een politici vragen om aandacht te besteden aan een bepaalde deel uit Nederland (Cariben). De wetenschappelijk trendberekening is ook belangrijk voor nieuwe subsidierondes om er achter te komen van trefwoorden die zijn in opkomst.
Data verbinden met externe partijen
Je kan via een python code de subsidiedata uit subsidiegeversdatabase associëren met de externe bronnen (levenscycli van aanvragers).
INDIENINGSFASE
Deze fase beschrijft voorbeelden, zoals wetenschappelijk output van een aanvrager ophalen vanuit een database, gelijkenis tussen twee aanvragen controleren en discipline toewijzen aan de aanvragers.
Gelijkenis tussen twee aanvragen controleren: De vergelijking tussen aanvragen is voor twee belangrijk; te controleren voor (zelf)plagiaat en voor clusteren van aanvragen met (bijna) zelfde onderwerpen.
- Corpusdiff is een website gebouwd doorUniversiteit Leipzig waar je samenvattingen van aanvragen kan uploaden voor vergelijking. Je krijgt een score van afwijking tussen de aanvragen.
- CompareD is een tool ontwikkeld door de ’text en data mininig’ groep van Joint Research Center, Europese commissie. De tool vergelijkt subsidieaanvragen ingediend bij verschillende subsidiegevers en de Europese databasedocumenten.
Discipline toewijzen aan de aanvragers
De aanvrager moet een discipline kiezen tijdens indiening van zijn/haar aanvraag. De keuzes zijn niet altijd nauwkeurig en spelen beslissende rol in de toekenning. De indeling van aanvragen in verschillende disciplines door een algoritme kan werklast van de beleidsmedewerkers verminderen. De beleidsmedewerkers kunnen de keuzes nog verder controleren. Je kan de clustering uit vorige rondes gebruiken voor de clustering voor de huidige ronde. De code raadt de discipline van een aanvraag op de basis van teksten in de titel en samenvatting. De nauwkeurigheid van deze methode is afhankelijk van disciplines toegewezen uit afgelopen rondes.
Wetenschappelijke output importeren
Het is mogelijk om wetenschappelijke output van onderzoekers te importeren via digitaal object identifiers (DOI’s). Deze informatie is belangrijk voor het vinden van belangverstrengeling tijdens een referentzoektocht of commissieselectie.
ONTVANKELIJKHEIDSFASE
Deze fase beschrijft voorbeelden t.a.v. ontvankelijkheid controle of anonimiteit controle van aanvragen. Bij elke subsidieronde horen een aantal regels van indiening. Het lezen van aanvragen kost veel tijd en energie van beleidsmedewerkers. Een beleidsmedewerker moet de hele tekst lezen voor het zoeken van irregulariteit, bijvoorbeeld, heeft de aanvrager zijn/haar naam in de tekst juist gegeven of kloppen de sommen in de budgetstabel wel? Past maximaal aantal woorden voor de samenvatting? Een python script uitvoert deze control automatisch. Ook met beperkte succes van deze controle kan de werkdruk van een beleidsmedewerker verminderen. Verder een natural language processing model (NLP) kan naam van de aanvrager zoeken in de aanvraag, als je wil graag weten welke data repository per aanvraag wordt gebruikt, op welke licentie, wie de verantwoordelijke persoon voor de plan is.
CLUSTERINGFASE
Deze fase beschrijft automatische clustering van ingediende aanvragen.
De clustering van aanvragen is handmatig gedaan door beleidsmedewerkers, op basis van samenvattingen of trefwoorden. Dat kost veel tijd en energie. Deze clustering is verder gebruikt om een beoordelingscommissie te samenstellen en verder aanvragen te beoordelen. Een clustering algoritme gebruikt verschillende delen van de aanvraag (titel, samenvatting, trefwoorden of alleen teksten) voor indeling van aanvragen. Het is aangeraden om de aanvragen ten eerste met een algoritme te clusteren en daarna de clustering door de beleidsmedewerkers verder laten controleren.
REFERENTENFASE
Deze fase beschrijft hoe je referenten voor een aanvraag zoekt met een python script.
Referenten koppelen aan aanvraag informatie
In de huidige situatie zoeken beleidsmedewerkers referenten om aanvragen te beoordelen handmatig of via professionele partijen. Een python script kan dit proces efficiënter maken door associëren van de inhoud van aanvragen met vaardigheden van de referenten. De informatie van referenten kan je selecteren uit een subsidiegeversdatabase of uit de database van de professionele partij die de subsidiegever gebruikt. De specifieke kennis betreft aanvraag is niet nodig. Maar de informatie over de referenten binnen de database moet complete zijn. Er zijn twee opties:
optie 1
- Aanvragen classificeren per discipline (uitgelegd in de vorige sectie)
- Beschikbare referenten in database classificeren per discipline
- Aanvragen met referenten koppelen qua disciplines
optie 2
- Trefwoorden halen uit aanvragen
- Trefwoorden halen uit CV van referenten
- Vergelijken van trefwoorden uit beide bestanden
Aanvraag info in Expert Lookup plaatsen
Subsidiegevers die Elsevier Expert Lookup gebruiken voor het zoeken van referenten voor subsidieaanvragen, plaatsen handmatig de informatie per subsidieronde in de Expert Lookup. Elsevier Expert Lookup biedt een formaat waarin de lumsum-voorstelleninformatie geüpload kan worden. Een python code kan de lumsum-voorstelleninformatie omzetten in het vereiste formaat.
NA TOEKENNINGSFASE
Deze fase bevat verzoeken over honoreringspercentages per discipline, subsidieronde, jaar, specifieke thema’s, man-vrouw ratio of per instelling. Het bestuur vraagt of een toekenning is geinvloed door de aard van de aanvragen en door de samenwerking tussen de verschillende aanvragers.
Hieronder zijn aantal voorbeelden:
Onderzoeksgebieden
Het bestuur vraagt over onderzoeksgebieden uit specifieke disciplines.
- Hoe vaak worden de verschillende gebieden gebruikt? Dan is het aantal keer aangevraagd en het gemiddelde gewicht het interessantst.
- Wat zijn per gebied de top 3 gebieden die het vaakst met dat gebied worden aangevraagd?
- Hoeveel aanvragen vallen over disciplines heen en hoeveel vallen binnen één discipline?
Mono-en multidisciplinair, intra-en interdomein verhouding
- Zijn er disciplines die het vooral goed doen bij een subsidieronde die grotere samenwerkingsverbanden steunen of juist bij een subsidieronde die kleine projecten mogelijk maken?
- Hoeveel aanvragen met disciplines uit andere onderzoeksdomeinen zijn ingediend? Maak een onderscheid tussen aanvragen met twee hoofddisciplines en aanvragen met meer dan twee hoofddisciplines, en onderscheid tussen de verschillende rondes.
- Is te zeggen welke combinaties van subdisciplines meer of minder vaak voorkomen binnen aanvragen die twee of meer hoofddisciplines behandelen? En zijn de percentages makkelijk in een overzicht te verkrijgen?
- Vergelijking tussen twee rondes om aanvragen en honoreringen.
- Inventariseren van de breedte van het wetenschappelijke domein om een overzicht te krijgen van welke (sub)disciplines, instituten, trefwoorden om een wetenschappelijk veld kunnen definiëren en hoe groot die link is met andere disciplines.
Verhouding aanvrager en aanvraag in de rondes
- Hoe vaak komen er aanvragen van dezelfde onderzoeker? Betreft het hier een nieuw onderwerp of een min of meer herindiening van een eerder afgewezen onderwerp? Op basis van de titel of samenvatting kunnen we wellicht een indicatie geven?
Opzoeken van onderzoekers met specifieke trefwoorden in de aanvragen
- Een bestuur vraagt een trefwoord te opzoeken in aanvraagtitel en in samenvatting van ingediende aanvragen. Welke onderzoekers zich bezig houden met het onderzoek over betreffende trefwoord?
Geografisch herkomst van de hoofdbetrokkenen
- De hoofdbetrokkenen zijn : aanvragers, commissieleden en referenten
Referentenbelasting en beschikbaarheid
- Een bestuur vraagt voor de slagingspercentage om referenten voor beoordeling in te lokken en de man/vrouw ratio van referenten per hoofddisciplines.