Utrecht
6 maand(en)
36 uur per week
1-7-2024
13-7-2024
Reageer nu

Functieomschrijving:

Rijkswaterstaat wil haar data centraal toegankelijk maken. Om dit te bereiken ontwikkelt Rijkswaterstaat het Centraal Toegangspunt Data (CTD). Hiermee krijgt het de beschikking over drie nieuwe (data) functies die aansluiten op de uitgangspunten van de datastrategie en de i-strategie van RWS. Voor het CTD is er behoefte aan een meer geautomatiseerde aanpak voor het creëren en toepassen van metadata. D.m.v. trefwoord extractie (NLP) dienen de belangrijkste woorden of woordgroepen uit de verschillende databronnen te worden geïdentificeerd en geëxtraheerd. Met de geëxtraheerde trefwoorden worden de belangrijkste onderwerpen en thema's binnen een databron geïdentificeerd.

Met deze trefwoorden (incl. synoniemen) wordt de beschikbare metadata van de verschillende databronnen verrijkt. Het uiteindelijke doel van deze opdracht is het beter vindbaar maken van de metadata.

Werkzaamheden:

  • De opdracht achter deze inhuur is te komen tot een meer geautomatiseerde aanpak voor het creëren en toepassen van metadata.
  • Om dit te realiseren is (op hoofdlijnen) de volgende functionaliteit benodigd:
    • Tooling voor het geautomatiseerd genereren van metadata van de content in het CTD en voor het beschikbaar maken hiervan voor het verwerken in de metadata catalogus (Data 360). Dit betreft specifiek het koppelen van data-assets (databronnen, tabellen, datasets en dataproducten) aan twee zoekbomen. Eén zoekboom heeft de OTL als basis en de andere heeft een vakinhoudelijke indeling.
    • Tooling voor het indexeren van data in het CTD en deze trefwoorden opslaan in de metadata-catalogus (Data 360), zodat ook op deze trefwoorden gezocht kan worden. Deze tooling geeft aan welke velden geïndexeerd moeten worden.
    • Een geautomatiseerd proces om op basis van (1) periodiek nieuwe metadata van databronnen in het CTD te kunnen genereren.
    • Advies over hoe het CTD de gebruiker beter kan bedienen en zo mogelijk dit advies om te zetten in bruikbare producten.
    • Documentatie van ontwikkelde producten ten behoeve van overdracht naar beheerders en gebruikers.

Over de klant:

Rijkswaterstaat is de uitvoeringsorganisatie van het ministerie van Infrastructuur en Waterstaat en werkt dagelijks aan een veilig, leefbaar en bereikbaar Nederland 

Eisen:

  • Beschikt over een afgeronde WO/PhD opleiding in de richting van software engineering. 
  • Tenminste 3 jaar ervaring met het schrijven van kwaliteit Python code volgens strikte kwaliteitseisen zoals PEP, Flake8, unit tests, security e.a. incl. CI/CD pipelines.
  • Tenminste 3 jaar ervaring in een Agile setting, ervaring in het robuust, schaalbaar, testbaar en reproduceerbaar ontwikkelen van software binnen innovatieve data projecten met een data science component.
  • Ervaring met NLP (Natural Language Processing) en specifiek het extraheren van trefwoorden uit databronnen met het oog deze beter vindbaar te maken.

Competenties:

  • Is analytisch
  • Is klantgericht
  • Is gericht op samenwerken
  • RADIO-V: resultaatgedreven, aanspreekbaar, dienstverlenend, integer, ondernemend en verbindend

Arbeidsvoorwaarden:

Interesse?

Stuur ons dan uiterlijk 12 juli 2024, voor 14:30 uur je recente CV + motivatie voor deze rol, samen met je beschikbaarheid/geplande vakanties en je all-in uurtarief excl. BTW.