Laatste nieuws
 
 
  Achtergrondartikelen  


Opensource in combinatie met data-extractie,
OCR en Natural Language Processing





Het gaat net zo zeer om extractie, classificatie, businessrules en workflowmanagement. Het hele pakket aan verwerkingspotentie moet voor ons in één keer worden meegenomen.’ Van der Vlugt gaat (onder meer) over de inputmanagementstrategie (en uitvoering). Tot voor kort betekende het verwerken van de letters of credit veel handmatig werk. ‘Er zitten aan de verwerking van deze letters of credit heel specifieke voorwaarden. Aan elk type document hangt wel weer een andere regel: hoeveel kopieën horen er te zijn? Hoeveel getekende originelen? Veel van die informatie kent een hoog Natural Language Processing (NLP) gehalte’, aldus Van der Vlugt. ‘Dat wil zeggen dat de interpretatie van die informatie veelal door mensen moest worden gedaan: gewoon lezen wat er staat en daarnaar handelen. Probleem was dus dat er nogal wat variatie zit in de uitvoering van deze documenten, dat het om meer talen gaat en om validatie van handtekeningen. Daarvoor wilden we een oplossing hebben die het proces zou versnellen zonder aan kwaliteit in te boeten. Dat was een behoorlijke uitdaging.’

Van de redactie

Veel gedigitaliseerd en geautomatiseerd
Binnen de ABN-AMRO Bank is in de voorbije periode veel gedigitaliseerd en geautomatiseerd. De bank heeft er een strategisch ECM-groeipad voor geformuleerd en werkt langs die lijnen naar een gestroomlijnde toekomst. Daarbij hoort alles rondom Enterprise Content Management. Dus, in het kader van volledige information governance, gaat het net zo zeer om Output als om Input en Document Management & Records Management. ‘Het ultieme doel van deze aanpak is altijd en overal grip houden op informatie en processen’, aldus Van der Vlugt. ‘Er is echter veel veranderd in de wereld van ECM en alles wat daarmee samenhangt. De zogenaamde ‘point solutions’ zijn achterhaald; het gaat steeds meer om flexibele, agile platforms. Content is overal en ook overal nodig om het werk gedaan te krijgen. In de financiële wereld zitten we in een omgeving die regelmatig te maken heeft met fusies en overnames. Daarbij moeten grote hoeveelheden informatie van de ene organisatie met die van de ander integreren en dat is een grote, nog bijna dagelijkse, uitdaging, want échte integratie is vaak ver te zoeken. ECM is daarom cruciaal om grip te houden op al die informatie. Content moet in alle drie de fasen beschikbaar zijn, betrouwbaar zijn (dus onderhouden) en vindbaar zijn.’

Opensource platforms flexibeler
Op de zoektocht naar geschikte oplossingen voor de diverse uitdagingen kwam Van der Vlugt op Opensource softwareplatforms. ‘De traditionele pakketten raakten achter op de ontwikkelingen. We maakten tot dan toe gebruik van zo’n meer traditioneel ECM- en captureplatform, maar toch… Opensource-oplossingen gaven blijk van meer flexibiliteit, van meer meebewegen met de wensen van de gebruikers. In mijn ogen komt er vanuit Opensource veel meer innovatie dan vanuit de meer traditionele softwarewereld. In zo’n community zitten ‘kindred spirits’: mensen die hetzelfde denken en hetzelfde doel voor ogen hebben. Innovaties die in de gemeenschappelijke versie (community version) worden bedacht en ontwikkeld, worden veel sneller meegenomen in de corporate versions van oplossingen. Je zit feitelijk steeds in een soort van voortdurende R&D-omgeving. Het betekent vooral een veel snellere productvernieuwing en het businessmodel van software verplaatst meer van patenten naar oplossingen. Voor ons als ABN-AMRO Bank gold dat een groot deel van de automatiseringsoplossingen van onze informatieprocessen die we zochten in onze ECMbusiness niet geleverd konden worden via traditionele softwareleveranciers, maar wel via de Opensource kanalen.
Binnen de afdeling Document Management en Records Management zijn inmiddels vier van die Opensource platformen in gebruik en ik kan met tevredenheid constateren dat 1+1+1+1 inmiddels is gegroeid tot 6.’

Inputmanagement met NLP
In 2016 wilde van der Vlugt eenzelfde pad inslaan voor het inputmanagement traject, met name te beginnen met de geautomatiseerde verwerking van de letters of credit. ‘Echter, we liepen tegen wat witte vlekken in de markt aan, om het zo maar te zeggen. Zoals al gememoreerd, OCR is niet zo spannend. Het gaat ook om data-extractie, om businessrules en om workflowmanagement. Het zou voor ons pas interessant worden om een geautomatiseerd proces te creëren waar aan het eind van het proces een interpretatie uitrolt met een ja of nee als uitkomst. Maar hoe doe je dat als het feitelijk (vooral) om NLP gaat? Dat is nog niet zo eenvoudig. De letters of credit kennen veel manuele stappen en er staat veel informatie in. Bij automatisering van dit proces moet het systeem zelf in staat zijn te lezen, te interpreteren en de volgende stap te initiëren. Een belangrijke hobbel die genomen moest worden is de meertaligheid van die documenten. Het gaat om documenten die betrekking hebben op niet alleen grootschalige, maar ook internationale handel tussen bedrijven. Meertalige NLP Libraries waren dus een expliciete voorwaarde die dit traject meteen een hoge complexiteit gaf. Het toevoegen van NLP aan geavanceerde herkennings- en classificatietechnologie leek echter de enig juiste oplossing. Ephesoft was de Opensource leverancier waar we op stuitten en van gecharmeerd waren: we misten echter de NLP-functies en een Nederlandstalige analysefunctie. Ephesoft is een kleine softwareontwikkelaar, maar die zijn in de regel wel wat flexibeler en sneller in het meebewegen met de markt. Nu ging het er dus om een leverancier te vinden die zou kunnen aansluiten op de Opensource van Ephesoft met optie om na de OCR en extractie NLP en Nederlandse analyses toe te voegen. Een eigen marktverkenning van ABNAMRO leidde vervolgens naar Migrato. Die liet bij een Proof of Concept (PoC) in een verkennende sessie op het gebied van NLP direct al veelbelovende resultaten zien met haar Intelligent Content Classifier. Aan beide partijen dus het verzoek om met elkaar om tafel te gaan en de zaak te integreren.’



In één Opensource-omgeving onderbrengen
In de daarop volgende proeven liet Migrato verder zien dat het in staat was om te doen wat ABN-AMRO Bank wilde, namelijk informatie vanaf de letters of credit na extractie, OCR en NLP weer volgens de juiste parameters terug het proces in te brengen, aangestuurd door de workflowcomponent. Van der Vlugt: ‘De aspecten van meertaligheid, complexe inhoud van documenten en de daaraan gekoppelde businessrules konden volledig worden ingevuld. In de PoC van Migrato was de meertaligheid in eerste instantie – opzettelijk - wat beperkt in de opzet, maar die resultaten gaven ons alle vertrouwen dat hiermee het hele proces kon worden geautomatiseerd. Migrato was de enige die ons dat kon leveren.’ De PoC bij de Trade-afdeling was dus succesvol en de toegevoegde waarde aangetoond. Bij de uitwerking van de business case bleek dat het nodig was om honderden ongestructureerde templates te verwerken. Dit zou een behoorlijke inspanning zijn om deze allemaal in te leren. Van der Vlugt: ‘Het systeem is op dit moment nog in een ontwikkelingsfase als het gaat over toepasbaarheid in verschillende business cases. Er zijn echter meerdere factoren die meespelen in de praktijk als het gaat om de toepasbaarheid op de verschillende processen. Je kan echter stellen dat de PoC met Ephesoft en Migrato haar toegevoegde waarde heeft aangetoond.’

De volgende stap is om de Migratooplossing in één werkend systeem (in een Opensource omgeving) te realiseren en de NLP- en analysetoepassing te integreren in Ephesoft. ‘Daarmee hebben we door de combinatie van lokale expertise en specialisatie met een internationale oplossing snelle innovatie in één werkend systeem gecreëerd, gebaseerd op Opensource. Dus altijd agile.’

Co-creatie en openheid
Eén van de andere doelen van ABNAMRO was om vooral veel nadruk te leggen op co-creatie en openheid. Van der Vlugt: ‘Dat werkt veel beter dan dat ieder voor zich een deeltje doet en waarbij je meerdere partijen moet aansturen. Het doel was duidelijk: er moest een geavanceerde inputmanagement automatiseringsoplossing komen met hoge kwaliteit, betrouwbaarheid en met NLP geïntegreerd in een Opensource-omgeving.’ Het resultaat is een optimaal werkende oplossing volgens de specificaties van de ABN-AMRO Bank en geen discussies over intellectueel eigendom en dergelijke. ‘Dat is wel wat anders dan we in de markt zien. Daar wordt zo ongeveer alles dicht getimmerd, vergelijk het maar met de farmaceutische industrie. De aanpak die we nu hebben gehanteerd, werkt voor alle betrokkenen positief. En dit is nog maar één toepassing. We hebben er nog legio op het oog, waarbij we allemaal weer van deze inspanningen kunnen profiteren’, aldus Van der Vlugt.

Voordelen
Belangrijkste voordelen voor de bank zijn niet alleen de tijdwinst – ofschoon die substantieel is op het moment van uitrollen – maar ook de consistentie en betrouwbaarheid van de toepassing. ‘Nu zijn we in staat relaties tussen documenten te leggen die we anders niet zouden kunnen leggen. Alles heeft met elkaar te maken: content, context en relaties tussen documenten’, aldus Van der Vlugt. ‘De kennis in het vakgebied van de letter of credit is uitstervend. Terwijl er nog altijd veel internationale handel wordt gedreven tussen landen met grote verschillen in niveau van ICT. Het type documenten verschilt daardoor ook enorm en het gaat nog wel even duren voordat daar meer eenduidigheid in gaat komen. Dan is het wel zo prettig dat we de voor onszelf gewenste eenduidigheid en consistentie voor een heel groot deel hebben kunnen vastleggen in een geautomatiseerd systeem. De combinatie van NLP en ICT vult het gat op. Het was een kwestie van de vraag uit de business relateren aan technologische ontwikkelingen. Daarvoor is kennis van die business noodzakelijk, gecombineerd met vraagstukken over information governance. Dat leverde een zoektocht met dit als resultaat. ECM is een enabling grid, een platform dat bepaalde ontwikkelingen mogelijk maakt, in plaats van een zo goedkoop mogelijke technologie. Althans, zo zien wij dat bij de ABN-AMRO Bank…’

Beeld: ABN AMRO, Redactie

Plaats op:
Datum: 16 april 2018
Bron: DocumentWereld / Magazine EIM professional
Gerelateerde artikelen  
08-11-2017 Achtergrondartikelen Intelligente opwaardering van digitale documenten noodzakelijk
13-06-2018 Achtergrondartikelen Van specialist in capturing naar wereldwijd transactienetwerk
01-06-2018 Nieuws Ultimo Software Solutions opent vestiging in het Verenigd Koninkrijk
18-04-2018 Achtergrondartikelen Hoe houden we grip op alle informatie die de organisatie binnen komt?
02-05-2018 Achtergrondartikelen Iets digitaal beschikbaar hebben, wil nog niet zeggen dat je er iets mee kunt …
 
 

- partners -

 
 
 
 
 
� 2005 - 2018 Vakwereld. All rights reserved Pagina geladen in 0,31 seconden.