Datasys Customer Portal. I nuovi modelli di AI e Ricerca Ibrida

(a cura di Luigi Torriani e Djordje Arsenovic)

Datasys Network è dal 1981 una software house punto di riferimento per le PMI italiane, con soluzioni IT su misura per le aziende Made in Italy: Gestionali ERP, Software Contabilità-Tesoreria-Controlling, Web App, Soluzioni Server & Networking, Infrastrutture Tecnologiche, CRM, Cloud, Hosting, Disaster Recovery, Sicurezza Informatica.

Tra le soluzioni più interessanti sviluppate negli ultimi anni dal laboratorio di Datasys Network possiamo citare certamente il Customer Portal, che è un portale web multilingua, semplice da usare e integrabile con qualsiasi software gestionale, che consente upload, download e condivisione in tempo reale – sia con i clienti, sia tra i dipendenti all’interno dell’azienda – di QUALSIASI documento (stati di avanzamento ordine, status di avanzamento produzione, ordini aperti, fatture, listino prezzi, ecc.).

Già utilizzato quotidianamente in decine di aziende italiane, il Customer Portal si arricchisce oggi con nuove funzionalità di AI e di Ricerca Ibrida, che potenziano notevolmente le possibilità di ricerca di informazioni per l’utente.

La Ricerca Ibrida (Hybrid Search) combina ricerca semantica (vettoriale) e ricerca lessicale (basata su parole chiave), raccogliendo il testimone lasciato dai motori di ricerca tradizionali: oggi, con i dati distribuiti ovunque, abbiamo bisogno di strumenti più potenti per gestirli.

Per poter manipolare i dati, dobbiamo prima trovarli, sia utilizzando parole chiave esatte sia utilizzando termini più ampi per ricercare il significato semantico.

Il motore di ricerca ibrida che è oggi utilizzabile nel Customer Portal di Datasys Network è sufficientemente potente da analizzare oltre 17.000 file, trovare corrispondenze esatte o semantiche e presentare i risultati in modo significativo.

Per una demo del prodotto la persona da contattare è il Direttore Commerciale di Datasys Network Antonio Falletta: antonio_falletta@datasys.it

Vediamo ora in concreto come funziona, e con quali risultati, la Ricerca Ibrida nel Customer Portal di Datasys Network.

Creazione della pipeline di acquisizione dati

Per effettuare ricerche efficienti nei report PDF e nelle fatture XML, è necessario prima preparare i file e creare il database.

01 – EMBEDDING E ACQUISIZIONE DATI
– Creazione degli embedding utilizzando il modello nomic-embed-text-v2-moe.
– Aggiunta del prefisso search_document per migliorare la qualità degli embedding.
– Salvataggio degli embedding e dei dati aggiuntivi nel database PostgreSQL.

02 – CONVERSIONE ED ESTRAZIONE XML
– Conversione delle fatture XML in HTML applicando la struttura XSLT.
– Estrazione delle informazioni rilevanti.
– Conversione del contenuto dei file in formato Markdown.

03 – CONVERSIONE ED ESTRAZIONE PDF
– Conversione dei PDF in oggetti Docling.
– Estrazione delle informazioni tramite coordinate dei riquadri (bounding box).
– Conversione del contenuto dei file in formato Markdown.

04 – SUDDIVISIONE IN BLOCCHI (CHUNKING)
Pulizia del contenuto Markdown.
Utilizzo del text splitter di LangChain per suddividere l’intero documento.
Creazione di blocchi di 800 caratteri con una sovrapposizione di 100 caratteri.

Ricerca

Il modulo di ricerca è stato sviluppato come microservizio utilizzando Python e FastAPI.

Questo approccio lo rende modulare e facilmente adattabile a qualsiasi applicazione della nostra suite di prodotti.

Vengono utilizzati gli schemi Pydantic per validare richieste e risposte.

01 – Creazione della query lessicale
– La query viene costruita utilizzando l’input dell’utente e filtri aggiuntivi basati sui dati estratti.
– Inoltre, viene utilizzato tsvector per migliorare i risultati e viene applicata la ricerca web.

02 – Creazione della query semantica
– La query viene generata utilizzando gli stessi parametri della ricerca lessicale.
– In questo caso, la query dell’utente viene convertita in un vettore utilizzando lo stesso modello di embedding e il prefisso search_query.

03 – Applicazione della RRF (Reciprocal Rank Fusion)
– I risultati delle due query vengono uniti.
– Viene applicata la formula RRF utilizzando una costante di smoothing pari a 60 per ordinare i risultati.
– Infine, i risultati vengono paginati e restituiti all’utente.

Analisi dei test di ricerca

Abbiamo testato questo motore di ricerca utilizzando 30 query complesse che richiedevano sia la corrispondenza esatta delle parole chiave sia una comprensione semantica più ampia.

Dati del database

Numero di documenti: 17.645
Numero di blocchi (chunk): 60.721

Tasso di successo

Ricerca Ibrida: 29/30 (96,7%)
Ricerca Lessicale: 17/30 (56,7%)
Ricerca Semantica: 19/30 (63,3%)

Principali risultati

La Ricerca Ibrida ha migliorato l’accuratezza del 33,3% rispetto alla sola ricerca semantica.

La Ricerca Ibrida ha migliorato l’accuratezza del 40,0% rispetto alla sola ricerca lessicale.

La Ricerca Ibrida ha colmato il divario tra il modo in cui gli utenti pensano realmente (concetti conversazionali) e il modo in cui i dati vengono archiviati.

Accetta la nostra privacy policy prima di inviare il tuo messaggio. I tuoi dati verranno utilizzati solo per contattarti in merito alle richieste da te effettuate. Maggiori informazioni

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close