Według Europejskiego Urzędu Nadzoru Bankowego nadużycia przy płatnościach wynosiły jedynie 0,002% wartości wszystkich transakcji zrealizowanych w 2024 roku. To duże pieniądze (4,2 miliarda euro), jednak procentowo wartość ta mieści się w granicach błędu statystycznego. Sztuczna inteligencja nie jest w stanie szkolić się na tak małej reprezentacji danych w zbiorze wszystkich płatności. Przy pełnej analizie, nie identyfikuje tego zjawiska jako dużego zagrożenia. Aby to zmienić, potrzebne są dane syntetyczne.
24 lutego 2026 – Banki i instytucje finansowe od lat budują przewagę na danych: transakcjach, zachowaniach klientów, historii spłat, sygnałach z kanałów cyfrowych. Problem w tym, że im więcej danych, tym większa odpowiedzialność – prawna, wizerunkowa i operacyjna. W praktyce to właśnie ryzyko związane z danymi (nie tylko „klasycznymi” danymi osobowymi) coraz częściej staje się hamulcem innowacji: blokuje współpracę z partnerami, utrudnia testowanie nowych systemów i wydłuża czas wdrożeń. W tym kontekście rośnie znaczenie danych syntetycznych, czyli sztucznie wygenerowanych, ale zachowujących strukturę i zależności występujące w zbiorach rzeczywistych.
– Dane syntetyczne bywają przedstawiane jako „zastępstwo” dla brakujących danych, ale to pewne uproszczenie. Nie są bowiem lekarstwem na bałagan w rzeczywistych danych. Jeśli informacje źródłowe są niekompletne, słabo opisane i niskiej jakości, to syntetyczny zbiór będzie tylko syntetyczną reprezentacją tych samych problemów. Zanim powstanie sensowny zbiór do trenowania modeli lub testowania systemów, organizacja musi wykonać podstawową pracę: zapewnić spójność danych, ich kompletność, zapewnić jakość tychże zgodnie ze zdefiniowanymi standardami – mówi Artur Skalski, Head of Customer Advisory, SAS Polska.
To jednak nie zmienia faktu, że dla sektora finansowego dane syntetyczne są jedną z najbardziej praktycznych technologii „tu i teraz”. Ich wartość sprowadza się do dwóch twardych efektów: obniżenia ryzyka wykorzystania danych oraz zwiększenia zwrotu z inwestycji w analitykę i rozwój systemów.
Oszustwa są rzadkie – a to problem dla modeli
Z punktu widzenia uczenia maszynowego, oszustwo to przypadek podręcznikowy tzw. niezbalansowanych klas: jest ich mało w porównaniu do ogromu transakcji prawidłowych. Choć kwota 4,2 miliarda euro robi wrażenie, procentowo stanowi to zaledwie 0,002% łącznej wartości wszystkich transakcji. Model, który generalizuje rzeczywistość, może po prostu nauczyć się, że najbezpieczniej jest uznać większość przypadków za normalne i w efekcie przeoczyć to, co dla banku najdroższe. Dane syntetyczne pozwalają ten problem złagodzić przez kontrolowane „dopieszczenie” rzadkich scenariuszy: zwielokrotnienie ich przykładów w sposób zgodny z zaobserwowanymi rozkładami.
To ważna różnica: chodzi nie o tworzenie fikcji, ale o takie powiększenie próbki, aby model miał z czego się uczyć. W finansach, gdzie jeden nieuchwycony schemat oszustwa może oznaczać milionowe straty.
Prywatność nie kończy się na PESEL-u
W bankowości pytanie „czy to są dane osobowe?” coraz rzadziej ma prostą odpowiedź. Oczywiście numer dokumentu, adres czy identyfikator klienta są jednoznaczne. Ale rośnie znaczenie danych behawioralnych, czyli śladów tego, jak użytkownik zachowuje się w aplikacji mobilnej i bankowości internetowej. Przykładem jest cyfrowy odcisk palca (digital fingerprinting): sposób, w jaki klient wykonuje interakcje, który może być na tyle unikalny, że pozwala odróżnić właściciela konta od przejmującego je przestępcy. To cenne narzędzie w walce z nadużyciami, ale jednocześnie rodzi pytanie o status prawny takich wzorców. Podobny problem dotyczy danych medycznych. W finansach mniej oczywistych, ale coraz częściej obecnych np. w ubezpieczeniach czy produktach kredytowych powiązanych z oceną ryzyka.
W tym miejscu dane syntetyczne wchodzą do gry jako rozwiązanie pragmatyczne: pozwalają budować i testować modele oraz systemy na zbiorach, w których nie ma rekordów prawdziwych osób, a jedynie statystycznie wiarygodne, sztucznie wygenerowane obserwacje. Innymi słowy: bank może udostępnić syntetyczny zbiór do prac rozwojowych (np. zespołom data science, partnerom technologicznym albo środowisku chmurowemu) bez przekazywania danych klientów.
– Dane syntetyczne kopiują zależności statystyczne wyuczone na danych rzeczywistych, ale nie zawierają danych realnych. Są wygenerowane na podstawie obserwowanych wzorców. Dzięki temu ograniczają ryzyko naruszeń prywatności – dodaje Artur Skalski.
W praktyce ma to dwie konsekwencje. Po pierwsze, skraca się ścieżka formalna: mniej wniosków o dostęp do danych produkcyjnych, mniej ograniczeń w środowiskach testowych. Po drugie, łatwiej o skalę: syntetyki mogą zasilać wiele zespołów jednocześnie bez ryzyka niekontrolowanego „rozmnożenia” wrażliwych danych w organizacji.
Testy, których finansom brakuje najbardziej
Równie ważny powód zainteresowania syntetykami w finansach to chroniczny niedobór danych testowych. Nowe systemy, od scoringu kredytowego, przez silniki decyzyjne, po „agentów AI” wspierających obsługę i sprzedaż, wymagają intensywnego testowania na danych możliwie podobnych do produkcyjnych. Tymczasem dane produkcyjne są często zbyt cenne, by je dotykać: ograniczenia regulacyjne, procedury bezpieczeństwa, silosy organizacyjne, a czasem prozaiczna trudność w szybkim pozyskaniu odpowiedniego wycinka danych.
Syntetyki rozwiązują ten problem w sposób, który jest jednocześnie praktyczny i ekonomiczny: pozwalają wygenerować duże, realistyczne zbiory do testów, bez kopiowania klientów 1:1. To przekłada się na czas i koszt wytwarzania rozwiązań. Jeśli testy są szybsze i lepsze, wdrożenia mogą następować wcześniej, a to w finansach ma wymierną wartość: szybciej pojawiają się przychody i efekty operacyjne.
Jak ocenić, czy syntetyki są wiarygodne
Jeśli syntetyczny zbiór ma być podstawą testów lub trenowania modeli, musi przejść walidację jakości. Najprostsze i najbardziej użyteczne podejście to porównywanie rozkładów statystycznych zmiennych oraz zależności między nimi (oryginał vs syntetyki). Jeśli syntetyki rozjeżdżają się w rozkładach, model będzie uczył się zniekształconego świata, a to najkrótsza droga do błędnych decyzji kredytowych, fałszywych alarmów AML czy nietrafionych ofert.
Warto wspomnieć również o podejściu opartym na dwóch sieciach neuronowych, które można porównać do logiki GAN: jedna sieć generuje dane, druga próbuje odróżnić je od realnych. Jeśli „dyskryminator” nie umie znaleźć różnicy na podstawie statystyk i zależności, rośnie pewność, że syntetyki są wystarczająco realistyczne do zastosowań testowych. Kluczowe jest jednak to, że proces musi być audytowalny. Syntetyki to nie dane bez właściciela. Jeśli organizacja traktuje dane jako zasób (a w finansach coraz częściej tak się dzieje) musi mieć kontrolę nad tym, kto i w jakim celu ich używa, oraz jaki jest zwrot z kosztów generowania i utrzymania syntetycznych zbiorów.
W bankach i instytucjach płatniczych dane syntetyczne wpisują się więc w bardzo konkretny schemat: bezpieczniejsze testy, większa dostępność danych dla zespołów, możliwość korzystania z narzędzi chmurowych bez przenoszenia produkcyjnych rekordów, a w obszarach takich jak fraud – realna poprawa jakości detekcji.
– Jednocześnie jest to technologia wymagająca dojrzałości. Jeśli fundament jest słaby, syntetyki nie zadziałają. Ale tam, gdzie organizacja ma już uporządkowane źródła, metadane i procesy, dane syntetyczne mogą stać się jednym z najszybszych sposobów na pogodzenie dwóch celów, które finansom trudno pogodzić od lat: innowacji i bezpieczeństwa – podkreśla Artur Skalski.