Śmiech Voicebota - Voice Contact Center

Śmiech Voicebota

Kiedy myślimy o bocie, możemy sobie wyobrazić metalowe urządzenie o humanoidalnym kształcie, które wykonuje pracę za nas. Jednak bot to po prostu program komputerowy, najczęściej zestaw programów, czasem nazywany modułami. Programy te są instalowane na serwerze, w chmurze lub w serwerowni i ściśle ze sobą współpracują, tworząc iluzję jednego, spójnego i inteligentnego organizmu, jakim jest rozmówca telefoniczny. Voiceboty są budowane tak aby zachowywać się jak istoty ludzkie, ale ich zadaniem jest pomoc ludziom, a nie całkowite ich zastąpienie.

Słowo “bot”, skrót od “robot” pochodzi od słowiańskiego słowa “robota”, które oznacza ciężką pracę i wysiłek. Właśnie tego możemy się spodziewać po takim bocie: będzie on wykonywał dla nas ciężką pracę. Bot (lub robot) jest najczęściej rozumiany jako system automatyczny, wykonujący powtarzającą się i żmudną pracę. Istnieją dwa rodzaje botów w zakresie automatyzacji obsługi klienta: boty tekstowe lub inaczej mówiąc chatboty, które mają możliwość komunikowania się za pośrednictwem kanału czatów (Messenger, Whatsapp, czat serwisowy na stronie internetowej itp.). Drugi rodzaj to voiceboty, które będą komunikowały się dla nas werbalnie w kanale dźwiękowym, zazwyczaj przez telefon.

W przypadku voicebotów, najważniejsze z tych programów lub modułów są następujące funkcje: rozpoznawanie mowy, interpretacja intencji, dialog, wymiana danych, synteza mowy, interfejs telefoniczny. Krótko opiszę funkcje tych modułów.

Moduł interfejsu telefonicznego pozwala nam na przesłanie strumienia dźwięku telefonicznego płynącego do i z telefonu naszego rozmówcy na nasz serwer, gdzie podlega on dalszej obróbce. W najprostszym przypadku łączy się on z naszą centralką telefoniczną lub z centralką naszego dostawcy. W tym celu wykorzystujemy standardowo używany w tej sytuacji protokół SIP (choć możliwe jest użycie szeregu innych, mniej popularnych protokołów).

Kiedy już mamy w swoich rękach ten strumień dźwiękowy (mówiąc dokładniej jest to po prostu ciąg danych reprezentujący dźwięk płynący przez linię telefoniczną), to możemy go przetworzyć. Wysyłamy go zatem do modułu rozpoznawania mowy, który pozwoli nam zamienić ten dźwięk na zwyczajny tekst wypowiedzi człowieka.

Mając już tekst wypowiedzi, możemy zacząć analizować go i wyciągać z niego zawarte w nim intencje człowieka. Samo słowo “intencja” jest wbrew pozorom często pojawiającym się w branży terminem technicznym. Jest to ogólnie pojęta część znaczeniowa wypowiedzi człowieka. Jedna wypowiedź może zawierać wiele intencji, a zadaniem modułu interpretacji intencji jest należyte wydobycie tych intencji z wypowiedzi człowieka.

Przykładowo człowiek może odpowiedzieć nam na pytanie “oczywiście, świetnie, nie ma problemu” a my chcielibyśmy mieć po prostu informację, że człowiek się zgadza, zamiast tych wszystkich słów. Albo na pytanie o ocenę kontaktu z konsultantem w skali od 1 do 5 rozmówca mówi nam “w sumie to wydaje mi się, że mogę dać najwyżej czwóreczkę” – a nas przecież interesuje to, że a) mamy odpowiedź na dane pytanie i b) możemy zapisać 4. I to są właśnie intencje.

Kiedy już mamy intencje, musimy zdecydować jaka będzie następna wypowiedź bota. Może ona być kolejnym pytaniem do rozmówcy lub odpowiedzią na jego pytanie. Bardzo często jest ona zależna od wypowiedzianych wcześniej intencji. Odpowiednim kierowaniem rozmowy zajmuje się moduł prowadzenia dialogu.

Moduł ten prowadzi często rozmowę nieliniowo, czyli nie każda przeprowadzona rozmowa będzie miała taki sam przebieg. Wypowiedzi bota zależeć będą od informacji podanych przez człowieka, danych pochodzących z systemu klienta i szeregu innych pomniejszych czynników. Moduł dialogu przygotuje wybraną wypowiedź bota, a właściwie jej szablon, który musi zostać jeszcze wypełniony danymi odpowiednimi dla danej rozmowy. Na przykład kiedy potwierdzamy termin wizyty, odczytujemy rozmówcy dane jego wizyty (datę, godzinę, miejsce, nazwisko itp.).

Dane takie jak termin wizyty, dostępne terminy u danego lekarza, status przesyłki czy dowolne inne informacje pobierane są z systemu klienta poprzez moduł wymiany danych. Dobry moduł wymiany danych może współpracować z różnymi programami po stronie klienta. Może pobierać dane z systemu CRM poprzez jego API. Może odczytywać dane z bazy danych. Może też po prostu korzystać z przesłanych plików arkusza kalkulacyjnego. Moduł taki powinien być na tyle elastyczny, aby dostosować się do systemu klienta w każdej sytuacji, a także reagować na problemy w komunikacji z systemami klienta (które niestety czasami się zdarzają).

Dane najczęściej wymieniane są w obie strony – z jednej strony pobieramy od klienta informacje, które chcemy przekazać rozmówcy (np. status przesyłki, kwotę zadłużenia), a z drugiej strony zapisujemy dane pobrane od człowieka (np. cyfrowa ocena pracy konsultanta, deklaracja spłaty zadłużenia w określonym terminie).

Mając sformułowaną wypowiedź bota, możemy ją przetworzyć na dźwięk za pomocą modułu syntezy mowy. Moduł taki pozwala zwykle wybrać nam z szeregu różnych głosów damskich lub męskich, możemy też mieć wpływ na tempo wypowiedzi bota czy też wysokość jego głosu. Niektóre programy syntezy mowy pozwolą nam nawet na użycie takich “ludzkich” dźwięków jak nabieranie oddechu czy śmiech.

Odpowiednio przygotowane wypowiedzi bota w formie dźwięku możemy za pomocą modułu telefonicznego wysłać do rozmówcy i cały cykl zaczyna się od nowa. Chyba, że jest to koniec rozmowy.

Podsumowując, boty głosowe do obsługi klienta pomogą nam przeprowadzić najróżniejsze powtarzalne procesy, odciążając nasz zespół. Ponadto praca voicebotów jest skalowalna w tak zwanym czasie rzeczywistym, co oznacza, że w przypadku nagłych peaków natężenia ruchu, jesteśmy w stanie za pomocą botów zadbać o wszystkich potrzebujących klientów. Tym samym możemy z łatwością zwiększyć retencję, skrócić czas pierwszego kontaktu i czas obsługi, optymalizując w ten sposób koszty call center.

Piotr Kempa

Head of AI Division