Z Piotrem Kempą, twórcą bota konwersacyjnego Primebot, rozmawia Karolina Kania, kierownik projektów w Voice Contact Center.
Karolina Kania: Czym właściwie jest voicebot? Z czego się składa?
Piotr Kempa: Bot to program komputerowy zastępujący człowieka w wybranych czynnościach. Technicznie bot to przede wszystkim elektroniczny “mózg”, który nauczony odpowiednio przez człowieka potrafi prowadzić rozmowę i prawidłowo rozumieć oraz interpretować wypowiedzi rozmówcy, a także odpowiednio kierować dialogiem. Mózg ten nazywamy też czasem silnikiem. Aby ten mózg mógł komunikować się ze światem zewnętrznym musi zostać wyposażony w szereg interfejsów. W przypadku voicebotów telefonicznych mówimy tu o interfejsie do świata telefonii, module rozpoznawania mowy i module syntezy mowy. Nie należy także zapominać o bardzo ważnym interfejsie do systemu klienta, który pozwoli botowi na pobieranie i zapisywanie danych, udzielanie informacji i ogólnie załatwianie procesów biznesowych.
KK: Czyli bot, w zależności od procesu jaki będzie obsługiwał, każdorazowo będzie miał nieco inną postać zbudowaną na tym samym „silniku”. Ten „silnik” w Primebocie to twój autorski program. Czy są na rynku różne rodzaje silników dedykowane do konkretnych procesów?
PK: Silniki można ze względu na sposób uczenia podzielić na dwa rodzaje. Pierwszy, klasyczny i nieco starszy nazywamy “regułowym”. Polega on na tym, że dla takiego bota tworzymy zestaw reguł, które są potem dopasowywane do wypowiedzi człowieka. Na podstawie pasujących reguł bot wyciąga wnioski co do tego co usłyszał. Drugi rodzaj to neuronowy, oparty jak sama nazwa wskazuje o sieci neuronowe i techniki uczenia maszynowego.
W naszym doświadczeniu dobrze sprawdzają się modele hybrydowe – łączące dobre cechy technologii regułowych z neuronowymi. Takie silniki w tej chwili stosujemy w botach dostarczanych przez Voice CC.
KK: Jakie syntezatory mowy są dostępne na polskim rynku i które warto zarekomendować do użycia w przypadku voicebota?
PK: W Polsce korzystamy głównie z trzech dostawców. Dwaj z nich są wiodącymi dostawcami usług przetwarzania danych w chmurze. Trzeci zaś dostarcza rozwiązania on–premise czyli instalowane lokalnie. Warto posiadać w swojej ofercie takie rozwiązania, gdy dla klienta nie wchodzi w grę przetwarzanie danych w chmurze. Wszystkie trzy usługi są jak najbardziej przystosowane do użycia w botach, a PRIMEBOT jest z nimi już zintegrowany. Także naszego bota można, przy zachowaniu pewnych “środków ostrożności” praktycznie w dowolnej chwili przełączyć na inny głos lub inną usługę syntezy mowy. Dodatkowo od jakiegoś czasu usługi syntezy mowy wyróżniają modele klasyczne i neuralne. Te drugie oparte są o najnowsze postępy w technologiach sieci neuronowych. W języku polskim obecnie jedynie jeden, chyba największy dostawca udostępnia zarówno głosy klasyczne jak i neuralne (zwane tam WaveNet). Z tego co wiemy również pozostali dostawcy pracują nad nowymi modelami neuralnymi głosów w języku polskim. Głosy neuralne brzmią zwykle bardziej naturalnie zapewniając po prostu lepszą jakość syntezy. Najczęściej są przez to nieco droższe.
KK: Jak wspomniałeś można też skorzystać z nagrań lektora, ale czy to się opłaca i jest efektywne?
PK: Lektora oczywiście możemy użyć i w niektórych przypadkach jest to bardzo dobre rozwiązanie. Czy jest opłacalne to zależy od wielu czynników, z których jednym z ważniejszych będzie to ile takiemu lektorowi zapłacimy. W przypadku nagrań lektorskich należy pamiętać, że wypowiedzi zmienne mogą stanowić problem. Jeśli mamy odczytać liczbę, czy nawet ciąg cyfr i liter (np. numer rejestracyjny) to synteza w takim wypadku zabrzmi często po prostu płynniej. Dodatkowo pewnych informacji po prostu nie odczytamy lektorem, danych, które są unikatowe do danego przypadku czy klienta, jak np. adres email czy imię i nazwisko.
KK: Piotr jakie jeszcze elementy budują bota?
PK: Z wyjątkiem wyżej wymienionych podstaw bota należy zwrócić uwagę na to, iż platforma botowa powinna dostarczać szereg innych elementów niezbędnych do pracy. Wymieniając pokrótce: 1. Interfejs raportowy, pokazujący nam zapisy rozmów, billingi, analizę statystyczną i tak dalej. 2. Dialer obsługujący kampanie wychodzące. 3. Interfejs do systemu klienta obsługujący zapis i odczyt danych w różnych formatach i standardach. 4. W niektórych przypadkach przydaje się także graficzny interfejs do tworzenia bota, który pozwala klientowi samodzielnie tworzyć boty.