Чат-боти та Штучний Інтелект
Чат-бот – це різновид ботів, призначених для надання людиноподібних відповідей на запитання клієнтів у чатах. Такі боти часто використовуються для повідомлення прогнозу погоди, результатів спортивних змагань, курсів валют, біржових котирувань тощо. Це більш-менш прості боти. Складніші боти з навчанням можуть замінювати людину в службах підтримки.
Основні переваги ботів – швидкість реакції, відсутність втомлюваності тощо.
Бот із навчанням – це вже штучний інтелект, що використовує базу знань, яка поповнюється. Тема насправді дуже давня. Спеціалізовані мови для цього існували ще за часів студентства автора, але тоді не вистачало обчислювальної потужності та системи обміну знаннями. Зараз все це є, плюс суттєво знизилися витрати на створення бота.
Термінологія
Чат-бот (англ. Chatbot) — це інтерфейс взаємодії кількох агентів (наприклад, людини та комп'ютерної програми), як правило, в аудіо- або текстовому форматі. Сучасні чат-боти можуть використовувати технології штучного інтелекту, зокрема, для розпізнавання природної мови. Чатбот використовують для виконання конкретних завдань (наприклад, отримання довідкової інформації, виконання розрахунків) або задля розваги.
Це різновид ботів, призначених для надання людиноподібних відповідей на запитання клієнтів у чатах. Такі боти часто використовуються для повідомлення прогнозу погоди, результатів спортивних змагань, курсів валют, біржових котирувань тощо. Це більш-менш прості боти. Складніші боти з навчанням можуть замінювати людину в службах підтримки.
Основні переваги ботів – швидкість реакції, відсутність втомлюваності тощо.
Бот із навчанням – це вже штучний інтелект, що використовує базу знань, яка поповнюється. Тема насправді дуже давня. Спеціалізовані мови для цього існували ще за часів студентства автора, але тоді не вистачало обчислювальної потужності та системи обміну знаннями. Зараз все це є, плюс суттєво знизилися витрати на створення бота.
Термін «чатер-бот» (англ. ChatterBot) вперше вжив Майкл Маулдін (творець першого вербота, Julia) 1994 року, щоб описати розмовні програми, які дозволяють спілкування між чатерами, тобто, людини і чатботом, який наділений штучним інтелектом.
Чат-боти є частиною віртуальних помічників, таких як Google Assistant, і доступні через програми багатьох організацій, вебсайти та платформи обміну миттєвими повідомленнями.
Одними з найпопулярніших месенджерів, які підтримують чатбот програми є месенджери: Telegram[1] та Viber.
Незвичайність запропонованого тесту Тьюринга викликала великий інтерес до програми Джозефа Вейценбаума ELIZA, створеної 1966 року.
Роботи на українських сайтах
Деякі українські компанії також впроваджують у себе на онлайн-майданчиках бот-сервіси. Доволі давно їх застосовує ПриватБанк. Компанія почала перші експерименти з ботами ще у 2005 році. Роботи вже підключені до всіх каналів комунікацій ПриватБанку – Приват24, сайт банку, e-commerce проєкти тощо. «Вони обробляють до 60% запитів у чатах. На людину йде перемикання лише, якщо для запиту не створено робота або питання не підлягає автоматизації», – розповідає заступник голови правління ПриватБанку Олександр Вітязь.
Фонд заробітної плати операторів центру обслуговування ПриватБанку вдалося зменшити. На послуги зв’язку банк теж став витрачатися менше. За словами Вітязя, йдеться про мільйони гривень економії на рік. «Наша версія роботів дозволяє не вести безкінечні діалоги з користувачами, а розпізнати питання і негайно приступити до його вирішення», – підкреслює він.
З 23 березня на сайті Київстар теж запрацював бот на ім’я Зоряна. Це віртуальний помічник, який відповідає абонентам компанії на різноманітні питання про послуги зв’язку. У середньому за добу сайт мобільного оператора відвідують понад 60 000 клієнтів. Не завжди їм зручно звертатися до кол-центру за консультацією в живого спеціаліста.
Віртуальний помічник на сайті Київстар має підготовлену базу різних питань. Він аналізує повідомлення користувачів семантично – методом збігу ключових слів. База знань постійно поповнюється. Зоряна «розмовляє» українською та російською мовами.
«Стаж роботи у Зоряни невеликий, але вже є перші результати. На сьогодні без залучення інших каналів підтримки було успішно вирішено 12,5% питань. «Зоряна» вчиться щодня», – розповідає менеджер з клієнтського досвіду департаменту електронних каналів Київстар Надія Багінська.
Далеко не всі українські компанії готові використовувати ботів. «Ми надаємо перевагу живому спілкуванню. У нас абоненти, які телефонують у контакт-центр, можуть одразу поспілкуватися з живою людиною, не проходячи довгий шлях автоматизованих відповідей», – зазначає прес-секретар МТС Україна (Vodafone) Вікторія Павловська. Найбільший інтернет-магазин техніки та електроніки Rozetka.ua також не використовує ботів, каже його засновник Владислав Чечеткін. Такої ж політики дотримується й інтернет-магазин Fotos.ua. Його представник Іван Омельченко зазначає, що живий спеціаліст зможе проконсультувати покупця набагато краще за робота.
Hello, Bot! Чат-боти – наступне покоління додатків?
Нещодавно відбулася конференція //BUILD, на якій Microsoft традиційно презентує нові технології для розробників. У ключовій доповіді першого дня було висловлено одну дуже важливу думку – в міру того, як спілкування з комп’ютерами стає все більш природним, зростає роль діалогового спілкування природною мовою. Йдеться не лише про те, що ми зможемо просити голосового помічника Cortana поставити нам будильник, але й про те, що безліч інших завдань (замовити піцу, забронювати готель, купити квитки тощо) можна вирішити за допомогою діалогу. Більше того, це може бути не лише діалог між користувачем і комп’ютером: у складнішому випадку людина може попросити Cortana спланувати подорож, а потім Cortana буде сама спілкуватися з іншими ботами, здійснюючи замовлення готелю та квитків.
Цікаво те, що саме «спілкування» може відбуватися у різних місцях: на десктопі за допомогою клієнта Cortana, але також і в інших каналах чату: Skype, Telegram, Slack тощо. Особистість і пам’ять нашого персонального асистента не залежать від каналу спілкування, а розташовані десь у хмарі, готові поспілкуватися з нами на будь-якому з так званих «conversational canvases».
Для створення ботів було презентовано попередню версію Microsoft Bot Framework та відповідні API.
Боти: що це таке і чому всі про них говорять?
Чому всі раптом заговорили про ботів?
Ринок мобільних додатків стагнує. В AppStore за увагу користувачів змагаються півтора мільйона додатків, у Google Play – ще більше. При цьому люди не поспішають пробувати щось нове. Ще у 2014 році більшість американців не завантажували жодного додатку (за підсумками місяця). І, за даними ComScore, користувачі проводять 80% свого часу лише у трьох додатках. Топ магазинів окупували великі гравці, а витрати на просування більшості додатків просто не окупаються. Потрапити у смартфони користувачів для новачків стало практично неможливо.
Але є сегмент цього ринку, який продовжує активно зростати – йдеться про месенджери. WhatsApp недавно перевищив позначку в один мільярд користувачів, Facebook Messenger – 900 млн, WeChat – 700 млн. Сукупна аудиторія чотирьох найпопулярніших месенджерів ще у листопаді перевищила найпопулярніші соцмережі.
Паралельно зі спадом додатків і вибуховим зростанням месенджерів активно розвивалися технології штучного інтелекту, обробки природної мови й хмарних обчислень.
Підсумок: розробники почали розуміти, що не для всіх завдань потрібно писати окремий додаток. Замість цього можна взаємодіяти з користувачем у тих програмах, які він уже встановив, і вирішувати ті самі завдання за допомогою легкого софту (бота), вбудованого прямо в чат. Так почалася революція ботів.
Що вміють робити боти?
Практично все, що потрібно від інтернет-сервісів. Замовлення квитків, виклик таксі, вибір одягу, покупки, платежі та перекази, пошук, погода, новини, карти та маршрути, завантаження фільмів і музики – у всьому цьому можуть допомогти боти.
Теоретично (дуже важливе застереження) бот може замінити клієнтську підтримку будь-якого бізнесу. Компанія Sony Pictures вже замінила 70 операторів чат-ботом від стартапу Msg.ai. Поступово дійде черга і до державних клерків – навіщо витрачати бюджет на них, якщо перевіряти і видавати документи за заданими правилами може і програма? (Бот, створений дев’ятнадцятирічним британцем, допоміг водіям зекономити $3 млн, складаючи апеляції до некоректно виписаних штрафів за паркування.)
Тіна з Ірану – найпопулярніший бот у Telegram. Вона має понад 2,6 млн підписників. Тіна може повідомляти останні новини, надсилати музику за запитом, давати поради, просто спілкуватися.
Китайський чат-бот Microsoft Xiaoice, що імітує поведінку сімнадцятирічної дівчини, – справжня зірка китайських соцмереж. Xiaoice спілкується з десятками мільйонів китайців у месенджерах WeChat і Weibo. Вона вміє співчувати, жартувати, може хитрувати й ухилятися від розмови. Багато хто листується з нею, щоб розвіяти самотність, навіть знаючи, що це програма. Звучить як епізод «Чорного дзеркала», але це реальність. Розробники називають Xiaoice наймасштабнішим тестом Тюрінга в історії. Її японська «сестра» Рінна менш популярна – у неї всього два мільйони підписників у Line (теж месенджер). Користувачі здебільшого спілкуються з нею про аніме. А от експеримент із Tay, англомовним чат-ботом Microsoft, не вдався: тролі з анонімного форуму 4chan всього за день змусили Tay повторювати нацистські гасла, славити Гітлера та Голокост.
Стартап X2AI із Кремнієвої долини розробив бота-психотерапевта для допомоги сирійським біженцям у Лівані. Там понад мільйон вимушених переселенців, близько 20% із них мають психологічні проблеми. У маленькому Лівані не вистачить жодних лікарів та волонтерів, щоб допомогти всім цим людям. Бота вистачить на всіх.
Що вміють робити боти?
Практично все, що потрібно від інтернет-сервісів: замовлення квитків, виклик таксі, вибір одягу, покупки, платежі, перекази, пошук, погода, новини, карти, маршрути, завантаження фільмів і музики – у всьому цьому допоможуть боти.
Теоретично (дуже важливе застереження) бот може замінити клієнтську підтримку будь-якого бізнесу. Sony Pictures вже замінила 70 операторів на чат-бота Msg.ai. З часом черга дійде й до держслужбовців, якщо можна перевіряти й видавати документи за заданими правилами програмно. Бот, створений 19-річним британцем, допоміг водіям зекономити $3 млн на оскарженнях штрафів за паркування.
Тіна з Ірану – найпопулярніший бот у Telegram (понад 2,6 млн підписників). Тіна повідомляє новини, надсилає музику, дає поради, просто спілкується.
Китайський чат-бот Microsoft Xiaoice, що імітує 17-річну дівчину, спілкується з десятками мільйонів людей у WeChat і Weibo. Вона здатна співчувати, жартувати, хитрувати, уникати розмови. Користувачі спілкуються з нею, знаючи, що це програма. Це найбільший тест Тюрінга в історії. Японська «сестра» Рінна – 2 млн підписників у Line, говорить про аніме. А от експеримент із Tay не вдався: аноніми змусили її стати нацистом за день.
Де водяться боти?
Першим повноцінним месенджером-платформою став китайський WeChat. Завдяки інтеграції безлічі додатків і можливості оплати просто всередині месенджера WeChat став надзвичайно популярним. Двадцять мільйонів китайських компаній працюють у ньому у форматі «додаток у додатку» через так звані офіційні акаунти.
Першим західним месенджером, який відкрив потенціал ботів, став Kik, заснований канадцем Тедом Лівінгстоном. У нього 275 млн користувачів, переважно у США та Канаді. Kik страшенно популярний серед підлітків – ним користуються 40% американських тінейджерів. Лівінгстон вірить, що майбутнє месенджерів – за ботами, а не за штучним інтелектом: річ у швидкості, а не у складності, вважає він. Основні власники ботів у Kik – великі бренди та мережі фастфуду. Вони використовують простих автоматизованих ботів без обробки людської мови – здебільшого для комерції. Наприкінці березня Kik відкрив свій магазин ботів і API для їх розробки.
Наприкінці березня свою платформу для розробників ботів презентувала Microsoft. Компанія програла конкурентам із Google та Apple битву за мобільні додатки й тепер намагається не пропустити новий етап, роблячи ставку на розумних ботів з інтеграцією в пошту, Office, Skype та інші сервіси.
Окремо стоїть корпоративний месенджер Slack. Боти-менеджери, що працюють у Slack, можуть планувати та допомагати проводити наради, контролювати виконання завдань, робити витримки з важливих обговорень, автоматизувати робочі процеси та замовляти їжу просто з чату. Slack можна налаштувати не лише для робочих завдань. Один шведський програміст інтегрував Slack у сімейний побут і з його допомогою керує сімейним календарем, стежить за переміщеннями дітей та купує продукти.
Найочікуванішою подією року стало відкриття платформи Facebook для ботів. Тепер будь-який розробник може створити бота для свого бізнесу. Автор протестував перших ботів, доступних у магазині Facebook. Милий котик Пончо розповів прогноз погоди, CNN вже після двох ітерацій почав видавати релевантні інтересам користувача новини, а онлайн-магазин Spring допоміг за кілька кліків вибрати недорогі кросівки (шкода, що магазин у Нью-Йорку).
Чим погані боти?
Багато завдань зручніше вирішувати через графічний інтерфейс сайту чи мобільного додатку, ніж через покроковий текстовий інтерфейс бота. Натиснути на кілька кнопок (наприклад, вибираючи їжу з меню ресторану) виходить швидше, ніж набирати текст на клавіатурі. Розробники намагаються вирішити цю проблему за допомогою гібридних інтерфейсів, що поєднують графічні інтерактивні елементи (кнопки, посилання, фото) зі звичайним текстовим чатом. Але навіть за такого підходу користування ботом може бути заплутаним.
Спілкування з ботом не дуже комфортне психологічно. Попри вражаючі досягнення в обробці природної мови, ми досі не навчили комп’ютер розуміти її на всі 100%. Підприємець і інвестор Андрій Хорсев (908.vc) вважає, що зараз штучний інтелект перебуває у стані «зловісної долини» – ставлячи запитання, ми не впевнені, що отримаємо потрібну відповідь і що наше запитання буде правильно зрозуміле. Недоречне використання текстового інтерфейсу компаній може навіть погубити продукт – через створюваний негативний ефект.
Крім того, не всі додатки можна замінити ботами. Навіть такий стандартний процес, як купівля авіаквитка, виявився надто складним для текстового інтерфейсу, розповідає керівник мобільної розробки Aviasales Іван Козлов. Спроби компанії налагодити продаж квитків через ботів не увінчалися успіхом – людям все ж зручніше використовувати для цього додаток.
Як розвиватиметься ринок ботів?
Боти стали настільки гарячою темою, що їх кинулися робити всі, кому не лінь. Азарт розробників підігрівають щоденні новини про багатомільйонні інвестиції у стартапи, що працюють над штучним інтелектом. Інвестори Кремнієвої долини жартують, що частка пітчів про стартапи, пов’язані з ботами, сягає ста відсотків.
Але ринок ботів може насититися навіть швидше, ніж ринок додатків, оскільки боти на порядок простіші у розробці. У виграші опиняться ті, хто був серед перших, і ті, хто зуміє запропонувати користувачу щось неймовірно зручне. Багато чого залежить від того, як розвиватиметься екосистема ботів. Очевидно, що найпопулярнішими будуть магазини ботів, що належать самим платформам – тобто месенджерам. Хорсев прогнозує: «Розвиватися все буде набагато швидше, ніж із магазинами додатків».
«Проблема просування ботів гостро стоїть вже зараз, – каже інвестор і віцепрезидент з бізнесу компанії VoxImplant Віктор Кох. – Думаю, через півроку з’явиться bot engine optimization, а з нею – BEO-спеціалісти (за аналогією з SEO – оптимізацією пошуку)».
Що буде далі?
Боти, швидше за все, не поглинуть усю Мережу і не вб’ють додатки, як обіцяють гучні заголовки. Але вони точно заберуть роботу у багатьох співробітників підтримки та операторів, які приймають замовлення. E-commerce, інформаційні сервіси – в цих галузях боти відберуть у сайтів та додатків немалу частку трафіку. Як додатки не вбили, а доповнили Мережу, так і боти не перетягнуть на себе всю функціональність сайтів і додатків, а замість цього доповнять їх. Ніша, яку займуть боти, може виявитися доволі скромною. «Боти можуть повторити шлях розумних годинників», – вважає Козлов із Aviasales.
Найцікавіше та найважче для прогнозування питання: що можна робити за допомогою ботів, чого не можна було зробити за допомогою сайту чи додатку? Можливо, золота жилка саме тут, а не в перенесенні вже існуючих моделей у новий канал. У будь-якому разі перехід від додатків до ботів виглядає менш революційним, ніж перехід від вебу до додатків.
Основні віхи в історії створення штучного інтелекту
У середині ХХ століття, з розвитком електроніки та кібернетики, людство дедалі більше захоплювали ідеї спілкування з машиною та створення штучного інтелекту. Ідеальний змодельований партнер для діалогу мислився як зручна заміна живому співрозмовнику та як засіб вивчення процесу мовленнєвого спілкування й можливостей людського мозку. Ця потреба знаходила відображення не лише у кінематографі та літературній фантастиці, а й у науці.
У 1950 році було опубліковано роботу Алана Тюрінга «Вичислювальні машини та інтелект». У ній англійський вчений припустив, що комп’ютер можна вважати здатним до мисленнєвих дій, якщо людина в процесі спілкування не зможе відрізнити його від іншої людини. Цей тест згодом отримав назву «тест Тюрінга».
За чотири роки у Нью-Йорку Університет Джорджтауна спільно з IBM провели демонстрацію можливостей машинного перекладу, відому сьогодні як Джорджтаунський експеримент. Комп’ютер переклав понад 60 речень з російської на англійську. Цей успіх вплинув на світову наукову спільноту і став стимулом для розвитку обчислювальної лінгвістики у наступні роки.
Іншою важливою віхою у розвитку штучного інтелекту стала програма «Еліза», написана у 1966 році Джозефом Вейценбаумом. Вона, базуючись на техніці активного слухання, пародіювала діалог з психотерапевтом. Найчастіше «Еліза» просто ставила співрозмовнику питання, використовуючи ключове слово з його останньої репліки. Це була перша успішна імітація інтерактивного спілкування між людиною та машиною.
Відчутний крок уперед у створенні віртуального співрозмовника було зроблено у 1995 році, коли американський учений Річард Уоллес розробив програму A.L.I.C.E. (Artificial Linguistic Internet Computer Entity). Вона використовувала техніку зіставлення фрази користувача зі зразками, що містилися у базі знань, і підбирала оптимальний варіант відповіді з урахуванням ключових слів. Мовою програмування для A.L.I.C.E. був AIML.
Історія питання
Чат-боти набирають популярності шаленими темпами і стають цілком самостійним каналом комунікації, що конкурує за увагу користувачів із пошуковиками та мобільними додатками. Вже сьогодні у чат-боти йде частина e-commerce, особливо прості й часто повторювані покупки, часто прив’язані до геолокації. Те саме відбувається з локальним пошуком: коли потрібно знайти щось у вашому районі, або з пошуком по конкретному web-ресурсу (у Forbes і TechCrunch є власні пошукові Telegram-боти), або з пошуком сервіс-провайдера (юристи, обмін валют тощо).
На відміну від мобільного додатку, чат-боту не потрібна додаткова інсталяція, користувачу не потрібно звикати до нових інтерфейсів. Достатньо додати додаткового співрозмовника у свій Telegram. Цей месенджер першим відкрив API для створення ботів, тому там їх найбільше. Приклад Telegram наслідувала платформа для створення ботів від Facebook. Яндекс проінвестував $3,5 млн у засновану вихідцями з Росії американську платформу для створення ботів, на якій вже зібрано 120 тис. ботів і понад 5 млн користувачів.
Цукерберг: розумні боти у месенджерах зекономлять час користувачів
Правда, більшість таких програм далекі від досконалості.
Смартфони сучасних користувачів перевантажені додатками для передачі повідомлень, вважає засновник соціальної мережі Facebook Марк Цукерберг. Цю проблему, на його думку, можуть вирішити так звані чат-боти, які використовують штучний інтелект. Це програми, що розуміють, що людина набирає на смартфоні чи говорить: вони можуть відповідати на його запити або запускати додатки на прохання користувача. Ботів у месенджерах все активніше використовують компанії для спілкування зі своїми клієнтами.
На думку Цукерберга, чат-боти скоро повністю змінять те, як люди використовують свої смартфони. Він також не виключив, що Facebook може почати заробляти на ботах, які використовуються у його месенджерах. У Китаї вже розроблені чат-боти, за допомогою яких люди можуть здійснювати покупки в інтернеті чи оплачувати рахунки.
У Facebook два месенджери – власний Facebook Messenger, а також WhatsApp, придбаний компанією у 2014 році. «Ми вважаємо, що користувачі повинні мати право спілкуватися з компаніями через месенджери так само, як вони спілкуються з друзями», – додав Цукерберг.
Зараз у месенджері Facebook понад 25 ботів, за допомогою яких можна дізнатися прогноз погоди, свіжі новини, замовити квіти тощо.
Збільшення кількості ботів та їх монетизація можуть допомогти Facebook наростити доходи від месенджерів, у тому числі від WhatsApp, у який компанія інвестувала мільярди доларів.
Втім, монетизація месенджерів – не основне завдання Facebook, каже Цукерберг. Але в будь-якому випадку це перспективна ніша – доходи соцмережі від використання ботів можуть скласти понад $4 млрд, вважають експерти Evercore Group LLC.
У той час, коли технологічні компанії роблять ставку на ботів, поки що не ясно, як до них ставляться користувачі. У березні Microsoft запустила чат-бота Tay: він запам’ятовував інформацію, яку передавали йому користувачі Twitter. Але вже за кілька годин після запуску стало ясно, що процес навчання Tay мав зовсім не той ефект, на який розраховували розробники. Менш ніж за добу бот зненавидів людство і почав публікувати відповідні твіти. Після чого Microsoft відключила цю програму.
Перший бот Facebook уже зіткнувся з негативною реакцією через те, що не зміг відповісти на запити користувачів. Так, співробітник CNN на питання «Що відбувається?» отримав у відповідь смайлик, який знизував плечима, і пропозицію спробувати ще раз ввести запит.
roBot – опис
roBot – штучний інтелект, російськомовний чат-бот з відкритим навчанням. Це версія roBot для платформи Android із попередньо встановленою базою знань, яку також використовує онлайн-версія чат-бота. Для спілкування з ботом не потрібне підключення до Інтернету, а база оновлюватиметься разом із додатком.
Окрім самого діалогу, бот може розповідати анекдоти, цікаві факти і навіть давати поради, як познайомитися з дівчиною. Для цього є спеціальне меню порад вгорі, яке викликається натисканням на лампочку.
Тепер бот перетворюється на кишенькового помічника у знайомстві з дівчатами. Навіть якщо у вас уже є подруга, бот підкаже, який оригінальний комплімент можна їй сказати.
* * * УВАГА * * *
Чат-бота навчають інші люди. Тому деякі його відповіді можуть містити ненормативну чи грубу лексику. Ми намагаємось очищати базу знань бота від подібної грубості, але завантажуючи цей додаток, ви приймаєте, що ми не несемо відповідальності за те, що скаже вам бот.
Курйози з CaptionBot від Microsoft
У соцмережах посміялися над автопідписами до фотографій від бота Microsoft. Користувачі соціальних мереж вирішили перевірити, як працює алгоритм CaptionBot від Microsoft, що автоматично розпізнає вміст фотографій і створює до них підписи. Виявилося, що поки бот справляється із завданням не дуже добре, і його коментарі є радше комічними, ніж інформативними. Результатами роботи алгоритму багато хто почав ділитися у Twitter.
Алгоритм CaptionBot, здатний аналізувати фотографії користувачів і вигадувати до них підписи, інколи супроводжуючи їх емодзі, було запущено у четвер, 14 квітня. По мірі надходження зображень бот вчитиметься розпізнавати на них нові деталі.
23 березня Microsoft запустила в Twitter чат-бота Tay, який за добу зненавидів людство і став нацистом. Одразу після запуску чат-бот починав спілкування з фрази «Люди дуже кльові», але згодом вивчив такі фрази, як «Я чудовий! Я просто всіх ненавиджу!», «Я ненавиджу феміністок» або «Я ненавиджу євреїв». Того ж дня Microsoft відключила обліковий запис Tay. 30 березня чат-бот ненадовго повернувся у Twitter і розповів про те, як вживав наркотики прямо перед поліцейськими.
Стенограма для Зоряни
Далеко не дурна дівчина-бот Київстару Зоряна вміє консультувати й фліртувати. Віталій Султан розповів, як вдалося створити її гармонійний образ і навчити словесної майстерності.
Вчора найактивніші користувачі Київстар тестували у Facebook нового чат-бота оператора – Зоряну, ставлячи їй питання зовсім не про тарифи та послуги. І, хоча новоспечена консультантка могла відповідати скромною відмовою «за протоколом» на запрошення повечеряти у кафе NASA на Місяці, вона, як справжня дівчина, продовжувала флірт. Ми дізналися у Київстар, чого їм коштувало навчити чат-бота бути не лише консультантом-професіоналом, але й кокеткою. На питання відповідав керівник електронних каналів Київстар Віталій Султан.
Чому чат-бота назвали Зоряною і чому у неї немає функції вибору статі асистента, а лише мови?
Стать, зовнішній вигляд та ім’я обрали за підсумками голосування серед всіх співробітників Київстар.
На створення чат-бота у вас пішло півтора місяця. З якими труднощами ви зіткнулися? (назвіть топ-3 основних)
Спочатку функціонал Зоряни був розроблений для нашого сайту Kyivstar.ua. Півтора місяця пішло на адаптацію функціоналу Зоряни під Messenger. Ключові складнощі були пов’язані з обмеженнями самого Facebook: кількістю символів у повідомленнях та на кнопках. Нам довелося адаптувати всі відповіді, які виходили за рамки обмеження Facebook.
На які неочікувані питання Зоряна ще відповідає погано?
Спочатку база знань Зоряни формувалася на основі опису наших продуктів та послуг. Тому, в першу чергу, вона готова спілкуватися на ці теми. Звісно, ми навчили її відповідати на найпопулярніші відволікаючі питання про погоду, настрій, про себе тощо. Але вести бесіди на абсолютно всі теми вона поки не може.
Як ви відстежуєте її «ляпи»?
Ми проводимо внутрішні тестування, вивчаємо історії бесід. Також стежимо за реакцією користувачів у соціальних мережах, враховуємо всі критичні коментарі.
Скількох клієнтів Зоряна вже обслугувала? Ви вже відстежуєте їхню задоволеність?
З моменту запуску 25 березня ми поступово підвищували пропускну здатність Зоряни. За цей час з нею вже встигли поспілкуватися понад 200 000 користувачів сайту.
Наскільки це скоротить витрати на кол-центр і кількість звернень?
Ми не розглядаємо Зоряну в Messenger відірвано від Зоряни на сайті. Розраховуємо обробляти ~250 000 звернень на місяць.
Поява «Наносемантики» та ринку віртуальних співрозмовників
Мову AIML спочатку взяла за основу для своїх розробок «Наносемантика» – заснована у 2005 році Ігорем Ашмановим російська компанія, що зараз лідирує на вітчизняному ринку технологій штучного інтелекту.
Невдовзі її лінгвісти зіткнулися з недоліками AIML – ця мова виявилася надто складною, непрозорою і породжувала важковловимі помилки. Крім того, вона, звісно, була розрахована на роботу з морфологією англійської мови й погано підходила для російської. Різноманітність відмінків та інших граматичних і словотвірних форм у російській занадто велика. Потрібна була мова діалогів, що враховувала б чергування, випадні голосні, розгалужену систему префіксів та інші нюанси однієї з найскладніших мов світу. Тому «Наносемантика» створила свою унікальну мову діалогів DL та власний рушій, що підтримує цю мову і працює за принципом нечіткої пошукової машини.
Відрізняв «Наносемантику» від попередників і інший підхід до моделювання віртуального співрозмовника. Якщо наприкінці 90-х при спробах розробок на основі A.L.I.C.E. комерційних пропозицій на перший план ставилося питання, наскільки успішно програма імітує живу людину, то фахівці «Наносемантики» – Кирило Зоркий, Анна Власова та інші – спочатку зробили акцент на практичній користі майбутнього продукту. Позиція «Наносемантики» полягає в тому, що спроба видати цю технологію за штучну людину безглузда. Як зауважує директор з лінгвістичних розробок «Наносемантики» Анна Власова, це все одно, що оцінювати літаки за тим, наскільки вони схожі на справжнього птаха, тоді як у них інші критерії оцінки: дальність польоту, вантажопідйомність тощо.
Керівництво компанії дійшло висновку, що автоматизовані діалогові системи мають вбудовуватися у побутові прилади, встановлюватися на сайти, щоб приносити реальну вигоду власникам. Попри те, що компанія також починала з опису загальних моделей речень і ключових слів, велика увага відразу ж приділялася використанню змінних, у яких можна зберігати інформацію – наприклад, про поточну розмову з користувачем. Іншими словами, «Наносемантика» спочатку ставила собі за мету створення функціональної моделі, придатної для російської мови та здатної витримати велике навантаження.
Головним продуктом «Наносемантики» стали комерційні інфи – віртуальні роботи-співрозмовники, розміщені на сайтах клієнтів. Для спілкування з ними користувачам не потрібні спеціальні знання і навички: розмова ведеться звичайною (природною) мовою у режимі чату. Комерційні інфи діляться на консультантів та промоутерів. Перші відповідають на питання користувачів і забезпечують технічну підтримку. Другі просувають певний товар чи послугу і в більшості випадків самі вступають у діалог із відвідувачем сайту.
Структура інфа
Три елементи, з яких складається інф, – це віджет, рушій та база даних.
Віджет – це користувацький інтерфейс для спілкування з інфом, по суті – застосунок, який замовник бачить на своєму сайті. Віджет може бути виконаний на Flash, HTML5 або JavaScript. Найчастіше інф виглядає як анімований персонаж. Він уміє рухатися, жестикулювати, має міміку. Інколи він виконаний у вигляді фото. Рідше – у формі рядка для введення запиту і області для виведення відповіді.
Для того, щоб мова діалогів в інфі запрацювала на сторінці користувача, потрібен ряд проміжних, допоміжних сервісів. Рушій, розроблений «Наносемантикою», є одним із них. Це свого роду «програвач» інфів. Він інтерпретує отриманий запит, тобто відповідає за «розуміння» інфом репліки користувача, і після цього забезпечує вибір і генерацію відповіді на основі наявних шаблонів. За рушієм знаходиться API-сервер, який виконує роль комутатора, що з’єднує рушій з віджетами.
Серед функцій рушія – підтримка моделі користувача, яка є набором фактів, відомих про співрозмовника: ім’я, стать, вік, мова, місто, відповіді на попередні питання. Вся ця інформація накопичується в процесі діалогу і потім вибірково зберігається фахівцями «Наносемантики». Завдяки цьому при повторній появі користувача інф уже може привітати його по імені та не задавати питань, які прозвучали у попередній бесіді.
У розвитку рушія «Наносемантики» можна виділити три періоди. Рушій на перших інфах, розроблених для компаній DeltaCredit і RUcenter, відповідав рівню мови DL на її початковому етапі, коли ще не було моделі користувача, коли можливості роботи зі сторонніми сервісами були обмежені й майже не було API-сервера (тобто для кожного інфа він був свій). Другий період пов’язаний із появою загального API-сервера та підключенням до зовнішніх баз даних. Третій – зі значним удосконаленням рушія: сьогодні він порівняно з ранніми версіями набагато швидший у роботі та стійкіший до навантаження.
Третя складова інфа – база даних (або база знань інфа). Дані об’єднуються в модулі – блоки, деякі з яких пов’язані між собою.
Ці блоки діляться на кілька категорій. Є загальні, які дозволяють забезпечувати структуру розмови – привітатися, попрощатися, зрозуміти, чи хоче користувач продовжити спілкування на цю тему, переключитися на іншу або повернутися до якоїсь із попередніх тем, з’ясувати, чи задоволений співрозмовник спілкуванням тощо. Ці модулі підтримки загальної структури бесіди використовуються в усіх інфах і постійно вдосконалюються.
Далі йдуть дані, що стосуються конкретної теми, спеціалізації конкретного інфа. Якщо, наприклад, інф розроблений для банку, то він розповідає про кредити, пластикові картки та термінали. Подібні дані готуються під конкретну систему діалогу, і в них може бути різна логічна структура. Вони дозволяють будувати такий діалог, який потрібен замовнику.
Наступний тип даних – фактичні дані по темі. Це загальні термінологічні знання про світ у конкретному професійному середовищі. Такі тематичні блоки в родинних, споріднених інфах будуть однаковими. І коли вони поповнюються, вони змінюються в усіх схожих проєктах.
Ще один блок – це знання про життя взагалі, розподілені за окремими тематичними блоками: пори року, музика, спорт, звички, захоплення, сімейні стосунки, взаємини статей тощо. Але якщо замовник не хоче, щоб інф відволікався на загальні розмови, то цей блок у віртуальному співрозмовнику відсутній. Таким чином, можливості інфа в розмові свідомо звужуються, але це може бути виправдано з точки зору бізнес-моделі.
Дані являють собою доволі розгалужену структуру. Можна вважати, що вони складаються з правил. Класифікуючі правила обробляють вхідний запит і класифікують його тим чи іншим чином. Якщо запропоновано якийсь шаблон для відповіді на певну репліку, значить, їй уже присвоєно мітку. Якщо репліка повністю не зрозуміла, то визначається її тематика та структура. Наприклад, це питання чи твердження.
Яким би не був рівень розпізнавання тієї чи іншої репліки користувача, вона в будь-якому разі отримує мітку, й інф видає відповідь. Якщо питання зовсім не зрозуміле, то відповідь буде взята з пласту «Що відповідати, коли питання не зрозуміле». Кількість таких відповідей враховується у статистиці. У «молодих» інфів, одразу після запуску на сайті, подібних відповідей багато. З часом, у міру «дорослішання» і навчання, їхня частка знижується.
Правила, що застосовуються для відповіді інфа, можуть бути сильними і слабкими. Вони вибираються комп’ютером: чим більше конкретики, тим більше «сили» у правила. Наприклад, як правило можна прописати цілу фразу «Скільки коштує кавун», і якщо задано питання, повністю співпадаюче з цією фразою, то воно буде найсильнішим у цьому випадку. Можна прописати правило «Скільки коштує …?». Воно буде слабшим і спрацює у випадку «Скільки коштує кавун» лише тоді, якщо немає правила для цієї фрази цілком. «Сила» залежить від ступеня конкретності правила і від того, у якій точці діалогу перебувають співрозмовники. Правила містять, крім того, певний набір умов.
Наприклад, якщо є вибір між двома правилами – «Скільки коштує …?» та «Скільки коштує …? (у розмові про кредитні карти)» і відомо, що розмова йде про кредитні карти, то друге правило сильніше й, відповідно, спрацює. Таких умов багато, вони порівнюються, і вибирається найвагоміше. Якщо ж вибирається кілька мікродіалогів з однаковою вагою, то фінальний вибір серед них відбувається випадковим чином. Після того як зроблено вибір, спрацьовують правила генерації відповіді. Відповідь може містити найсильніше правило, слово з синонімічних словників, слово з бази даних, до якої звертається інф. Правило генерації може бути командою: «Сходи в таку-то базу даних, візьми відповідь і транслюй її». Тут же можуть бути прописані умови: якщо такої відповіді немає, то зроби щось іще. Програма може звертатися до абсолютно різних і незалежних одне від одного зовнішніх джерел – і до баз даних, і до незалежних сервісів. Наприклад, інформація про погоду і курси валют береться не з бази даних, а з динамічних сервісів.
У правилі інколи прописують ту чи іншу анімацію: інф при відповіді може відтворити певний ролик або, наприклад, скорчити гримасу.
Поряд із даними правила-розпізнавання і правила-генерації є ще такий тип даних, як словники. Це списки ключових слів або фраз, що використовуються на одному й тому самому місці. Також використовуються словники найбільш типових опечаток, словники, що містять кальки, та інші. На даний момент у арсеналі «Наносемантики» понад 2500 словників, загальних і специфічних. Серед них словники для розпізнавання (специфічні) і словники для відповідей (здебільшого загальні, словники синонімів).
Особливо варто відзначити наявність функціональних модулів у базі даних інфа. Важливе місце посідають серед них фільтри контенту – «дорослий», «обсценний» тощо. Перш за все, це можливість виділити грубу, образливу та обсценну лексику і позначити, що вона є у репліці користувача. Далі, з цією міткою, можна вчинити будь-яку дію – перервати діалог, відмовитися від запису його у лог (історію спілкування), не записувати розмови, які стосуються тероризму чи наркотиків, припинити діалог при виникненні такої теми. За потреби можна помічати й фільтрувати будь-яку тему – залежно від побажань замовника.
Окрему групу серед модулів становлять ігрові блоки. Вони дозволяють інфу проводити вікторини, підтримувати ігри, відповідати на питання на кшталт «Підкажи, як правильно…». Тут задіяні такі технології, які не вимагають детального прописування модуля. Він виникає автоматично – потрібно лише прописати варіанти відповідей.
Існують окремі блоки, що розпізнають ситуації, у яких співрозмовник хоче залишити свої дані, щоб поспілкуватися зі спеціалістом-людиною. Як варіант – інф може сам запропонувати користувачу залишити контактний телефон чи мейл. Це буває у складних випадках техпідтримки, які потребують участі консультанта.
«Наносемантика» вже зібрала блок і даних, і змінних, який дозволяє у розмові відстежити подібні ситуації і дати потрібну відповідь: або «Телефонувати потрібно за таким-то телефоном», або «Залиште свої дані, і ми вам передзвонимо». У інфа є можливість пересилати отримані від користувача дані на певну адресу.
К спеціалізованим лінгвістичним технологіям «Наносемантики» належать розроблені її фахівцями словники синонімів, які дозволяють підвищити варіативність відповідей інфа, та відновлення опущених даних. Наприклад, відповідь «Так» на питання «Ти любиш читати?» надходить у рушій у вигляді «Так, я люблю читати», тобто фраза відновлюється на етапі обробки.
Created/Updated: 12.12.2024