Интервю с Атанас Киряков, основател и изпълнителен директор на Онтотекст, беше направено на тема технологиите, които ни помагат да управляваме знанието.
Г-н Киряков, наскоро беше обявена престижната класация „New Europe 100 — changemakers in central and eastern Europe“, която представя публични личности и технологични визионери от нова Европа. Разкажете ни как попаднахте в нея?
Целта на тази класация е да популяризира хора и организации от Централна и Източна Европа, които са допринесли за промени в обществото, бизнес средата или прилаганите политики. Тези хора може да са успешни предприемачи, да са въвели технологични иновации и използвали нови подходи към решаването на преобладаващи проблеми в региона. Хората, включени в тазгодишната класация са номинирани от независими експерти и професионалисти, които анализират и отразяват развитието на региона за водещите световни медии. Самата селекцията на 100-те, включени в списъка беше направена от жури, излъчено от Res Publica, издание базирано във Варшава, Google, Вишеградския фонд, промотиращ интеграцията в Централна Европа и Файненшъл Таймс.
С какво „Онтотекст“ привлече вниманието на организаторите?
Това са най-вече с продуктите ни за издатели и създатели на съдържание, чрез които се улеснява класифицирането и препоръчването на информационно съдържание. Например, медии като BBC и вестници като Financial Times организират и предлагат информацията по-интерактивно, гъвкаво и персонализирано. Водещи научни издателства като Oxford University Press, IET, John Wiley and Sons и Springer Nature използват нашата технология да индексират и управляват по-добре знанието, което разпространяват. Издателските архиви представляват огромни хъбове за знания, а нашата технология помага търсенето в тях да е лесно и персонализирано.
Как се създават технологии базирани на изкуствен интелект? Каква е историята зад успеха на Онтотекст?
В нашата компания са събрани опита и таланта на едни от най-добрите софтуерни инженери в България, специалисти, провеждали дългогодишни изследвания в БАН. При развиването на семантичната технология, ние стъпихме върху много добра изследователска база, което ни помогна да навлезем в най-бързо развиващите се сфери на изкуствения интелект. Инвестирали сме над 400 човеко-години в изследвания и продкутизиране на семантични технологии. Основните продукти на компанията са базата данни GraphDB и платформта Dynamic Semantic Publishing, които позволяват смислов анализ, интерпретация и свързване на данни и текстови документи.
Обикновено работим с бази знания (Knowledge Graphs), които съдържат милиарди факти за стотици милиони концепции, хора, организации и географски обекти. Можем да разпознаем споменаването на всяка от тези концепции в текст, да я свържем с правилния възел от данни.
Например, когато в текст на английски се спомене „Paris”, нашият софтуер успешно разпознава дали това е Париж (Франция), Париж (Тексас), Парис Хилтън(светска знаменитост) или древногръцкия герой Парис. Това предлага много възможности за интерактивно представяне на информацията, а също и свръх ефективно търсене, свеждайки задачи, които са отнемали много месеци работа, до няколко минути.
Как продуктите на Онтотекст помагат в ежедневната работа на организации като Британския музей и BBC? Как да използваме приложението за текстови анализ S4, как и на кого помага Graph DB?
BBC използва нашата технология за да предлага на своята аудитория по-разнообразно и интерактивно четене, разглеждане и навигиране на собственото си съдържание – статии, видео и други материали. По-конкретно, медиата използва GraphDB за да се генерират автоматично тематични уеб страници, които динамично показват най-актуалното съдържание, свързано с определена тема. Например, спортната секция на уеб сайта им съдържа стотици уеб страници за отбори, играчи, атлети, треньори и състезания.
Британският музей използва GraphDB за да предостави семантично търсене в музейната им колекция. Като обем работа – това са около два милиона артефакта, описани средно с по 100 атрибута и връзки към други обекти.
Защо е полезно използването на отворени данни и свързването им?
В Онтотекст анализираме текст, като използваме много големи обеми данни. Използват се множество отворени данни, публично достъпни данни. Може едновременно да се ползват различни бази данни, публикувани в различни страни и от различни институции и да се анализират семантично. Свързването на данните е най-интересната част от този подход. Свързването на данните е магията, която прави видими връзките и зависимостите, и помага да се извлече смисъла от данните. Това ни помага много добре да анализираме един текст, което е и най-сложното.
Човекът няма проблем да разпознае и направи разликата в предишния пример, хората имат това познание в главите си, докато за машините това автоматично разпознаване е трудно. Необходимо е това знание да се събере от различни места – „Уикипедия“, от различни бази данни, след което да се свързже текста, опише и индексира, и препрати към една голяма база от знания. Този процес е вече автоматизиран и изкуствения интелект да може да разпознава контекста, за което са му необходими свързващите асоциации.
Получава се голяма структура от знания, която наподобява знанията в главите ни. Това не е гигантски разум, а гигантска база данни. Можем да мислим за нея като за голям разпределен архив, за голяма разпределена памет. По подобен начин Гугъл търси информация за своите крайни потребители, а ние го правим за крайни клиенти – издатели, медии, финасови организации, бизнес клиенти, и т.н. Например, информацията в „Панама пейпърс“ представлява огромен брой записи, които не ви помагат много да анализирате данните. След като свързахме данните за хората и организациите с „Уикипедия“ създадохме възможност да се правят много по-детайлни търсения.
Как Ontotext финансира разработката на продуктите си и какви допълнителни ползи имате от колаборацията с научната и бизнес общност?
Компанията продава продуктите си по цял свят, с превес на пазарите в САЩ и Западна Европа, използваме собствено и привречено финасиране за проучванията и азвитието на софтуерните ни продукти. Онтотекст е един от най-активните български участници в програмите на ЕК за научни изследвания и иновации: 5-та, 6-та и 7-ма рамкови програми и програма Хоризонт 2020. Тези проекти ни дадоха не само финансиране, но и възможност да работим с най-добрите универститети в Европа, с много иновативни фирми като нас, и с много ИТ гиганти: SAP, Software AG, Capgemini, Atos Origin. След 15 години участие в такива проекти ние познаваме добре повечето организации и учени, които са активни в областта на Изкуственият интелект, Big Data, Business Process Management, отворени данни, лингвистика. Това познание и тези контакти са поне толкова ценни, колкото финансирането по проектите.
В интервюто са използвани въпроси и отговори за медиите БНР, програма Хоризонт, проект Нова Европа 100, Expert.bg