Российские программисты наделили компьютер интеллектом первоклашки

фото: Геннадий Черкасов

По сообщению британцев, они закачали в базу программы-чтеца почти 330 тысяч онлайн-статей с сайтов CNN и The Daily Mail. Почти во всех публикациях были выделены основные мысли, которые компьютеры могут использовать, как своего рода «мостик» к полному тексту. На данный момент, если компьютеру задать вопросы по содержанию «прочитанного» им текста, 60% ответов будут правильными. В то же время, отмечают ученые, у машин еще есть проблемы с «пониманием» сложных предложений.

— На самом деле, тест Тьюринга не прошел еще никто, — говорит генеральный директор российской компании Андрей Черногоров — То есть, ни одному компьютеру не удалось полноценно обвести эксперта вокруг пальца, внушив, что тот разговаривает с человеком. До всеобъемлющего понимания компьютером того, что он читает или слышит, еще далеко. Конечно, по «мостикам», упомянутым в работе британских коллег, можно установить примерный смысл того, о чем говорится в статье. У нас тоже есть работы, позволяющие, к примеру, в романе Льва Толстого «Война и мир» определить фрагменты, относящиеся к теме войны, мира, погоды и так далее. Но что касается более точного «понимания» тех или иных вопросов, отраженных в тексте, практического применения компьютером этих «знаний», тут в некоторых областях мы добились 100-процентного успеха. Приведу пример использования искусственного интеллекта в управлении крупной продовольственной сетью. Для того, чтобы автоматизировать бухгалтерскую отчетность, надо было обучить компьютер понимать, что слова «булка» и «батон» относятся к общему понятию «хлеб», а «помидоры» и «лук» — к «овощам» и так далее по всем видам товаров.

Чем-то напоминает обучение первоклашек в школе.

Да, обучение машины происходит примерно так же, пошагово.

Какой объем данных используете для составления программы?

В «словарный запас» машины было закачено более 500 тысяч слов. А вообще, чем больше объем заложенной информации, тем лучше результат.

В прошлом году университет Рединга сообщал, что полноценный тест Тьюринга все-таки был пройден с помощью программы «Евгений Густман», разработанной в Санкт-Петербурге. Компьютер, выдававший себя за одесского подростка, вводил экспертов в заблуждение путем переписки в течение 33 процентов отведенного для теста времени, перекрыв 30-процентный рубеж. Профессионалы все-равно не считают это достижение полноценным?

Как я уже отмечал, серьезные результаты системы искусственного интеллекта сегодня могут демонстрировать на узких, ограниченных конкретной темой задачах. Задача для «Евгения Густмана» была жестко ограничена его возрастом, что не давало возможность задавать «любые» вопросы. Эта программа была доступна в интернете и отмечено множество случаев, когда она давала некорректные ответы на самые простейшие вопросы. Здесь скорее нужно задать вопросы организаторам контекста, допускающие подобные упрощения. В этом смысле, среди профессионалов более ценится участие в премии Лёбнера, присуждаемой победителю ежегодного конкурса «AI Loebner», в котором соревнуются программы в прохождении теста Тьюринга. Она проводится с 1990 года.

Между тем, в конце июня экспертов в области искусственного интеллекта привлекла еще одна работа — фактчекер (программа проверки фактов) из Индианского университета в Блумингтоне (о ней написало издание PloS ONE). Это своеобразный полиграф, отделяющий правду от вымысла. Исследователи рассказали о том, как собрали и проанализировали ключевые данные из статей Википедии, чтобы создать «информационный график», включающий 3 миллиона личностей, мест, предметов и явлений. Полученный в результате этого алгоритм позволяет проверять истинность отдельных высказываний, например, утверждения «Рим — столица Италии», примерно с той же тщательностью, что и при участии человека. Ученые признают, что алгоритм надежен не на 100%, что результаты его работы могут отличаться в зависимости от того, какая база данных использована. В одном из интервью Джованни Чимпаглиа, главный автор доклада PLoS ONE, отметил, что его команда намерена использовать в будущем другие источники информации, чтобы совершенствовать фактчекер.