Просто о сложном: как человек учит машину учиться

0   23   0

Информатика
7 февр. 13:21


56b71ab15f1be7077e000824

Машинное обучение — дисциплина на стыке теории вероятностей, статистики и оптимизации, в рамках которой создаются компьютерные программы, способные обучаться. За последние годы дисциплина стала, пожалуй, самым популярным разделом Computer Science и активно применяется в самых разных областях — от научных лабораторий до банков и маркетинговых отделов компаний. Как научить машину учиться и почему это пользуется таким спросом, T&P рассказал специалист в области Computer Science, разработчик компании Yandex, аспирант МФТИ Виктор Кантор.

Виктор Кантор

Виктор Кантор

Машинное обучение является подразделом науки об искусственном интеллекте — науки о создании интеллектуальных машин, способных на творческую деятельность, которая традиционно считалась присущей только человеку. В 1959 году Артур Самуэль, который учил компьютер игре в шашки, дал следующее определение машинному обучению: «Это процесс, в результате которого машина (компьютер) способна показывать поведение, которое в нее не было явно заложено (запрограммировано)».

Эффективность машинного обучения в решении задач была продемонстрирована достаточно давно: еще в 1936 году знаменитый английский статистик Рональд Фишер сумел научить компьютер определять вид ириса по ширине цветка и чашелистика. В 60–70 годах XX века компьютеры уже начали обыгрывать лучших шахматистов, а на сегодняшний день достижения в этой области помогают компьютерам управлять автомобилями, рассчитывать прибыли компаний, предсказывать самые разные явления: от платежеспособности клиентов и пробок на дорогах до уровня мутаций в клетке.

Машина с предсказаниями

Изучим процесс машинного обучения более подробно. Допустим, банку нужно выдать клиенту кредит. Разумеется, первому выгодно, чтобы человек вернул эти деньги, то есть оказался платежеспособным. У каждого клиента имеется набор характеристик, которые он предоставляет банку: возраст, пол, заработная плата, кредитная история, профессия, семейное положение и так далее. Заранее угадать, вернет ли конкретный человек свой кредит, только по его персональным данным невозможно. Но у банка имеется подобная информация о клиентах, вернувших кредит, а также о тех, кто оказался неплатежеспособным. Задача специалиста машинного обучения — построить алгоритм, прогнозирующий условное значение платежеспособности каждого нового клиента по уже существующим данным о других. Такие данные называются обучающей выборкой, а известные характеристики клиентов — признаками. Задачи подобного рода, когда по данным с уже известной классовой принадлежностью (обучающая выборка) на классы разбивается новая информация, относятся к задачам классификации. Задачи часто осложняются неидеальностью данных, поэтому одним из критериев хорошего алгоритма является его устойчивость к шумам.

Computer Chess

Computer Chess

Помимо задач классификации перед специалистами ставятся и более сложные задачи кластеризации. С ними сталкиваются, когда необходимо разбить данные на классы, однако заранее непонятно, на какие. Например, фирма хочет определить целевую аудиторию своего товара и понять, каким образом лучше рекламировать продукцию и какие цены на нее было бы разумнее всего установить. Для решения этой проблемы используется кластеризация с задачей сегментации рынка — выделить несколько групп наиболее перспективных покупателей, которые будут примерно одинаково реагировать на выдвинутое предложение. Необходимо найти значимые признаки и разбить всех потребителей на группы с наиболее близким значением таких признаков.

«Мешок слов» и другие признаки

Чтобы начать разделять данные по признакам, и в классификации, и в кластеризации нужно эти признаки найти. Допустим, необходимо отличить два текста — один про машины, а второй про политику. Каким образом из набора символов выделить признаки? Один из самых простых способов — так называемый «мешок слов». Составляется словарь, в котором присутствует само слово и его встречаемость в тексте. При анализе текстов можно искать характерные для каждой темы слова и, если они встречаются достаточно часто, делать некие выводы.

Читать дальше.


Автор: tany_savelieva

Источник: T&P


0



Для лиц старше 18 лет