Как построить модель предсказывающую стоимость автомобиля
Перейти к содержимому

Как построить модель предсказывающую стоимость автомобиля

  • автор:

Введение в машинное обучение

Благодаря машинному обучению программист не обязан писать инструкции, учитывающие все возможные проблемы и содержащие все решения. Вместо этого в компьютер (или отдельную программу) закладывают алгоритм самостоятельного нахождения решений путём комплексного использования статистических данных, из которых выводятся закономерности и на основе которых делаются прогнозы.

Технология машинного обучения на основе анализа данных берёт начало в 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетий общий принцип не изменился. Зато благодаря взрывному росту вычислительных мощностей компьютеров многократно усложнились закономерности и прогнозы, создаваемые ими, и расширился круг проблем и задач, решаемых с использованием машинного обучения.

Чтобы запустить процесс машинного обучение, для начала необходимо загрузить в компьютер Датасет(некоторое количество исходных данных), на которых алгоритм будет учиться обрабатывать запросы. Например, могут быть фотографии собак и котов, на которых уже есть метки, обозначающие к кому они относятся. После процесса обучения, программа уже сама сможет распознавать собак и котов на новых изображениях без содержания меток. Процесс обучения продолжается и после выданных прогнозов, чем больше данных мы проанализировали программой, тем более точно она распознает нужные изображения.

Благодаря машинному обучению компьютеры учатся распознавать на фотографиях и рисунках не только лица, но и пейзажи, предметы, текст и цифры. Что касается текста, то и здесь не обойтись без машинного обучения: функция проверки грамматики сейчас присутствует в любом текстовом редакторе и даже в телефонах. Причем учитывается не только написание слов, но и контекст, оттенки смысла и другие тонкие лингвистические аспекты. Более того, уже существует программное обеспечение, способное без участия человека писать новостные статьи (на тему экономики и, к примеру, спорта).

1.2 Типы задач машинного обучения

Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий.

1)Задача регрессии – прогноз на основе выборки объектов с различными признаками. На выходе должно получиться вещественное число (2, 35, 76.454 и др.), к примеру цена квартиры, стоимость ценной бумаги по прошествии полугода, ожидаемый доход магазина на следующий месяц, качество вина при слепом тестировании.

2)Задача классификации – получение категориального ответа на основе набора признаков. Имеет конечное количество ответов (как правило, в формате «да» или «нет»): есть ли на фотографии кот, является ли изображение человеческим лицом, болен ли пациент раком.

3)Задача кластеризации – распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзда, чёрная дыра и т. п.).

4)Задача уменьшения размерности – сведение большого числа признаков к меньшему (обычно 2–3) для удобства их последующей визуализации (например, сжатие данных).

5)Задача выявления аномалий – отделение аномалий от стандартных случаев. На первый взгляд она совпадает с задачей классификации, но есть одно существенное отличие: аномалии – явление редкое, и обучающих примеров, на которых можно натаскать машинно обучающуюся модель на выявление таких объектов, либо исчезающе мало, либо просто нет, поэтому методы классификации здесь не работают. На практике такой задачей является, например, выявление мошеннических действий с банковскими картами.

1.3 Основные виды машинного обучения

Основная масса задач, решаемых при помощи методов машинного обучения, относится к двум разным видам: обучение с учителем (supervised learning) либо без него (unsupervised learning). Однако этим учителем вовсе не обязательно является сам программист, который стоит над компьютером и контролирует каждое действие в программе. «Учитель» в терминах машинного обучения – это само вмешательство человека в процесс обработки информации. В обоих видах обучения машине предоставляются исходные данные, которые ей предстоит проанализировать и найти закономерности. Различие лишь в том, что при обучении с учителем есть ряд гипотез, которые необходимо опровергнуть или подтвердить. Эту разницу легко понять на примерах.

Машинное обучение с учителем

Предположим, в нашем распоряжении оказались сведения о десяти тысячах московских квартир: площадь, этаж, район, наличие или отсутствие парковки у дома, расстояние от метро, цена квартиры и т. п. Нам необходимо создать модель, предсказывающую рыночную стоимость квартиры по её параметрам. Это идеальный пример машинного обучения с учителем: у нас есть исходные данные (количество квартир и их свойства, которые называются признаками) и готовый ответ по каждой из квартир – её стоимость. Программе предстоит решить задачу регрессии.

Ещё пример из практики: подтвердить или опровергнуть наличие рака у пациента, зная все его медицинские показатели. Выяснить, является ли входящее письмо спамом, проанализировав его текст. Это всё задачи на классификацию.

Машинное обучение без учителя

В случае обучения без учителя, когда готовых «правильных ответов» системе не предоставлено, всё обстоит ещё интереснее. Например, у нас есть информация о весе и росте какого-то количества людей, и эти данные нужно распределить по трём группам, для каждой из которых предстоит пошить рубашки подходящих размеров. Это задача кластеризации. В этом случае предстоит разделить все данные на 3 кластера (но, как правило, такого строгого и единственно возможного деления нет).

Если взять другую ситуацию, когда каждый из объектов в выборке обладает сотней различных признаков, то основной трудностью будет графическое отображение такой выборки. Поэтому количество признаков уменьшают до двух или трёх, и становится возможным визуализировать их на плоскости или в 3D. Это – задача уменьшения размерности.

1.4 Основные алгоритмы моделей машинного обучения

1. Дерево принятия решений

Это метод поддержки принятия решений, основанный на использовании древовидного графа: модели принятия решений, которая учитывает их потенциальные последствия (с расчётом вероятности наступления того или иного события), эффективность, ресурсозатратность.

Для бизнес-процессов это дерево складывается из минимального числа вопросов, предполагающих однозначный ответ — «да» или «нет». Последовательно дав ответы на все эти вопросы, мы приходим к правильному выбору. Методологические преимущества дерева принятия решений – в том, что оно структурирует и систематизирует проблему, а итоговое решение принимается на основе логических выводов.

2. Наивная байесовская классификация

Наивные байесовские классификаторы относятся к семейству простых вероятностных классификаторов и берут начало из теоремы Байеса, которая применительно к данному случаю рассматривает функции как независимые (это называется строгим, или наивным, предположением). На практике используется в следующих областях машинного обучения:

  • определение спама, приходящего на электронную почту;
  • автоматическая привязка новостных статей к тематическим рубрикам;
  • выявление эмоциональной окраски текста;
  • распознавание лиц и других паттернов на изображениях.

Всем, кто хоть немного изучал статистику, знакомо понятие линейной регрессии. К вариантам её реализации относятся и наименьшие квадраты. Обычно с помощью линейной регрессии решают задачи по подгонке прямой, которая проходит через множество точек. Вот как это делается с помощью метода наименьших квадратов: провести прямую, измерить расстояние от неё до каждой из точек (точки и линию соединяют вертикальными отрезками), получившуюся сумму перенести наверх. В результате та кривая, в которой сумма расстояний будет наименьшей, и есть искомая (эта линия пройдёт через точки с нормально распределённым отклонением от истинного значения).

Линейная функция обычно используется при подборе данных для машинного обучения, а метод наименьших квадратов – для сведения к минимуму погрешностей путем создания метрики ошибок.

4. Логистическая регрессия

Логистическая регрессия – это способ определения зависимости между переменными, одна из которых категориально зависима, а другие независимы. Для этого применяется логистическая функция (аккумулятивное логистическое распределение). Практическое значение логистической регрессии заключается в том, что она является мощным статистическим методом предсказания событий, который включает в себя одну или несколько независимых переменных. Это востребовано в следующих ситуациях:

  • кредитный скоринг;
  • замеры успешности проводимых рекламных кампаний;
  • прогноз прибыли с определённого товара;
  • оценка вероятности землетрясения в конкретную дату.

Это целый набор алгоритмов, необходимых для решения задач на классификацию и регрессионный анализ. Исходя из того что объект, находящийся в N-мерном пространстве, относится к одному из двух классов, метод опорных векторов строит гиперплоскость с мерностью (N – 1), чтобы все объекты оказались в одной из двух групп. На бумаге это можно изобразить так: есть точки двух разных видов, и их можно линейно разделить. Кроме сепарации точек, данный метод генерирует гиперплоскость таким образом, чтобы она была максимально удалена от самой близкой точки каждой группы.

SVM и его модификации помогают решать такие сложные задачи машинного обучения, как сплайсинг ДНК, определение пола человека по фотографии, вывод рекламных баннеров на сайты.

6. Метод ансамблей

Он базируется на алгоритмах машинного обучения, генерирующих множество классификаторов и разделяющих все объекты из вновь поступающих данных на основе их усреднения или итогов голосования. Изначально метод ансамблей был частным случаем байесовского усреднения, но затем усложнился и оброс дополнительными алгоритмами:

  • бустинг (boosting) – преобразует слабые модели в сильные посредством формирования ансамбля классификаторов (с математической точки зрения это является улучшающим пересечением);
  • бэггинг (bagging) – собирает усложнённые классификаторы, при этом параллельно обучая базовые (улучшающее объединение);
  • корректирование ошибок выходного кодирования.
  • он сводит к минимуму влияние случайностей, усредняя ошибки каждого базового классификатора;
  • уменьшает дисперсию, поскольку несколько разных моделей, исходящих из разных гипотез, имеют больше шансов прийти к правильному результату, чем одна отдельно взятая;
  • исключает выход за рамки множества: если агрегированная гипотеза оказывается вне множества базовых гипотез, то на этапе формирования комбинированной гипотезы оно расширяется при помощи того или иного способа, и гипотеза уже входит в него.

Кластеризация заключается в распределении множества объектов по категориям так, чтобы в каждой категории – кластере – оказались наиболее схожие между собой элементы.

Кластеризировать объекты можно по разным алгоритмам. Чаще всего используют следующие:

  • на основе центра тяжести треугольника;
  • на базе подключения;
  • сокращения размерности;
  • плотности (основанные на пространственной кластеризации);
  • вероятностные;
  • машинное обучение, в том числе нейронные сети.

8. Метод главных компонент (PCA)

Метод главных компонент, или PCA, представляет собой статистическую операцию по ортогональному преобразованию, которая имеет своей целью перевод наблюдений за переменными, которые могут быть как-то взаимосвязаны между собой, в набор главных компонент – значений, которые линейно не коррелированы.

Практические задачи, в которых применяется PCA, – визуализация и большинство процедур сжатия, упрощения, минимизации данных для того, чтобы облегчить процесс обучения. Однако метод главных компонент не годится для ситуаций, когда исходные данные слабо упорядочены (то есть все компоненты метода характеризуются высокой дисперсией). Так что его применимость определяется тем, насколько хорошо изучена и описана предметная область.

9. Сингулярное разложение

В линейной алгебре сингулярное разложение, или SVD, определяется как разложение прямоугольной матрицы, состоящей из комплексных или вещественных чисел. Так, матрицу M размерностью [m*n] можно разложить таким образом, что M = UΣV, где U и V будут унитарными матрицами, а Σ – диагональной.

Одним из частных случаев сингулярного разложения является метод главных компонент. Самые первые технологии компьютерного зрения разрабатывались на основе SVD и PCA и работали следующим образом: вначале лица (или другие паттерны, которые предстояло найти) представляли в виде суммы базисных компонент, затем уменьшали их размерность, после чего производили их сопоставление с изображениями из выборки. Современные алгоритмы сингулярного разложения в машинном обучении, конечно, значительно сложнее и изощрённее, чем их предшественники, но суть их в целом нем изменилась.

10. Анализ независимых компонент (ICA)

Это один из статистических методов, который выявляет скрытые факторы, оказывающие влияние на случайные величины, сигналы и пр. ICA формирует порождающую модель для баз многофакторных данных. Переменные в модели содержат некоторые скрытые переменные, причем нет никакой информации о правилах их смешивания. Эти скрытые переменные являются независимыми компонентами выборки и считаются негауссовскими сигналами.

В отличие от анализа главных компонент, который связан с данным методом, анализ независимых компонент более эффективен, особенно в тех случаях, когда классические подходы оказываются бессильны. Он обнаруживает скрытые причины явлений и благодаря этому нашёл широкое применение в самых различных областях – от астрономии и медицины до распознавания речи, автоматического тестирования и анализа динамики финансовых показателей.

1.5 Примеры применения в реальной жизни

Пример 1. Диагностика заболеваний

Пациенты в данном случае являются объектами, а признаками – все наблюдающиеся у них симптомы, анамнез, результаты анализов, уже предпринятые лечебные меры (фактически вся история болезни, формализованная и разбитая на отдельные критерии). Некоторые признаки – пол, наличие или отсутствие головной боли, кашля, сыпи и иные – рассматриваются как бинарные. Оценка тяжести состояния (крайне тяжёлое, средней тяжести и др.) является порядковым признаком, а многие другие – количественными: объём лекарственного препарата, уровень гемоглобина в крови, показатели артериального давления и пульса, возраст, вес. Собрав информацию о состоянии пациента, содержащую много таких признаков, можно загрузить её в компьютер и с помощью программы, способной к машинному обучению, решить следующие задачи:

  • провести дифференциальную диагностику (определение вида заболевания);
  • выбрать наиболее оптимальную стратегию лечения;
  • спрогнозировать развитие болезни, её длительность и исход;
  • просчитать риск возможных осложнений;
  • выявить синдромы – наборы симптомов, сопутствующие данному заболеванию или нарушению.

Пример 2. Поиск мест залегания полезных ископаемых

В роли признаков здесь выступают сведения, добытые при помощи геологической разведки: наличие на территории местности каких-либо пород (и это будет признаком бинарного типа), их физические и химические свойства (которые раскладываются на ряд количественных и качественных признаков).

Для обучающей выборки берутся 2 вида прецедентов: районы, где точно присутствуют месторождения полезных ископаемых, и районы с похожими характеристиками, где эти ископаемые не были обнаружены. Но добыча редких полезных ископаемых имеет свою специфику: во многих случаях количество признаков значительно превышает число объектов, и методы традиционной статистики плохо подходят для таких ситуаций. Поэтому при машинном обучении акцент делается на обнаружение закономерностей в уже собранном массиве данных. Для этого определяются небольшие и наиболее информативные совокупности признаков, которые максимально показательны для ответа на вопрос исследования – есть в указанной местности то или иное ископаемое или нет. Можно провести аналогию с медициной: у месторождений тоже можно выявить свои синдромы. Ценность применения машинного обучения в этой области заключается в том, что полученные результаты не только носят практический характер, но и представляют серьёзный научный интерес для геологов и геофизиков.

Пример 3. Оценка надёжности и платёжеспособности кандидатов на получение кредитов

С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.

Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).

Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».

Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.

P.S. В следующих статьях мы более подробно рассмотрим алгоритмы создания моделей машинного обучения, включая математическую часть и реализацию на Python.

  • Машинное обучение
  • Введение в алгоритмы
  • Курс по ML

Как построить модель предсказывающую стоимость автомобиля

X_test – тестовый набор данных, для которого необходимо выполнить предсказание.

Описание полей: name — название объявления
brand — производитель
model — модель авто
vehicleType — тип кузова
gearbox — тип КПП
fuelType — тип топлива
powerPS — мощность, л.с.
kilometer — пробег
notRepairedDamage — имеет ли автомобиль повреждения
yearOfRegistration — год первой регистрации авто
monthOfRegistration — месяц первой регистрации авто
price — стоимость авто, целевая переменная

Выходные файлы: код программы, а также файл с ответами для тестового набора данных.

  • Предсказание клика по рекламе.

X_test – тестовый набор данных, для которого необходимо выполнить предсказание.

Описание полей: ID — уникальный ID показа
datetime — дата и время показа рекламы
siteid — ID веб-сайта
offerid — ID предложения
category — категория предложения
merchant — ID продавца
countrycode – код
browserid — браузер пользователя
devid — тип устройства пользователя
click — был ли совершён клик по рекламе, целевая переменная

Выходные файлы: код программы, а также файл с ответами для тестового набора данных.

Формат файла с предсказаниями:

Примечание. Просим обратить внимание, что в качестве предсказания необходимо выдать вероятность клика по рекламе – вещественное значение от 0 до 1.

Регрессионная модель оценки автомобилей на основе парсинга интернет-данных Текст научной статьи по специальности «Экономика и бизнес»

ЛЕГКОВЫЕ АВТОМОБИЛИ / ОЦЕНОЧНАЯ ДЕЯТЕЛЬНОСТЬ / ПАРСЕР САЙТОВ / РЫНОЧНАЯ СТОИМОСТЬ / УРАВНЕНИЕ РЕГРЕССИИ / ЭКОНОМЕТРИЧЕСКАЯ МОДЕЛЬ / CARS / ECONOMETRIC MODELING / MARKET VALUE / SITE PARSER / STATISTICAL REGRESSION / VALUATION

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Трифонов Н. Ю., Ливинская В. А., Коржуков В. В.

Описываются результаты эконометрического моделирования рыночной стоимости на примере автомобилей класса В на основе сбора с помощью программы-парсера информации с популярного интернет-сайта. Полученная модель в виде двух статистически значимых регрессионных уравнений предназначена для использования в практике оценочной деятельности .

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Трифонов Н. Ю., Ливинская В. А., Коржуков В. В.

Эконометрический анализ рынка подержанных автомобилей

Эконометрическое моделирование влияния факторов на цены вторичного рынка легковых автомобилей г. Оренбурга

Текстуальный анализ ценообразования на рынке московской жилой недвижимости
Детерминанты создания акционерной стоимости российскими компаниями
Детерминанты стоимости публичных банков: структура и уровень значимости
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

REGRESSION MODEL FOR CAR VALUATION BASED ON INTERNET DATA PARSING

The results of econometric modeling of market value are described on the example of class B cars based on the collection of information from a popular website using a parser program. The resulting model in the form of two statistically significant regression equations is intended for use in the valuation practice.

Текст научной работы на тему «Регрессионная модель оценки автомобилей на основе парсинга интернет-данных»

Н. Ю. ТРИФОНОВ1, В. А. ЛИВИНСКАЯ2, В. В. КОРЖУКОВ 2

РЕГРЕССИОННАЯ МОДЕЛЬ ОЦЕНКИ АВТОМОБИЛЕЙ НА ОСНОВЕ ПАРСИНГА ИНТЕРНЕТ-ДАННЫХ

1 Белорусский государственный экономический университет 2 Белорусско-Российский университет

Описываются результаты эконометрического моделирования рыночной стоимости на примере автомобилей класса В на основе сбора с помощью программы-парсера информации с популярного интернет-сайта. Полученная модель в виде двух статистически значимых регрессионных уравнений предназначена для использования в практике оценочной деятельности.

Ключевые слова: легковые автомобили; оценочная деятельность; парсер сайтов; рыночная стоимость; уравнение регрессии; эконометрическая модель

Оценка стоимости автомобилей, находящихся на вторичном рынке, в настоящее время становится всё более востребованной. Это происходит, в первую очередь, из-за стремительного расширения этого рынка. Заказчиками в оценке выступают как физические лица (например, конкретный покупатель или продавец подержанного автомобиля) так и организации, нуждающиеся в оценке транспорта для различных целей. Информация об остаточной стоимости дорожного транспортного средства (автомобиля) востребована при его купле-продаже, постановке на учёт, оценке или переоценке основных средств предприятия, при передаче в залог, при оценке ущерба в результате дорожно-транспортного происшествия, при разводе супругов и иных имущественных спорах, в том числе для нужд судебной экспертизы [1-2]. Набирающая популярность программа покупки старых автомобилей по системе «trade-in» тоже предполагает владение актуальной рыночной информацией о его цене.

Развитость рынка подержанных автомобилей в странах ЕАЭС позволяет использовать для оценки статистические методы сравнительного подхода к оценке стоимости [2-3]. Выборки в несколько десятков объектов сравнения позволяли получать достаточно надёжные результаты. Тем не менее, с развитием информационных технологий стали создаваться более

объёмные базы данных на интернет-порталах и сайтах, а также появились инструменты (т. н. парсеры) формирования на основе интернет-данных выборок с заданными характеристиками. Современные технологии позволяют собирать информацию с сайтов-агрегаторов объявлений для её дальнейшего использования. Это позволило поставить задачу эконометрического моделирования рыночной стоимости подержанного автомобиля, обладающего конкретными характеристиками. Для этого необходимо рассмотреть представительные выборки автомобилей различных классов, поскольку ранее [3] было показано, что параметры обесценивания со временем существенно зависямт от класса исследуемого автомобиля.

Данная статья посвящена описанию методики и результатам эконометрического моделирования средней цены на вторичном рынке на примере автомобилей, относящихся к одному из наиболее популярных классов — В (т.н. бизнес-класс).

Сбор первичной информации (row data) занимает обычно до 70 % всего времени, потраченного на моделирование. В данном исследовании он осуществлялся с помощью парсера Selenium WebDriver — инструмента для сбора информации с сайта AUTO.ru, содержащего на момент сбора около 560 000 объявлений о продаже.

В результате анализа выборки из 17 742 объявлений (рассматривался город Москва, как наиболее интересный для белорусов сегмент российского рынка) было обнаружено, что 97,7 % автомобилей имеют возраст до 36 лет (с 1983 по 2019 годы). Дальнейший анализ проводился по объявлениям для автомобилей с 1983 по 2019 годы выпуска. Группировка по классам и годам этих автомобилей представлен в таблице 1.

Распределение в выборке по возрасту следующее. Больше всего представлено автомобилей, возраст которых не более 7 лет (53 %). Автомобилей, возраст которых от 7 до 17 лет, на рынке около 22 %, от 17 до 27 лет — 18 % и от 27 до 37 лет всего 7 %.

Распределение в выборке по классам следующее. Больше всего присутствуют автомобили классов J (43 %) и В (24 %), причем 55 % автомобилей класса В имеют срок эксплуатации от 17 до 27 лет. Следующий по представительности -класс С, 54 % автомобилей этого класса имеют возраст от 7 до 17 лет, 41 % автомобилей моложе 5 лет. Автомобили остальных классов в основном (80 % и выше) эксплуатировались до 7 лет.

В настоящей статье описано моделирование рыночной стоимости автомобиля на основе объявлений о продажи автомобилей класса В. В качестве инструмента анализа используется программа Statistica-7.

Первый шаг в анализе данных — визуализация. Очевидно, цена авто на вторичном рынке сильно зависит от возраста автомобиля. На рис. 1 представлено корреляционное поле для предиктора «цена» (в российских рублях) и одного из количественных регрессоров — «возраст» (автомобиля в годах) для класса В. В этом графике учтено, что из выборки были предварительно удалены результаты некоторых аномальных наблюдений для автомобилей возрастом до 10 лет.

Для отбора категориальных факторов строились частотные таблицы. Выяснилось: 53,3 % автомобилей в выборке имеют задний привод и 46,53 % — передний привод; 99,5 % автомобилей в выборке имеет механическую коробку передач (присутствовали также автоматическая и роботизированная коробки передач); 96,93 % автомобилей в выборке имеют бензиновый двигатель.

Таблица 1 — Результат выборочного наблюдения объявлений о продаже автомобилей на вторичном рынке (единиц)

Год выпуска A B C D E F J M S Всего

1983-1991 7 528 301 207 79 10 37 11 2 1182

1992-2001 98 2138 411 427 48 18 56 16 9 3221

2002-2011 114 1465 784 151 89 95 960 78 57 3794

2012-2019 11 273 249 612 948 500 6013 340 184 9137

Всего 223 3876 1444 1190 1085 613 7029 434 250 16152

2.15ЕБ 1.9Е6 1,641 ЕВ

7.5Г5 4,79£5 2.45Е5 7SM

Machine Learning и оценка недвижимости

Машинное обучение — как секс в старших классах. Все говорят о нем по углам, единицы понимают, а занимается только препод.

Плюс заголовки новостей создают нездоровый ажиотаж вокруг “искусственного интеллекта”, будто бы роботы научились думать и вот-вот отберут у всех работу. На деле думать приходится людям, а вся магия — это программный код, циферки и алгоритмы, находящие зависимости между ними.

Давайте разберемся, как это работает на примере вторичного рынка квартир. Да, рынок специфический, половина объявлений — фейки и нелепые фантазии продавцов, не готовых к сделке. Но это данные, на которых можно понять принципы и идти дальше.

Программисты в качестве примитивного упражнения пишут код, печатающий “Hello World!”, а мы будем строить модель, предсказывающую цены квартир в Москве. Окей, предсказывающую цены предложений по параметрам жилья, такая формулировка честнее.

О чем вообще речь?

Основная идея машинного обучения — скормить некоему алгоритму много-много данных, чтобы он вычислил закономерности, запомнил их и смог предсказывать результат по новым входным данным, которых раньше не видел.

Частые задачи для таких алгоритмов:

  • классификация —например, разделение грибов по классам съедобный/ядовитый на основании цвета, формы шляпки, наличия юбки и т.п.;
  • регрессия — как раз наша тема, вычисление цены предложения квартиры, исходя из площади, местоположения, местоположения и местоположения));
  • кластеризация, это когда алгоритм растаскивает данные по группам, самостоятельно находя признаки, по которым их можно сгруппировать;
  • поиск аномалий — к примеру, снимая телеметрию со станка, можно засечь проблему до того, как условный шпиндель выйдет из строя. При этом программа сама сообразит, что поток данных стал отличаться от обычного;
  • всякие сложные штуки вроде компьютерного зрения — когда машина отделяет на изображениях котиков от собачек. Это больше всего тянет на магию, но важно помнить, что для алгоритма файл с фотографией это тоже цифры — значения яркости и цвета пикселей по всей площади картинки. От этого можно плясать дальше, находя типичные для котиков сочетания линий, острых углов ушей и все в таком духе.

Большая часть математики, на которой это работает, была написана лет 60–70 назад, но сейчас тема выстрелила по двум основным причинам: бизнес стал накапливать данные и у нас появились мощные компы (и видеокарты, на которых можно распараллелить вычисления, чтобы не ждать неделями, пока обучится модель).

Для погружения в тему советую сайт kaggle.com, на котором проходят соревнования по ML. Там команды бьются за сотые доли процента качества моделей, чтобы забрать денежный приз от организатора, задающего тему исследования и публикующего свои реальные данные.

К примеру, три года назад Сбербанк устраивал конкурс по предсказанию цен на ипотечные квартиры: https://www.kaggle.com/c/sberbank-russian-housing-market, больше 3 000 команд боролись за приз в 25 000 долларов. А здесь победитель целый час рассказывает, как шел к успеху: https://www.youtube.com/watch?v=Eo4WMlcT7uo.

Единственное, надо помнить, что ML в реальных проектах отличается от соревнований примерно так же, как конвейер для серийных Фольксвагенов от гаража Формулы-1, настраивающего болид для конкретной трассы. Зато на Кэггле подробно разбирают решения и публикуют примеры кода, полезно посмотреть как задачу решали более умные ребята.

Матчасть

Сразу оговорюсь, в статье речь только про “обучение с учителем”. Это ситуация, когда алгоритм смотрит на данные, заранее размеченные человеком. В них указано — квартира с такими-то параметрами выставлена на Циане за 7 млн, а с такими-то и на другой улице за 7 с половиной. Чем больше примеров, тем лучше и точнее обучится алгоритм.

Чтобы оценить качество предсказаний модели, данные (датасет) случайным образом делят на обучающую и тестовую выборки. Обычно в соотношении 70/30, чтобы сохранить часть примеров в тайне от алгоритма. Модель учится на первой выборке, сопоставляя параметры квартир и их цены. Затем скармливаем ей характеристики квартир из тестовой выборки (но цены из тестовой не показываем, она попытается угадать их сама). Последним действием вычисляем ошибку, грубо говоря, насколько предсказанная стоимость отклонилась от фактической.

Метрики качества нужны, чтобы сравнивать модели между собой и понимать, насколько хорошо модель описывает реальность. Для своих исследований я использовал две метрики:

  • Средняя абсолютная процентная ошибка (MAPE)— показывает среднее арифметическое значение всех абсолютных (взятых по модулю) процентных ошибок прогноза (Ф — фактическое значение стоимости, П — прогнозное значение стоимости). Рассчитывается по формуле:
  • Медианная абсолютная процентная ошибка (MedAPE)— та же идея вычисления абсолютной процентной ошибки, но вместо среднего арифметического берем более устойчивую к выбросам медиану. Именно своей MedAPE в районе 2% хвастается сайт https://www.zillow.com/, построивший одну из самых точных моделей оценки домов в США.

Алгоритмы

Дерево решений (Decision tree) — один из самых известных алгоритмов машинного обучения, хорошо работающий с табличными данными. Его основная идея — последовательно разбивать (сплитить) выборку на все более мелкие части так, чтобы в конце максимально точно разложить примеры по правильным кучкам. Украду у Вастрика хорошую картинку, потому что лучше один раз увидеть:

Картинка про классификацию, но не суть. На каждом узле принятия решений есть некий критерий и два варианта ответа — да или нет. Критерии разбиения могут не всегда выглядеть адекватно для человека, например “Пробег автомобиля больше 56 452 км?”, но можно быть уверенным, что алгоритм на каждом шаге разбивал набор данных максимально эффективно, начиная с самых важных критериев. В итоге пример новых данных можно провести через готовое дерево решений, следуя по нужным развилкам, и получить в конце результат (в нашем случае предсказание цены).

Дерево решений любит переобучаться, то есть, старается делиться все дальше и дальше, доходя до мельчайших подробностей, что приводит к ситуации, когда алгоритм безупречно заучил обучающую выборку, но стал беспомощен на незнакомой тестовой. Чтобы избежать этого, при построении деревьев нарочно ограничивают их глубину и количество возможных сплитов, чтобы алгоритм смог вычленить некую общую закономерность в данных, не углубляясь в частности.

Оказалось, что недостатки деревьев можно обернуть во благо, если собрать из них, так называемый ансамбль, Случайный лес (Random forest). Идея случайного леса в том, что строится сразу много деревьев решений, слабых по отдельности, но сильных своим общим вердиктом (при регрессии предсказанные значения деревьев усредняются, при классификации финальное решение выбирается голосованием). При этом, каждое из слабых деревьев строится только на части датасета. Изобретение случайного леса позволило здорово улучшить качество предсказаний, настолько, что одиночные деревья сейчас фактически не используются.

Следующим шагом в борьбе за качество моделей стал градиентный бустинг, позволяющий делать много циклических заходов с построением деревьев, обращая особое внимание на косяки, совершенные на предыдущем круге, делая “работу над ошибками” и доучивая предыдущую версию модели.

Последние годы на Кэггле почти всегда лидируют решения, построенные на алгоритмах бустинга XGBoost и LightGBM. Кстати, Яндекс разрабатывает открытую библиотеку машинного обучения CatBoost, работающую “из коробки” с категориальными признаками (в отличии от остальных алгоритмов, которые не могут переварить понятия “панель”, “кирпич” и “монолит” в чистом виде, требуя кодировать слова цифрами, CatBoost ест датасет сразу со словами внутри!).

У всех алгоритмов под капотом есть куча настроек, существенно влияющих на результат, но об этом позже.

Небольшие данные

Итак, алгоритму нужны данные. Я не нашел ничего лучше, чем парсить ночами Циан, собирая объявления о продаже квартир на вторичке Москвы за три последних месяца (самые свежие предложения — январь 2020 года).

При очистке данных избавился от дублей, объявлений с одинаковым текстом в описании, от строк с нулевой площадью кухни, без материала стен и этажей в доме. В итоговом датасете примерно
64 000 строк, жить можно!

Придется чуть забежать вперед и рассказать про фичи. Так датасайентисты называют признаки (свойства) примеров из датасета. В нашем примере фичи — это как раз площадь, этаж, материал стен, местоположение, то есть те параметры, по которым будет происходить предсказание. В оценочном обиходе — ценообразующие факторы.

В изначально спарсенном датасете у меня было много фич — все, что смог вытащить с Циана: количество комнат, год постройки, материал стен, этаж квартиры и этажность здания, общая площадь, размер кухни, широта и долгота расположения дома, адрес, округ, тип продажи, возможность ипотеки, лифты в здании.

Погонял модели с полным набором признаков и выяснил, что реальную пользу и повышение точности приносят только те , что выделены жирным. От остальных отказался, хотя интуитивно (и по справочникам оценщиков) год постройки, комнаты и тип продажи (чистая/альтернатива) должны влиять на цену. Но нет, влияние так себе, игнорируем.

Еще есть понятие “фича-инжиниринг”. Это когда мы на основе имеющихся фичей (модные ребята ставят ударение на последний слог) генерируем новые. Я долго колдовал с широтой и долготой, пытаясь сообщить модели нечто важное о местоположении (пресловутый локейшн!), пока не сообразил вычислить два принципиально новых признака: расстояние от центра города и азимут (угол относительно направления на север, в градусах). Бинго! Точность существенно выросла!

Ближе к делу

Код будем писать на языке Python (назван в честь “Летающего цирка Монти Пайтона”, а вовсе не в честь змеи, как можно подумать).
Он легкий и понятный для новичков. Никаких безумных скобок, ручного выделения памяти и строгостей вроде “если эта переменная содержит в себе целое число, то ей нельзя присвоить текстовое значение”. В пайтоне можно! Кроме того, он сейчас де-факто стандарт в сфере анализа данных и для него написана масса библиотек для машинного обучения. Снобы считают пайтон медленным языком (по сравнению с Си, но для наших целей это не критично).

Библиотеки — это расширения возможностей языка. Вместо того, чтобы изобретать велосипеды и писать программу на тысячи строк, можно взять готовый код, сделанный тем, кто решал аналогичную задачу, подключить в свою программу и пользоваться этими наработками.

В процессе будем использовать библиотеки:

  • Pandas — это такой эксель для программистов)) мощнейшая работа с табличными данными, их изучение, комбинирование, фильтрация и т.п.;
  • Scikit-learn — библиотека, содержащая массу инструментов для машинного обучения, от разбиения датасета на выборки, до построения лесов и вычисления метрик;
  • Matplotlib — позволяет строить графики и прочие визуализации;
  • Geopy — вычисляет расстояния между географическими точками;
  • XGBoost — тот самый алгоритм бустинга, о котором шла речь ранее.

Экспериментировать будем в сервисе Google Colab. Он бесплатен, работает в браузере и дает для расчетов GPU — мощный графический процессор NVIDIA Tesla K80, благодаря которому можно кратно ускорить обучение моделей. И там есть Jupyter Notebook.

Jupyter Notebook — оболочка языка Python в которой можно писать код блоками, запуская их поэтапно. Это не очень годится для полноценного программирования, зато удобно для научных расчетов — блоки кода можно перемежать с текстовыми вставками, графиками и т.п., все на одном листе и наглядно.

Для доступа к Colab нужно иметь логин в Гугле и браузер, ничего устанавливать на компьютер не придется. Перейдите по адресу: https://colab.research.google.com/ и залогиньтесь (синяя кнопка Sign In в правом верхнем углу).

Появится окно с вкладками Example, Recent, Google Drive, GitHub, Upload, выберите GitHub (Если не появилось, используйте меню File >Open notebook). В строку поиска вставьте адрес: https://github.com/maxbobkov/ml_moscow_flats/blob/master/moscow_flats_models.ipynb и нажмите Enter:

Colab найдет ноутбук с заранее подготовленным кодом на гитхабе и останется только кликнуть на надпись moscow_flats_models.ipynb справа от логотипа с котиком (на самом деле это не котик)):

Ноутбук загрузится и будет готов к работе. Единственное, подключите графический ускоритель (GPU), пройдя в меню Edit > Notebook Settings > Hardware accelerator, выберите в выпадающем меню GPU вместо None и нажмите Save. Все готово к экспериментам!

Поехали!

Код в ноутбуке разбит на блоки, будем запускать их по порядку. Для исполнения блока встаньте курсором внутрь кода и нажмите на кнопку с треугольником в белом круге, эдакая команда Play (Или нажмите Ctrl+Enter).

В первый раз система ругнется “Warning: This notebook was not authored by Google.”, жмите RUN ANYWAY. Будь, что будет)) Во время исполнения кнопка приходит в движение, на первых блоках это быстро, когда начнется обучение, придется подождать.

Подключаем библиотеки командой import:

Функции — концепция, фантастически упрощающая программирование. Если один и тот же код нужно использовать многократно, мы не пишем его сто раз, а выносим в функцию, записанную определенным образом с инструкцией def, именем функции и аргументами, которые она получает на вход. Потом в нужном месте ее можно вызвать через ее имя, указав конкретные значения аргументов. Я вынес в функции расчет азимута на основании координат центра города и жилого дома, а также расчет метрик и коэффициента детерминации (знаменитый r-квадрат, который, чем ближе к единице, тем лучше модель описывает реальность).

Запускаем этот фрагмент кода, при этом ничего не произойдет, потому что мы просто сообщили компьютеру, что хотим иметь такие-то функции.

Следущий шаг — загрузка датасета. В код вшит адрес, по которому хранятся данные, программа подтянет их. В дело включается библиотека Pandas, она читает csv-файл и преобразует его в свой собственный формат данных — датафрейм (по сути — таблицу), который мы сохраняем в переменной df.

Последняя строка кода df.head(5) выводит 5 первых строк таблицы, чтобы визуально оценить, какой информацией мы располагаем.

А теперь работаем с датасетом, создавая дополнительные признаки и столбцы: цену 1 квадратного метра квартиры (именно это значение мы будем предсказывать), расстояние от центра города и азимут (обратите внимание, что вызывается функция get_azimuth(), объявленная ранее).

На основании вычисленных расстояний отбираем для работы только те предложения, которые расположены не дальше 40 км от центра Москвы, что как раз покрывает территорию Новой Москвы, но отсекает неадекватные варианты, явно расположенные в области. Округляем значения некоторых столбцов и на выходе видим, что признак wallsMaterial имеет тип object (не является числовым, в отличие от остальных), с этим нужно что-то делать, чтобы модель могла работать с материалом стен.

Мои опыты показали, что качество моделей повышается, если отсечь от датасета выбросы, поэтому жертвуем 3 000 строк, значения которых сильно выбиваются из общей картины.

Заменяем текстовые значения в столбце wallsMaterial числовыми при помощи функции LabelEncoder() библиотеки Scikit-learn, результат ее работы — ниже. В первой строке вывода результатов видно на какое именно число заменен определенный тип стен, это знание пригодится дальше.

Последний шаг подготовки к обучению — выделение целевой переменной, той, которую мы будем предсказывать. Традиционно обозначается через переменную y (игрек) и ей присваивается столбец датафрейма “Цена квадратного метра”.

Затем отбираем фичи, которые будут участвовать в обучении модели и формируем новый датасет X, содержащий столбцы с характеристиками, но не содержащий цен.

В последней строке функция train_test_split() автоматически разбивает X и y на четыре группы — тренировочный Х, валидационный (проверочный) Х, тренировочный y, валидационный y. Это позволит нам проверить качество модели на незнакомых ей данных.

Пора обучить первую модель, основанную на алгоритме случайного леса деревьев решений. Создаем объект RandomForestRegressor (ранее импортированный из библиотеки Scikit-learn) и задаем ему ряд настроек (т.н. гиперпараметров), в частности, количество деревьев: 2000 (рощица)), максимальную глубину дерева: 55 уровней и пр., сохраняем его как rf_model. Опущу способы подбора оптимальных гиперпараметров, чтобы не перегружать материал, но в случае интереса гуглите “RandomizedSearchCV”.

Ноутбук уходит на некоторое время в себя, строит деревья и оптимизирует их. Когда модель обучится (за это отвечает метод fit, который применяется к созданной модели rf_model), метод predict предскажет цены для тестовой выборки квартир (val_X). А созданная нами функция print_metrics() получит на вход предсказанные цены и известные нам заранее “правильные”, и напечатает значения метрик. Неплохой r-квадрат и медианная ошибка! Идем дальше.

Подключаем XGBoost, библиотеку градиентного бустинга, обещающего более высокие результаты, чем простой случайный лес. Идея с созданием и обучением модели здесь точно такая же. Создаем ее с определенными гиперпараметрами, учим, предсказываем, считаем метрики. 5,17%, хм, лучше, но не радикально.

Есть еще один способ попытаться улучшить прогноз — усреднить предсказания моделей. В нашем случае это привело к уменьшению средней ошибки до 7.72% при коэффициенте детерминации 0.82. Медианная ошибка: 5.21%. Что ж, далеко до эталонного zillow.com (немного статистики про точность их моделей: https://www.zillow.com/zestimate/), но терпимо для индикативно-прикидочных целей. Кстати, сам Циан заявляет, что в среднем, цена сделки на 8% ниже цены предложения.

Из интересного — есть способ посмотреть важность признаков при построении случайного леса. К вопросу о локейшене — половину ценной информации для оценки несет на себе расстояние от центра города. Следующий по важности — азимут, что логично, не все направления одинаково полезны. Остальные признаки примерно равнозначны, но тоже сделали свой вклад в точность модели. Для сравнения — отброшенные мной признаки: тип отделки, возраст дома, тип продажи — давали вклад порядка 0.5–1%.

А теперь самое интересное. Попробуем оценить единичную квартиру — двушку в панельном доме, выставленную на Циане за 11 700 000 рублей.

Для этого создаем датафрейм из одной строки, описывающий параметры этой квартиры (широту и долготу можно взять на Яндекс.Картах, а wallsMaterial— это одна из цифр, которыми закодированы типы стен, см. выше по тексту), делаем знакомый нам расчет дополнительных фич, прогнозируем цену предложения по обоим построенным моделям (метод predict для ранее натренированных моделей rf_model и xgb_model), усредняем результат и умножаем на площадь квартиры (мы ведь предсказывали цену метра).

11 683 000 рублей против 11 700 000 в объявлении. Магия)

Спасибо за внимание

Короткая заметка об экспериментах с машинным обучением внезапно превратилась в лонгрид, возможно кто-то даже добрался до этих строк))

Играйте с этим кодом, меняйте гиперпараметры, набор фич для обучения, это затягивает! Только держите в голове, что Colab дает рабочее пространство на время, часов через 12 ноутбук превращается в тыкву и его нужно загружать с гитхаба заново. И если что-то пошло не так, используйте меню Runtime > Restart runtime, чтобы обнулить все расчеты и начать заново с первого блока кода.

Методы, которые я продемонстрировал, пока мало применимы в нашей оценочной практике, потому что Стандарты и проверяющие органы привыкли к эксельке с тремя аналогами. А что делать со строчками кода, которые только что переварили 60 000 аналогов и выплюнули какой-то результат не очень понятно.

Но машинное обучение развивается, его элементы применяют уже не только технологические компании. Алгоритмов много, не хватает данных. Тех же цен сделок, чего далеко ходить.

Коллеги, если у вас накопились какие-то интересные данные, с которыми можно поэкспериментировать, или есть желание копнуть тему глубже, моя почта max.bobkoff@gmail.com, буду рад единомышленникам!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *