Анализ данных

В нашей лаборатории мы используем множество методов обработки и анализа данных, в том числе следущие методы:

Линейная регрессия

Линейная регрессия – метод для предсказания количественного отклика (Y) на основе одной или нескольких переменных (качественных и/или количественных, X) и подразумевает, что между ними линейная зависимость.

Позволяет ответить на такие вопросы как:

  • Существует ли зависимость между X и Y?
  • Насколько сильна связь между X и Y?
  • Какой из предикторов связан с изменением Y?
  • Насколько точно можно спрогнозировать значение Y на основе X?
  • Линейна ли связь между X и Y?
  • Существует ли эффект взаимодействия между предикторами?

Регрессия на главные компоненты

Регрессия на главные компоненты – вариант регрессионного анализа, где в качестве предикторов включаются значения нескольких главных компонент, при этом при построении главных компонент не учитываются данные отклика

Регрессия по методу частных наименьших квадратов

Регрессия по методу частных наименьших квадратов аналогична регрессии на главные компоненты, однако нахождение новых переменных, которые будут использованы в качестве предикторов, связано с откликом. В ряде случаев результаты регрессии по методу наименьших квадратов наилучшим образом описывают данные.

Логистическая регрессия

Логистическая регрессия – метод для предсказания качественного отклика (Y) на основе одной или нескольких переменных (качественных и/или количественных, X), относится к методам классификации.

Позволяет ответить на вопросы типа:

  • какое заболевание наиболее вероятно при определенном наборе симптомов и данных лабораторной диагностики?
  • Если у пациента выявлен ряд мутаций, какова вероятность того, что он болен?
  • Какие предикторы наилучшим образом предсказывают есть у человека заболевание или нет?

Гребневая и лассо- регрессия

Гребневая регрессия – метод схожий с линейной регрессией. Если при выборе линейных коэффициентов в случае линейной регрессии чаще всего используется метод наименьших квадратов и на основе этого подбирается оптимальный набор предикторов и единственное значение коэффициентов, то в случае гребневой регрессии возможно получение набора коэффициентов для всех предикторов. Метод более гибкий, но требует дополнительных вычислений для нахождения оптимальных параметров.

Лассо-регрессия – метод аналогичный гребневой регрессии, но также позволяет осуществлять отбор предикторов и позволяет получить разреженные модели (модели, в которых ограниченное множество предикторов).

Дискриминантный анализ

Дискриминантный анализ – метод классификации, который используют как правило при количестве вариантов значений отклика больше двух и в том случае, когда логистическая регрессия не дает достаточно устойчивую модель.

Линейный дискриминантный анализ – метод классификации, в основе которого лежит предположение о нормальном или многомерном нормальном распределении предикторов в каждом классе.

Квадратичный дискриминантный анализ – метод классификации, в основе которого лежит предположение о том, что предиктор представлен квадратичной функцией.

Метод классификации K-ближайших соседей

Метод K-ближайших соседей основан на байесовском классификаторе и при оценке принадлежности к классу используется информация о принадлежности к значению отклика ближайших соседей, количество которых задается исследователем.

Кросс-валидация

Метод оценки качества моделей, основанный на случайном разбиении наблюдений на обучающую и проверочную выборку. При этом построение и подгонка модели проводится на обучающей выборке, а проверочная выборка используется для итоговой оценки качества модели на независимых данных. Несмотря на простоту и интуитивную понятность кросс-валидация зависит от вариабельности данных в обучающей и проверочной выборке.

Перекрестная проверка по отдельным наблюдениям

Перекрестная проверка по отдельным наблюдениям – метод оценки качества модели, при проведении которого последовательно выбирается в качестве проверочного каждое наблюдение, а остальные n-1 наблюдений выступают в качестве обучающей выборки. Применение метода ресурсоемко, но позволяет получить несмещенную оценку ошибки и не переоценивает частоту ошибок на контрольной выборке.

k-кратная перекрестная проверка

k-кратная перекрестная проверка аналогична перекрестной проверке по отдельным наблюдениям, но исходная выборка разбивается не на отдельные наблюдения, а на k блоков. Соответственно наблюдения из каждого блока служат в качестве проверочной выборки, а по k-1 блоку проводится подгонка модели.

Бутстреп

Бутстреп – метод для количественного описания неопределенности в отношении оценки оценки параметра или метода. В основе метода лежит получение многократного получения различных наборов данных из уже имеющейся совокупности вместо получения независимых наборов данных из генеральной совокупности.

Регрессионные сплайны

Регрессионные сплайны – метод основанные на разбиении интервала значений на K непересекающихся областей и в пределах каждой области к данным подгоняется полиномиальная функция, при этом на границах областей (узлах сочленения) происходит их гладкое соединение. Модели с применением регрессионных сплайнов отличаются высокой гибкостью.

Локальная регрессия

Локальная регрессия – метод похожий на регрессионные сплайны, но областям значений предиктора разрешено перекрываться, что при водит к большей гладкости модели.

Обобщенные аддитивные модели

Обобщенные аддитивные модели допускают использование нелинейных функций каждого предиктора при одновременном сохранении аддитивности. Этот класс моделей, как и линейные возможно применять как для качественных, так и для количественных откликов. Компромисс между линейными и полностью непараметрическими моделями.

Деревья решений

Деревья решений – метод, который применяется как для решения задач классификации, так и для задач регрессии. Сама модель заключается в наборе правил разбиения, следуя которым мы получаем либо область значения количественного отклика в случае регрессионных деревьев, либо принадлежность к определенному классу, если отклик качественный, такие деревья называются деревьями классификации.

Деревья решений являются простыми в интерпретации, деревья просто изобразить визуально, но без использования дополнительных методов не настолько точны в прогнозах как другие методы.

Беггинг деревьев решений

Беггинг или бутстреп-аггрегирование часто используется при использовании моделей на основе деревьев решений и заключается в построении N регрессионных деревьев на основе N обучающих бутстреп выборок и усредняем получающиеся предсказания или классифицируем признак в зависимости от большинства «голосов» при построении деревьев классификации.

Использование бэггинга повышает точность модели за счет снижения интерпретируемости.

Бустинг деревьев решений

Бустинг деревьев решений – метод улучшения предсказательной способности деревьев решений. Заключается в последовательном построении деревьев решений, при этом не создаются бутстреп выборки, а используется определенным образом модифицированый исходный набор данных.

Random forest (случайные леса)

Случайные леса – метод направленный на устранениекорреляции между деревьями при бэггинге. Для этого при каждой итерации случайным образом выбирают не только наблюдения, но и переменные, на основе которых будет строится каждое дерево.

SVM (машина опорных векторов)

Машина опорных векторов – метод, предназначенный для классификации на основе линейной или нелинейной разделяющей гиперплоскости. При хорошей разделимости классов машины опорных векторов предпочтительнее логистической регрессии. Также существуют расширения метода на случай регрессии.

Анализ главных компонент

Анализ главных компонент – метод, направленный на снижение размерности признакового пространства. Он основан на нахождении скоррелированных переменных и нахождении такой их линейной комбинации, вдоль которой наблюдается наибольшая дисперсия. Таким образом выделяют переменные (главные компоненты), которые описывают исходные данные.

Анализ главных компонент полезен для визуализаици при наличии большого количества переменных, а также при большой зашумленности данных.

Кластерный анализ

Кластеризация – широкий круг методов, направленных на обнаружение групп, или кластеров, в данных. Выполняя кластеризацию, мы пытаемся разбить их на отдельные группы таким образом, чтобы наблюдения внутри каждой группы были похожи друг на друга , а наблюдения из разных групп заметно отличались.