Матрица мер конвергенции

Матрица мер конвергенции

Матрица мер конвергенции - матрица содержащая в качестве элементов меры сходства объектов. Матрица отражает попарное сходство объектов. Сходство является показателем, измеренном в порядковой шкале и, следовательно, возможно лишь определение отношений вида: "больше", "меньше" или "равно".

Содержание

Матрица абсолютных мер конвергенции

Ha основе матрицы данных легко можно рассчитать матрицу абсолютных мер конвергенций, что, например, для конечных и дескриптивных множеств соответствует матрице пересечений размером n^2. Для вероятностей аналог этой матрицы носит название матрицы совместных вероятностей, а для информационной интерпретации это матрица информационных функций. Матрица симметрична относительно диагонали[1]:

 \begin{bmatrix}
  m_{11} & \cdots & m_{1j} & \cdots & m_{1n} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  m_{i1} & \cdots & m_{ij} & \cdots & m_{in} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  m_{n1} & \cdots & m_{nj} & \cdots & m_{nn} \\
\end{bmatrix}


Этот тип матрицы является основным «документом» исследования (после первичной матрицы данных), т.к. матрица пересечений содержит информацию о числе признаков каждого объекта (по диагонали) и число признаков общих для каждой пары сравниваемых объектов (на пересечении соответствующих столбца и строки). Достоинство данной матрицы состоит в том, что по данным этой матрицы можно рассчитать другие типы матриц (матрицы включения, сходства, транзитивного замыкания и др.), т.е. реализовать принцип воспроизводимости. Элементы матрицы пересечений определяются по формуле (известна как мера процентного сходства):

 m_{ij} = \sum_{k=1}^r min(a_{ik},a_{jk}),

где  a_{ik} \geqslant 0; a_{jk}) \geqslant 0 - элементы первичной матрицы данных. Если элементы матрицы нормировать, то получаем относительную матрицу мер конвергенции, которая очень легко вычисляется (в сравнении с другими матрицами конвергенции).

Матрица относительных несимметричных мер конвергенции

Данная матрица несимметрична относительно диагонали. Широко известна под названием матрица включения Её можно получить двумя способами: определить две несимметричные меры сходства для каждой пары объектов или получить матрицу из матрицы абсолютных мер конвергенции. Для второго варианта необходимо элементы каждой строки матрицы пересечения разделить на соответствующий этой строке диагональный элемент:

 \begin{bmatrix}
  m_{11}/m_{11} & \cdots & m_{1j}/m_{11} & \cdots & m_{1n}/m_{11} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  m_{i1}/m_{ii} & \cdots & m_{ij}/m_{ii} & \cdots & m_{in}/m_{ii} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  m_{n1}/m_{nn} & \cdots & m_{nj}/m_{nn} & \cdots & m_{nn}/m_{nn} \\
\end{bmatrix}


Для устранения неоднозначности необходимо указать направление включения одного объекта в другой. Обычно указывают стрелкой и определяют включение слева направо. Из этой матрицы можно получить ориентированные графы включения-сходства при определённом пороге близости. В указанной матрице хорошо видны отношения между объектами, у которых сильно различается число признаков (разновеликие объекты). Следует особо отметить, что меры несимметричные более информативны в общем и особенно для разновеликих по числу признаков объектов, чем меры симметричные, т.к. последние, по сути, представляют собой усреднённые показатели и, следовательно, теряют часть информации об объектах, а несимметричные меры (включения) адекватно оценивают более распространённые в природе нетранзитивные отношения. Например, первый объект может включаться на 100% во второй объект, а второй список, в свою очередь, включается только на 10%. При этом симметричная мера не сможет адекватно отразить эти отношения, т.к., например, 10 общих признаков значительны для одного объекта с 10 признаками, но не столь значимы для большого объекта с 100 признаками. Мера сходства Сёренсена в данном случае будет равна около 20%.

Матрица относительных симметричных мер конвергенции

Более известна как матрица сходства[2]. Данная матрица симметрична относительно диагонали. Её можно получить также двумя способами: определить симметричную меру сходства для каждой пары объектов или рассчитать её из матрицы несимметричных мер конвергенции. Второй способ заключается в симметризации матрицы включения через осреднение двух несимметричных мер и требует согласованности мер в пределах одного класса эквивалентности. В общем виде матрица выглядит так:

 \begin{bmatrix}
  1 & \cdots & K_{1j} & \cdots & K_{1n} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  K_{i1} & \cdots & K_{ij} & \cdots & K_{in} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  K_{n1} & \cdots & K_{nj} & \cdots & 1 \\
\end{bmatrix}


По диагонали стоят 1, т.к. сходство объекта с самим собой максимально. Наиболее информативна она для существенно равновеликих объектов, т.е. для объектов, количество признаков которых несущественно различается. Графически отношения сходства обычно выражается через графовые алгоритмы кластеризации. Концептуально матрица является двойственной матрице расстояний и, соответственно, в матрице расстояний по диагонали стоят нули.

Литература

  1. Сёмкин Б. И., Куликова Л.С. Методика математического анализа списка видов насекомых в естественных и культурных биоценозах. Владивосток: ТИГ ДВНЦ АН СССР, 1981. 73 с.
  2. Дюран Б., Оделл П. Кластерный анализ. – М.: Статистика, 1977. – 128 с.

Wikimedia Foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Полезное


Смотреть что такое "Матрица мер конвергенции" в других словарях:

  • Коэффициент сходства — (также мера сходства, индекс сходства) безразмерный показатель, применяемый в биологии для количественного определения степени сходства биологических объектов. Также известен под названиями: мера ассоциации, мера подобия и др. более редкие… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»