Выбери любимый жанр

Биологически активные - Галактионов Станислав Геннадиевич - Страница 55


Изменить размер шрифта:

55

Из-за огромного объема связанных с этим работ часто ограничиваются созданием узкоспециализированного банка данных, ориентированного на решение определенного класса частных задач; в последнее время, однако, предприняты успешные попытки создания более универсальных банков данных. Это очень сложно организованные службы (обычно международные), занятые обработкой существующей и сбором постоянно поступающей новой информации о биологической активности химических соединений.

Но, допустим, все эти, в сущности, технические трудности позади. Решены все языковые проблемы, создан банк данных, можно приступать наконец к анализу связи «структура– активность».

Наиболее универсальные подходы к решению задач подобного рода базируются на теории распознавания образов.

Предположим, идете вы по осеннему лесу, помахивая корзиной, в которой лежат две-три сыроежки, и жадно шарите взором по траве. Стоп – шляпка! Наклонившись, срезали. Осмотрели – типичная свинушка. Как вам удалось это установить? Все очень просто, ответит специалист по теории распознавания образов. Каждый гриб можно описать с помощью некоторого набора признаков: пластинчатый или губчатый, цвет шляпки, форма шляпки и ножки, глянцевитая или матовая поверхность, цвет «мяса» и т.п. Обучаясь различению грибов, вы рассматривали представителей различных их видов, причем знающий человек («учитель») вам говорил: вот это, мол, подберезовик, то – волнушка, а вон то – опенок. Иногда он специально указывал на какой-то отличительный признак – скажем, характерным образом подогнутые края шляпки, иногда вы просто полагались на зрительную память. Таким образом, вы вырабатывали для себя решающее правило, с помощью которого теперь уже без помощи учителя сумеете определить вид вновь найденного гриба, то есть отнести его к соответствующему классу подлежащих распознаванию объектов.

Не всегда вы сможете это правило сформулировать вполне четко. Есть признаки, совершенно однозначно определяющие вид (скажем, белые бородавки на ярко-красной шляпке), присущие многим видам (выпуклая форма шляпки) или практически бесполезные при определении вида (размер). Некоторые комбинации признаков, характерных для данного вида, мы часто воспринимаем «на глаз», и если нас спросят, почему мы решили, что это именно опенок, а не шампиньон или (чур, чур!) бледная поганка, объяснить будет трудно, хотя, положив рядом опенок и шампиньон, мы в конце концов сможем указать вполне конкретные различия в отдельных признаках или их комбинациях. Это – так называемая задача обучения распознаванию образов. Если же вы, к примеру, попали на обитаемый остров, где произрастают разные виды грибов, то, будучи человеком наблюдательным, рано или поздно сами создали бы для себя определенную их классификацию (таксономию), необязательно, конечно, совпадающую с общепринятой научной. Это случай так называемого самообучения.

Если описание объекта можно легко формализовать – например, в качестве признаков используются числа, наличие или отсутствие какого-либо элемента и т.п. – почему бы не поручить задачу распознавания вычислительной машине?

Пусть, для простоты, признаков только два, и оба – числа. Например, имеются результаты обследования ребятишек в детском саду; выяснилось, до скольких ребенок умеет считать (признак a) и измерялся его рост (признак b). Представим графически данные, относящиеся к двум группам, старшей и младшей, откладывая по оси абсцисс признак a, а по оси ординат – признак b, так что каждому объекту (ребенку) будет соответствовать точка. Окончив эту работу, мы убедимся, что точки располагаются на графике двумя «роями» – один поближе к началу координат, другой – подальше от него; если же при построении мы наносили разными цветами точки, соответствующие объектам младшей (зеленые) и старшей (красные) групп, мы обнаружим, что совершенно очевидно первый рой образован почти исключительно зелеными точками, второй – красными.

Вычислим средние значения признаков a и b для двух групп и пометим соответствующие точки на графике (центры групп). Можно предложить следующее решающее правило: данный объект принадлежит той группе, ближе к центру которой расположена соответствующая ему точка. Это – пример так называемой геометрической интерпретации задачи распознавания образов. Если теперь нам предстоит определить на основании параметров a и b, к младшей или старшей группе принадлежит данный курносый объект, нам достаточно нанести на график соответствующую точку, измерить расстояния до центров первой и второй групп и сравнить их между собой. ЭВМ, разумеется, такую процедуру выполняет безо всяких графиков, расчетным путем. Обучение в данном случае заключалось в вычислении средних для двух групп.

Внимательно исследовав еще раз график, мы обнаружим, что принятое нами решающее правило срабатывает не всегда: пара зеленых точек расположена ближе к «красному» центру, чем к своему, «зеленому», и наоборот. Действительно, может иногда встретиться в младшей группе вундеркинд, считающий, скажем, до тысячи, а если он к тому же и ростом заметно обогнал сверстников – наша процедура неминуемо совершит ошибку и отнесет его к старшей группе. Причем такие случаи вовсе не являются следствием несовершенства решающего правила: полностью безошибочная классификация на основании только значений параметров a и b здесь невозможна в принципе, а полученное указание на принадлежность объекта именно этой группе следует трактовать таким образом, что он с большей вероятностью относится к ней, чем к другой. (Вспоминается консилиум у постели Буратино: «Пациент скорее жив, чем мертв».)

Существует много способов вычисления этой вероятности; ясно, что такого рода оценку можно сделать уже на основании величин расстояний от рассматриваемой точки до двух центров. На нашем графике нетрудно провести прямую, точки которой в равной степени удалены от каждого из них, и если точка, соответствующая некоторому объекту, расположится именно на ней, мы с помощью нашего решающего правила вообще ничего не сможем сказать о принадлежности объекта той или иной группе.

Очень, конечно же, большое значение имеет выбор параметров, на основании которых происходит распознавание. В рассмотренном примере этот выбор был удачным в том отношении, что параметры a и b независимы (рост и умственное развитие ребенка в данном возрасте необязательно взаимосвязаны). Кроме того, что еще важнее, оба параметра являются существенными, то есть действительно в среднем различны в двух группах, или, как еще говорят, несут информацию о принадлежности объекта одной из групп.

Что же случается, если избранные параметры не удовлетворяют этим требованиям? Проиллюстрируем это на примерах. Пусть мы вначале решаем нашу задачу, используя всего один параметр – рост. Соответствующие различным объектам точки и центры групп располагаются в этом случае на прямой. Мы убедимся, что качество классификации ухудшится. В самом деле, если какой-то мальчуган из старшей группы ростом не вышел, он будет отнесен неправильно (на прямой соответствующая точка расположится, не доходя середины отрезка между двумя центрами); при классификации же на основании двух параметров расстояние до «неправильного» центра окажется уже большим в силу сдвига соответствующей точки по второй оси, параметру a, поскольку по умственному развитию наш объект находится вполне на уровне своего возраста.

Что произойдет, если в качестве второго параметра мы возьмем не независимое от роста умение считать, а величину, связанную с ростом, – например, вес? Точки на нашем графике расположатся узкой восходящей полоской, причем у верхнего ее конца сосредоточатся красные, у нижнего – зеленые. Качество классификации почти не улучшится: второй параметр несет мало дополнительной информации, чаще всего у ребят большего роста окажется и больший вес.

Выбор для описания объекта взаимозависимых (коррелированных) параметров, однако, ошибка не самая страшная; это лишь затрудняет вычисления, но не оказывает отрицательного влияния на результат. В отличие от этого введение несущественных параметров, значения которых не зависят от того, какой группе принадлежит объект, очень сильно сказывается на качестве распознавания, часто делая процедуру вообще неработоспособной.

55
Перейти на страницу:
Мир литературы

Жанры

Фантастика и фэнтези

Детективы и триллеры

Проза

Любовные романы

Приключения

Детские

Поэзия и драматургия

Старинная литература

Научно-образовательная

Компьютеры и интернет

Справочная литература

Документальная литература

Религия и духовность

Юмор

Дом и семья

Деловая литература

Жанр не определен

Техника

Прочее

Драматургия

Фольклор

Военное дело