Критерии кластеризации
18.01.2023Я использовал 19 переменных из базы данных в качестве критериев кластеризации, и начал рисовать диаграммы — стремясь воспроизвести число профилей по Миллеру и Фризену, — чтобы посмотреть, почему алгоритм кластеризации расположил одни кейсы ближе друг к другу, а другие — дальше друг от друга. Опять-таки, процитируем Андерберга : «Механически выводимые из набора данных путем применения какого-либо алгоритма кластерного анализа результаты сами по себе пусты, лишены какой бы то ни было валидности или претензии на истинность; такие результаты всегда нуждаются в истолковании... Чтобы повысить доходность майнинга, кластерный анализ требует активного участия аналитика в интерпретации результатов и обсуждении их значимости. Эта стадия процесса субъективна, интуитивна и эвристична. Если предполагается, что некие объекты находятся в изначально не предполагавшемся отношении друг к другу, и их поместить рядом в результате кластеризации, их сопоставление может быть самодостаточным, чтобы появилась искра признания или распознания, которое, в свою очередь, приводит к открытию; кластеризация может переместить объект из его изначального контекста, так что на него удастся взглянуть под иным углом зрения. Значительная часть этой интерпретативной стадии связана с умением аналитика использовать свои способности к суждению и субъективной оценке для нахождения устойчивых связей благодаря “вдохновению”».
Некоторое время спустя летом я начал готовиться к переезду в Шарлоттвилль, Вирджиния, для занятия позиции в Университете Вирджинии и начал писать своего рода «мини-диссертацию» — предварительное изложение/ резюме/краткий обзор для Карла, чтобы он смог его прочитать по возвращении из Бэбсон-колледжа. Я перестал присматривать за домом Карла, как и за домом его родителей, что я делал на протяжении нескольких недель. В обоих домах были столовые, так что, оставаясь в любом из них, я мог располагаться там, чтобы сортировать мои кейсы по разным кластерам. Я раскладывал кейсы по всей длине обеденного стола, и вдоль коридора, помещая каждый кейс в соответствующее место на дендограмме, а потом я прочитывал файл с каждым кейсом, смотрел на профиль кейса, пытаясь понять, почему эти кейсы располагались рядом друг с другом, и определить, начиная с какого момента ряд кейсов образует группу, отличную от других. Таким образом, много дней я провел, стоя на стуле в одной из этих столовых, глядя на стопки кейсов и стремясь увидеть во всем этом какой-то смысл, установить различия или сходство между ними.
В каком-то смысле мне хотелось объяснить самому себе, как эти кейсы могут быть сгруппированы и на основе какого руководящего начала, и как «архетипы» разных типов стартапов, и как эмпирические формы, которые можно в строгом математическом смысле разделить на разные группы. Типология из восьми групп, которые могут быть разбиты на восемь кластеров на девятнадцатом уровне, показалась мне наиболее разумной, ибо я считал, что смогу рассказать о каждой из этих групп такую историю, которая до некоторой степени оправдает их помещение в соответствующий кластер. Пользуясь алгоритмом кластеризации, я мог показать, что каждый из этих кластеров — при использовании определенных переменных для кластеризации — статистически значимо отличается от других.