Покажи мне свой сайт, и я скажу, кто ты


Покажи мне свой сайт, и я скажу, кто ты
02 февраля 2015

Исследование того, как научная организация представлена в веб-пространстве — это новый способ определения её эффективности. В числе других он будет использоваться при проверке академических институтов, которую проведёт ФАНО. Принципы работы метода были представлены на семинаре в Институте автоматики и электрометрии СО РАН.

«Сегодня сложилась такая ситуация, когда для научных организаций всё большее значение приобретают различные рейтинги. Учёным постоянно приходится отчитываться о цитируемости и профессиональных контактах, очень важную роль играет импакт-фактор — персональный, журнала, института. Поскольку эти показатели стали влиять на размер зарплаты, в научном мире активно распространяется такое явление, как «дружественное цитирование» (когда за счет своих публикаций учёный поднимает позиции товарища),— говорит заведующий лабораторией прикладного анализа Института математики им С. Л. Соболева СО РАН, член-корреспондент Андрей Юрьевич Веснин. — Что же касается рейтингов, связанных с присутствием научной организации в интернете,  то их уже начали активно использовать, но пока ещё не пытаются накручивать. Поэтому на сегодняшний день, с моей точки зрения, они дают довольно объективную информацию».

Группа учёных из Института вычислительных технологий СО РАН совместно с коллегами из ИМ СО РАН занимаются изучением академического веб-пространства. В последние три года работы проводились в рамках интеграционного проекта Сибирского отделения «Исследование закономерностей и тенденций развития самоорганизующихся систем на примере веб-пространства и биологических сообществ».

Всё началось с рейтинга научных организаций, разработанного в 2000-х годах испанскими учёными (сегодня он уже является международным), который изучает сайты, исходя не из количества посещений, а, по словам создателей, принимая во внимание «известность в академических сообществах». Она высчитывается с помощью некоторых параметров, извлекаемых с помощью поисковых систем (google и прочие): числа страниц на сайте, того, сколько на него  есть внешних ссылок, количества присоединённых документов в форматах, наиболее часто используемых для публикации научных статей и презентаций, и цитируемости в интернете.

«Первый свой рейтинг мы построили в 2008 году. Сначала он был почти точно такой же, как у испанских коллег, но потом у нас возникли некоторые вопросы, которые имеющаяся система не решала. В частности, экспертная оценка показала, что получаемые данные соответствуют действительности (информация проверялась с помощью сторонних программ), но недостаточно точны. Тогда мы решили построить свою программу по исследованию сайтов и ссылок между ними. Она была отлажена на ресурсах Сибирского отделения, и затем с помощью неё было изучено около 300 сайтов научных организаций России, Германии и Сербии», — рассказывает заместитель главного учёного секретаря СО РАН, старший научный сотрудник Института вычислительных технологий СО РАН, кандидат физико-математических наук Ольга Анатольевна Клименко.

Сообщества академических организаций в системе новосибирских учёных представлены в виде графов, на которых показаны сайты (вершины) и существующие ссылки между ними (ребра). Так, на получившихся картинках видно, что институты СО РАН очень тесно друг с другом взаимодействуют. Внутри больших сообществ выделяются маленькие кластеры. Например, граф Сибирского отделения наглядно демонстрирует, что ИАиЭ СО РАН наиболее тесно сотрудничает с ИВТ СО РАН, ИМ СО РАН и Объединённым учёным советом СО РАН по нанотехнологиям и информационным технологиям, а с организациями физического профиля контактов у него оказалось не так много.

Сравнение результатов работы программы с независимой оценкой экспертов показало, что она отражает реальное положение дел. «Когда тот или иной интеграционный научный проект признаётся удачным, это отражается в веб-пространстве в виде ссылок. Если же сотрудничество оказалось чисто формальным и не пошло, то и в интернете его не наблюдается», — утверждает Ольга Анатольевна. Однако для составления полной картины имеющихся методов оказалось недостаточно, и к проекту привлекли учёных ИМ СО РАН, чтобы они разобрались, как устроена эта система и как ею управлять.

Андрей Юрьевич Веснин рассказал, что сейчас наибольшей популярность пользуется модель галстука-бабочки. Каждый интернет-граф здесь пытаются разбить на компоненты, где в центре — сильносвязанные структуры (это множество вершин, где из одной всегда можно попасть в другую), а по краям — те, из которых легко  перейти к первым, и те, к которым легко перейти из первых (иногда они совпадают со вторыми, иногда — нет).

Пользуясь знаниями о том, как выстраиваются отношения между компонентами графа, можно поднять отдельно взятый сайт в том или ином рейтинге. Первый способ: наладить связь с самым сильным элементом системы. Как правило, когда человек ходит по интернету, он продвигается по ссылкам не более чем на 6 шагов (здесь действует знаменитый «принцип шести рукопожатий»). Чем больше у лидера ссылок на вас, тем чаще пользователи, заходящие на его страницу (а поскольку он популярен, их очень много), будут попадать по ссылке к вам.

Второй способ: сговориться с аутсайдерами. Например, существует некоторый граф из 106 вершин. Группа из пяти элементов задалась целью поднять свои позиции. В таком случае план действий таков: сначала каждый её член делает много ссылок на каждого. Когда кто-то новый приходит на один из «сговорившихся» сайтов, он попадает в этот круг и какое-то время в нем прокручивается, тем самым повышая рейтинг всех пяти участников. Здесь имеет значение именно замкнутость, небольшая величина группы, ведь если она будет слишком крупной, такого эффекта не получится. Дополнительный бонус возникает, если кому-то из участников удаётся наладить связь с лидером — так он автоматически повышает позиции дружественных сайтов.

Третий способ: самим сделать ссылки на всех. Таким образом, ваши пользователи будут заходить на множество других вершин графа, и в программе вы будете выглядеть как сильносвязаннный компонент.

Известны случаи, когда, зная параметры рейтинга, научно-образовательные организации пытались продвинуться в нём с помощью специальных ухищрений. Один московский университет загрузил на свой веб-ресурс всю информацию, накопленную за предыдущие годы. Так им удалось сделать его очень «тяжёлым» и на какое-то время поднять позиции. Другой, уже новосибирский, вуз на своем сайте предоставил студентам возможность поздравлять друг друга с днём рождения, и — очевидно — посещаемость резко возросла.

По словам исследователей, поскольку все организации с разной степенью серьезности подходят к наполнению своих веб-ресурсов, исходные данные являются недостаточно точными. В результате и рейтинг получается примерным. Первые 20 сайтов иногда немного меняются друг с другом местами, но остаются лидерами. Так что надо ставить себе задачу, не занять среди них какое-то определённое место, а хотя бы попасть в их число.

Также учёные отмечают, что любые уловки по накрутке помогу лишь на время. Исследования показали: реальная академическая репутация организации все равно даст о себе знать. «Лидерство в науке и в веб-пространстве коррелируютс. Если институт действительно сильный, то его сайт, даже будучи совершенно старым и «замшелым», будет иметь очень высокий рейтинг, потому что там содержится важнейшая информация, на которую часто ссылаются», — комментирует Ольга Анатольевна.