LiteNet.Ru - Актуально о ПК и ПО. 2006-2019.
СТАТЬИ | НОВОСТИ | ПРОГРАММЫ | ОБРАТНАЯ СВЯЗЬ | КАРТА САЙТА
Сейчас на сайте: 5 пользователей онлайн
Обновления
Материал Установил CentOS 7 как легко и просто настроить ssh доступ? [24.03.24]
Комментарии Спасибо... [17.02.24]
Материал Форма ввода php [08.05.23]
Материал Windows 11 LTSC выйдет во второй половине 2024 года [08.05.23]
Материал Microsoft прекратит выпуск обновлений для Windows 10 [29.04.23]
Комментарии Огромный респект и... [04.10.22]
Комментарии не помогло... [10.07.22]
Комментарии не получается войт... [02.11.21]
Комментарии Да нет в редакторе... [05.10.21]
Комментарии Toshiba Tecra s11 ... [21.07.21]
Комментарии Все получилось, сп... [21.07.21]
Комментарии не сработало... [04.06.21]
Комментарии Доброго времени! У... [27.03.21]
Комментарии У меня этот метод ... [19.03.21]
Комментарии всё испробовал,не ... [17.03.21]
Материал Представлена настоящая зарядка по воздуху Xiaomi Mi Air Charge [31.01.21]
Материал Отныне для запуска WhatsApp на ПК и в браузере требуется биометрия [31.01.21]
Материал Google Chrome 88.0.4324.104 [31.01.21]
Материал Avast Free Antivirus 20.10.5824 [31.01.21]
Материал Яндекс.Браузер 20.12.3.138 [31.01.21]
Материал Maxthon 6.1.1.1000 [31.01.21]
Материал MKVToolnix 53.0.0 [31.01.21]
Материал ProduKey 1.95 [31.01.21]
Комментарии Самый лучший брауз... [17.11.20]

RSS

Последние добавленные статьи

Поисковик - орудие хакера.
21.02.2006

Не для кого не секрет, что сегодня в Интернете можно найти практически любую информацию. Главное, это правильно сформулировать запрос к поисковой машине. Наряду с добропорядочными пользователями (вроде нас с вами) этим незатейливым методом пользуются злоумышленники, для поиска паролей, номеров кредитных карт, конфиденциальных данных и, наконец, уязвимых сценариев. Стоит также отметить, что в последнее время эту же технологию начали активно использовать вирусы (вспомним недавнюю эпидемию червя, выискивающего и заражающего форумы на популярном движке phpBB). Что придаёт ещё большую актуальность проблеме.

С целью как-то повлиять на сложившуюся ситуацию, разработчиками поисковых систем предпринимаются попытки заблокировать некоторые из наиболее часто используемых злоумышленниками (вирусами) запросов. Однако, по понятным причинам (всё заблокировать невозможно), в чёрные списки (временно либо навсегда) попадает лишь их незначительная часть. А остальные запросы продолжают использоваться для совершения противоправных действий.

Учитывая всё вышесказанное, складывается ситуация, когда спасение утопающих становится делом рук самих утопающих. Только в данном случае в роли утопающих будут выступать веб-мастера хранящие на своих сайтах конфиденциальную информацию и не желающие, чтобы она была найдена посторонними. С целью помочь последним тьфу, т.е. предпоследним =) и была написана данная статья, пускай она послужит, своего рода, спасательным кругом для них.

Итак, прежде чем приступить к решению нашей основной задачи, давайте разберёмся, каким образом поисковыми системами осуществляется сбор информации о ресурсах в сети.

Сбор информации поисковыми системами
Любая поисковая система представляет из себя огромное хранилище информации, собираемой специальными роботами - так называемыми пауками-ползунами (Spiders). Говоря голосом ведущего передачи "В мире животных" =) - эти забавные зверюшки переходят с одного узла всемирной паутины на другой (для перехода используются адреса найденные на странице и в частности гиперссылки), собирая данные о каждом из них. Затем возвращаются на свой сервер и передают ему эту информацию. Там данные приводятся в надлежащий вид и заносятся в базу данных, после чего информация может быть найдена с помощью поисковой системы.

Разумеется, алгоритм индексации (т.е. занесения в БД) каждой отдельно взятой поисковой машины несколько отличается от остальных . Но данный принцип остаётся неизменным для всех.

Защита информации от индексации поисковиками
Теперь, когда мы знаем, как ведёт себя поисковик при индексации нашего сайта давайте вернёмся к основному вопросу этой статьи - как же всё-таки обезопасить конфиденциальные данные на своём веб-сайте от индексации поисковыми системами? Ниже я приведу некоторые из известных мне методов.

Метод "номер раз" – скрываем URL
Для того, чтобы находящийся на вашем сайте ресурс (файл либо каталог) не был проиндексирован поисковиками, его адрес (url) не должен значиться ни в одном доступном поисковым машинам документе, он также не должен быть начальной страницей сайта и нежелательно, чтобы он являлся "индексным" (выдаваемом по умолчанию) в каком-либо каталоге. Этих условий в принципе достаточно. Однако, при определённом стечении обстоятельств с первым условием могут возникнуть "накладки". Так как во время работы с конфиденциальным ресурсом его адрес, каким-то образом может случайно "засветиться" на странице доступной поисковику. Например, если этот визит зафиксирует система статистики... Поэтому я рекомендую ознакомиться со следующим , более надёжным способом.

Метод два - Meta тэги и файл robots.txt
Специально для управления поведением пауков на вашем сайте в HTML'е предусмотрен параметр Meta тэга - ROBOTS. Который может принимать значения:
index/noindex - индексировать, не индексировать соответственно;
follow/nofollow - следовать, не следовать.
Например так:

...

...

...

...

В данном случае паук проиндексирует страницу, но дальше по ссылкам не пойдёт.

Для тех же целей, служит файл robots.txt, располагающийся в корне веб-сайта. Обычно он используется для указания членистоногим, куда соваться не следует. Например, чтобы не один паук не залезал в каталоги "cgi-bin" и "admin" нам следует заполнить файл robots.txt так:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /admin/

!!! Будьте крайне осторожны и внимательны, заполняя файл "robots.txt"! Указывая адреса ресурсов, убедитесь, что права доступа к ним установлены надлежащим образом (см. ниже)!!! Дело в том, что данный файл на самом деле является «палкой о двух концах». С одной стороны в нём вы указываете поисковикам, куда лезть не следует, а с другой, сообщайте злоумышленникам, куда бы залезть не помешало 

Метод 3 - Права доступа
К сожалению, не все поисковые системы смотрят на описанные в пунке 2 механизмы (основные смотрят, но всё же ...). Поэтому самым надёжным способом для укрытия конфиденциальных данных от поисковых машин (кстати говоря и не только от них является ограничение доступа к таким данным неавторизированным пользователям, т.е. пользователям, которые не ввели "логин" и пароль соответствующим образом. В самом распространённом на сегодняшний день веб-сервере - Apache для этих целей служит файл .htaccess . Например, чтобы ограничить доступ таким пользователям к содержимому каталога "/admin/", в этом каталоге необходимо разместить следующий файл ".htaccess":

AuthUserFile полный_путь_к_каталогу/admin/.htpasswd
AuthType Basic
AuthName "Название закрываемого ресурса"
require valid-user

Обратите внимание: полный_путь_к_каталогу это не универсальный локатор ресурсов (URL), а путь к директории на сервере.

.htpasswd - файл содержащий список имён пользователей в системе (login'ы) и соответствующие MD5-хэши паролей.

Содержимое ".htpasswd" выглядит примерно так:

pupkin:MgFw1vnaW/tJk
abc-it:mWaquosh.OY3w
john:EMt8amknyuYD2

Для создания и заполнения файлов ".htpasswd" вы можете использовать одну из многочисленных бесплатно распространяемых специализированных программ (можно найти версии как для Unix, так и для Windows, используя всё те же поисковые системы.

Заключение
Как вы видите, методов защиты конфиденциальной информации от индексации в поисковых системах довольно много. В этой статье я перечислил лишь некоторые известные мне варианты. Если вы можете предложить какие-либо ещё, не стесняйтесь, напишите мне об этом. В любом случае буду рад увидеть ваши отзывы (даже если они не будут положительными) На этом разрешите откланяться!

Что еще почитать?


Оставленные комментарии:


Всего 0 комментариев


Введите Ваше имя:


Не используйте HTML и ВВ-коды - не работает. Пользуйтесь смайликами :)
Very HappySmileLaughingCoolWinkSurprised
RazzSleepSadShockedEvil or Very MadRolling Eyes

В этом поле Вы можете ввести текст комментария:


До конца всего осталось символов

Код на БОТливость: Код на БОТливость:
Введите код: