LiteNet.Ru - Актуально о ПК и ПО. 2006-2019.
СТАТЬИ | НОВОСТИ | ПРОГРАММЫ | ОБРАТНАЯ СВЯЗЬ | КАРТА САЙТА
Сейчас на сайте: 5 пользователей онлайн
Обновления
Материал Mozilla Firefox 66.0.5 [10.05.19]
Материал AIMP 4.51.2084 [10.05.19]
Материал RealTimes (RealPlayer) 18.1.16.216 [10.05.19]
Материал Uninstall Tool 3.5.7 [10.05.19]
Материал Hamachi 2.2.0.633 [10.05.19]
Материал Paint.NET 4.1.6 [10.05.19]
Материал PotPlayer 1.7.18346  [10.05.19]
Материал USB Manager 2.05 [10.05.19]
Материал Rufus 3.5 [10.05.19]
Материал Gimp 2.10.10 [10.05.19]
Материал Lazesoft Recover My Password 3.5.3 [10.05.19]
Материал WinScan2PDF 4.77 [10.05.19]
Комментарии dynabook Satellite... [29.03.19]
Комментарии СПАСИБО!!! Получил... [04.03.19]
Комментарии Уважаемый Професси... [11.01.19]
Комментарии спасибо... [14.12.18]
Комментарии Спасибо, не заняло... [05.12.18]
Комментарии Toshiba satelit a2... [25.11.18]
Комментарии Вы шутите?... [23.11.18]
Комментарии Отличный продукт. ... [18.11.18]
Комментарии На второй вкладке ... [10.09.18]
Комментарии Помогло трёхсекунд... [04.07.18]
Комментарии Toshiba 440CDT Пр... [04.07.18]
Комментарии Не совсем согласен... [19.06.18]

RSS

Последние добавленные статьи

Поисковик - орудие хакера.
21.02.2006

Не для кого не секрет, что сегодня в Интернете можно найти практически любую информацию. Главное, это правильно сформулировать запрос к поисковой машине. Наряду с добропорядочными пользователями (вроде нас с вами) этим незатейливым методом пользуются злоумышленники, для поиска паролей, номеров кредитных карт, конфиденциальных данных и, наконец, уязвимых сценариев. Стоит также отметить, что в последнее время эту же технологию начали активно использовать вирусы (вспомним недавнюю эпидемию червя, выискивающего и заражающего форумы на популярном движке phpBB). Что придаёт ещё большую актуальность проблеме.

С целью как-то повлиять на сложившуюся ситуацию, разработчиками поисковых систем предпринимаются попытки заблокировать некоторые из наиболее часто используемых злоумышленниками (вирусами) запросов. Однако, по понятным причинам (всё заблокировать невозможно), в чёрные списки (временно либо навсегда) попадает лишь их незначительная часть. А остальные запросы продолжают использоваться для совершения противоправных действий.

Учитывая всё вышесказанное, складывается ситуация, когда спасение утопающих становится делом рук самих утопающих. Только в данном случае в роли утопающих будут выступать веб-мастера хранящие на своих сайтах конфиденциальную информацию и не желающие, чтобы она была найдена посторонними. С целью помочь последним тьфу, т.е. предпоследним =) и была написана данная статья, пускай она послужит, своего рода, спасательным кругом для них.

Итак, прежде чем приступить к решению нашей основной задачи, давайте разберёмся, каким образом поисковыми системами осуществляется сбор информации о ресурсах в сети.

Сбор информации поисковыми системами
Любая поисковая система представляет из себя огромное хранилище информации, собираемой специальными роботами - так называемыми пауками-ползунами (Spiders). Говоря голосом ведущего передачи "В мире животных" =) - эти забавные зверюшки переходят с одного узла всемирной паутины на другой (для перехода используются адреса найденные на странице и в частности гиперссылки), собирая данные о каждом из них. Затем возвращаются на свой сервер и передают ему эту информацию. Там данные приводятся в надлежащий вид и заносятся в базу данных, после чего информация может быть найдена с помощью поисковой системы.

Разумеется, алгоритм индексации (т.е. занесения в БД) каждой отдельно взятой поисковой машины несколько отличается от остальных . Но данный принцип остаётся неизменным для всех.

Защита информации от индексации поисковиками
Теперь, когда мы знаем, как ведёт себя поисковик при индексации нашего сайта давайте вернёмся к основному вопросу этой статьи - как же всё-таки обезопасить конфиденциальные данные на своём веб-сайте от индексации поисковыми системами? Ниже я приведу некоторые из известных мне методов.

Метод "номер раз" – скрываем URL
Для того, чтобы находящийся на вашем сайте ресурс (файл либо каталог) не был проиндексирован поисковиками, его адрес (url) не должен значиться ни в одном доступном поисковым машинам документе, он также не должен быть начальной страницей сайта и нежелательно, чтобы он являлся "индексным" (выдаваемом по умолчанию) в каком-либо каталоге. Этих условий в принципе достаточно. Однако, при определённом стечении обстоятельств с первым условием могут возникнуть "накладки". Так как во время работы с конфиденциальным ресурсом его адрес, каким-то образом может случайно "засветиться" на странице доступной поисковику. Например, если этот визит зафиксирует система статистики... Поэтому я рекомендую ознакомиться со следующим , более надёжным способом.

Метод два - Meta тэги и файл robots.txt
Специально для управления поведением пауков на вашем сайте в HTML'е предусмотрен параметр Meta тэга - ROBOTS. Который может принимать значения:
index/noindex - индексировать, не индексировать соответственно;
follow/nofollow - следовать, не следовать.
Например так:

...

...

...

...

В данном случае паук проиндексирует страницу, но дальше по ссылкам не пойдёт.

Для тех же целей, служит файл robots.txt, располагающийся в корне веб-сайта. Обычно он используется для указания членистоногим, куда соваться не следует. Например, чтобы не один паук не залезал в каталоги "cgi-bin" и "admin" нам следует заполнить файл robots.txt так:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /admin/

!!! Будьте крайне осторожны и внимательны, заполняя файл "robots.txt"! Указывая адреса ресурсов, убедитесь, что права доступа к ним установлены надлежащим образом (см. ниже)!!! Дело в том, что данный файл на самом деле является «палкой о двух концах». С одной стороны в нём вы указываете поисковикам, куда лезть не следует, а с другой, сообщайте злоумышленникам, куда бы залезть не помешало 

Метод 3 - Права доступа
К сожалению, не все поисковые системы смотрят на описанные в пунке 2 механизмы (основные смотрят, но всё же ...). Поэтому самым надёжным способом для укрытия конфиденциальных данных от поисковых машин (кстати говоря и не только от них является ограничение доступа к таким данным неавторизированным пользователям, т.е. пользователям, которые не ввели "логин" и пароль соответствующим образом. В самом распространённом на сегодняшний день веб-сервере - Apache для этих целей служит файл .htaccess . Например, чтобы ограничить доступ таким пользователям к содержимому каталога "/admin/", в этом каталоге необходимо разместить следующий файл ".htaccess":

AuthUserFile полный_путь_к_каталогу/admin/.htpasswd
AuthType Basic
AuthName "Название закрываемого ресурса"
require valid-user

Обратите внимание: полный_путь_к_каталогу это не универсальный локатор ресурсов (URL), а путь к директории на сервере.

.htpasswd - файл содержащий список имён пользователей в системе (login'ы) и соответствующие MD5-хэши паролей.

Содержимое ".htpasswd" выглядит примерно так:

pupkin:MgFw1vnaW/tJk
abc-it:mWaquosh.OY3w
john:EMt8amknyuYD2

Для создания и заполнения файлов ".htpasswd" вы можете использовать одну из многочисленных бесплатно распространяемых специализированных программ (можно найти версии как для Unix, так и для Windows, используя всё те же поисковые системы.

Заключение
Как вы видите, методов защиты конфиденциальной информации от индексации в поисковых системах довольно много. В этой статье я перечислил лишь некоторые известные мне варианты. Если вы можете предложить какие-либо ещё, не стесняйтесь, напишите мне об этом. В любом случае буду рад увидеть ваши отзывы (даже если они не будут положительными) На этом разрешите откланяться!

Что еще почитать?