Независимый обзор "внутренностей" Google
Независимый исследователь Тоби Ди Паскуале представил инфраструктуру Google в виде
- MapReduce – технология распределенного выполнения программных инструкций, при которой команды выполняются параллельно на множестве компьютеров.
- BigTable - система управления сверхбольшими базами данных
- Sawzall – язык для создания скриптов параллельной обработки данных на основе Map Reduce
- обрабатывающие индексную базу
- поддерживающие документацию
- сервера проверки орфографии
- другие.
Ди Паскуале акцентировано дистанцируется от аспектов работы Google, связанных с поисковой оптимизацей, таких, как ссылочное ранжирование и Page Rank. Также он заявляет, что ни сам, ни кто-либо из его знакомых в штате Google не состоят, вся информация получена им благодаря двухгодичным исследованиям поискового гиганта. Публикуемые им цифры и факты помогают понять, как высоки информационные мощности Google, а также составить представление о сложности конкурирования с ним.
Так, синхронизация и параллелизация процессов накопления и выдачи информации позволяет Google избежать феноменов, подобных апдейту у Яндекса, когда выдача поисковика меняется в течение нескольких часов. Яндекс также
Репликация (размножение) коллекции по машинам у Яндекса не производится, тогда как у Google, согласно наблюдениям г-на Ди Паскуале, реплицирована вообще вся база проиндексированных документов. Кроме того, Google реализует алгоритм одновременной записи данных в файл индексирующим роботом, и чтения из этого файла при выполнении поискового запроса.
Случилось что-то важное? Поделитесь новостью с редакцией.