curl-парсинг через tor proxy

Когда речь идёт о парсинге, то рано или поздно мы можем столкнуться с баном ip со стороны сервера. Поэтому в идеале нужно:

  • использовать большое количество ip-адресов
  • ставить все заголовки, которые ставит браузер (User-Аgent и др.)

Бесплатные списки proxy могут помочь при парсинге, но они очень часто не работают, или работают очень медленно или криво.

Разберём, как можно использовать tor вместо proxy. Или, скажем, так: curl tor proxy.

Доступ к mysql из-вне

Во-первых, изначально mysql слушает только localhost. Нужно исправить это в конфигурационном файле mysql my.cnf (обычно в линуксах путь /etc/mysql/my.cnf). В my.cnf находим строку:

bind-address = 127.0.0.1

И заменяем её на:

bind-address = 0.0.0.0

Теперь мы можем коннектиться к mysql с любого ip. При этом для супер-пользователя root доступ из-вне под пустым паролем остаётся закрыт.

Не устанавливается php 5.6 на debian

Если добавить в /etc/apt/sources.list:

deb http://cloudfront.debian.net/debian wheezy main
deb-src http://cloudfront.debian.net/debian wheezy main
deb http://security.debian.org/ wheezy/updates main
deb-src http://security.debian.org/ wheezy/updates main
deb http://cloudfront.debian.net/debian wheezy-updates main
deb-src http://cloudfront.debian.net/debian wheezy-updates main

Затем сделать:

apt-get update
apt-get install php5-fpm

В результате установленная версия php всё ещё php 5.4:

$ php --version
PHP 5.4.45-1~dotdeb+7.1 (cli) (built: Sep  4 2015 23:38:46) 

 

Как грепнуть все ip из acces-лога

Постановка задачи.

Нужно получить все ip-адреса, которые имеются в access.log. Должна быть возможность считать кол-во ip-адресов, т.е. вывести количество уникальных ip.

Для чего это может быть нужным? Например, если api-сервер переезжает на новый адрес. На старый сервер по-прежнему приходят какие-то http-запросы. Нам нужно найти и вычленить все ip, которые до сих пор стучатся.

Alexa удалит ранк и трафик по городам из своего API

Пользователи alexa urlinfo api получили письма на email, в которых говорится о том, что amazon планирует удалить данные ранка по городам RankByCity из своего API.

Alexa - alexa удалит RankByCity из API

Реклама google adsense подменяется на левую рекламу в chrome

Зашёл с компьютера товарища через google Chrome на свой сайт (этот же сайт - jeka.by). Увидел интереснейшую вещь на странице:

вместо рекламы google adsense отображалась совсем другая реклама.

Реклама google adsense заменилась на другую

Сжатие png изображений с помощью PngQuant

PngQuant - утилита, которая позволяет значительно ужимать размер png-изображений, сохраняя прозрачность (alpha-канал), при незначительных потерях в качестве изображений.

Размер png-изображений часто уменьшается более чем на 70%, а ужатые изображения полностью совместимы со всеми современными браузерами. При этом визуально невозможно определить где исходное, а где ужатое изображение.

Сжатие png изображений с помощью PngQuant

 

Сжатие png-изображений с помощью pngcrush

Для сжатия png-изображений можно использовать библиотеку pngcrush. Основной задачей pngcrush является оптимизация (сжатие, уменьшение размера) png-изображений без потери качества.

pngcrush иконка - сжатие png изображений

21 сентября Скайп оффлайн

21 сентября в 11 утра начались проблемы со skype.

Сначала все контакты висели со статусом оффлайн, но, тем не менее при отправке сообщений последние доходили до адресата.

21 сентября в 12 утра сообщения перестали доходить до адресата либо доходят с перебоями. Очень большое количество пользователей испытывает проблемы со входом в skype.

21 сентября skype оффлайн

StarCraft в браузере

Github пользователь под ником gloomyson написал StarCraft для работы в браузере. Разработчик использовал возможности HTML5 и javascript-код, в том числе фреймворк jQuery.

StarCraft теперь доступен в браузере

НОВЫЕ ПОЛЬЗОВАТЕЛИ