Aug. 6th, 2014
приятная оптимизация
Aug. 6th, 2014 02:04 pm Вот такой получился оптимизированный скрипт по вытаскиванию номерных диапазонов и конвертации их в CSV. Для дальнейшей загрузки в БД.
В результате грузится вместо 22 метров полтора и не 6 минут, а менее полуминуты. Да, да - в телекоммуникационной компании с интернетом очень туго. Доступ получить - надо писать заявку и обосновывать нафига оно надо. В цехе одно рабочее место с доступом в инет есть - вот садись и выкачивай. Но:
#!/bin/bash proxy=http_proxy=http://bla-bla-bla/ date=`date +%Y%m%d` opt='--header=Accept-Encoding:gzip' for file in ABC-3 ABC-4 ABC-8 DEF-9 do wget $opt -e $proxy http://www.rossvyaz.ru/docs/articles/${file}x.html -O ${file}x_$date.html.gz gzip -d -c ${file}x_$date.html.gz | \ sed -e "s/\s\?<\/td>\s\s\?/;/g;s/\s\s\?//;s/\s\?<\/td>\s<\/tr>\s\?//" | \ grep -v "<" | \ iconv -f windows-1251 > txt/${file}x_$date.txt done
В результате грузится вместо 22 метров полтора и не 6 минут, а менее полуминуты. Да, да - в телекоммуникационной компании с интернетом очень туго. Доступ получить - надо писать заявку и обосновывать нафига оно надо. В цехе одно рабочее место с доступом в инет есть - вот садись и выкачивай. Но:
- (1) жутко тормозит,
- (2) на винде,
- (3) права на винду у айтишников и левого туда ни-ни,
- (4) к корпоративным проксям доступ получить можно только через домен,
- (5) диапазоны нужны на технологическом оборудовании, в технологической сети, отделённой от корпоративки файерволом, а этот инетовый комп включен в корпоративку,
- (6) воткнуть usb в комп с инетом не получился "благодаря" политике безопасности,
- (7...) почтой? Лотусовой? без клиента? лотус, правда, сносят в пользу мсэксченджа, но опять - чей экаунт там светить, кто будет клиетна устанавливать...
- ... и ещё куча всякого геморроя.
В итоге куда проще сделать левый тонкий канал.
За компанию обидно. :(