22:53 

Как скачать архив дневника закрытого или с закрытыми записям с HTTrack Website Copier

kxena
Сказочница и исследователь
Как и обещала, я сделала инструкцию для закрытых дневников. Она получилась очень большой, потому я оставлю только ссылку на PDF. Я скачала по ней дневник виртуала и свой собственный. Виртуал был полностью закрыт. Мой частично. Оба скачались с закрытками. Фильтры обновлены, теперь можно настроить скачивание только по дневнику, кнопки обновления, подъема постов и прочих операций - исключены. Фильры должны работать и для открытого дневника. Лучше пользоваться ими. Фильтры приведены с комментариями. Комментарии в программу копировать не надо :)



Пояснения к инструкции и ответы на вопросы из предыдущего поста

1. Официальное руководство описывает скачивание закрытых логином страниц с помощью Fire Fox и Internet Explorer. Я пробовала так же настраивать Chrome –не пошло. Потому я пользовалась Fire Fox.
2. Перед скачиванием с мобильной версии убедитесь, что она отображает подзамочные записи, если вы залогинены.
3. Лайвхак, который помог мне - скачивание не с главной страницы, а со списка тем (тегов). У меня это kxena.diary.ru/?tags. Это поможет разбить все ваши сообщения по темам, в каждой будет не over9000 постов, а гораздо меньше, что позволит скачать быстрее.
4. Минус скачивания со страницы тегов – некоторые посты будут скачиваться по нескольку раз. Чтобы этого не произошло можно качать со страницы календаря (там точно повторов постов не будет), у меня kxena.diary.ru/?calendar. Тут можно указать меньшую глубину скачивания.
5. Глубину скачивания я считала так:
- для страницы тегов/и главной тоже: 1(страница приветствия) + количество раз, которые нужно кликнуть по "..." в пейджинге (цифры) внизу станицы у самого популярного тега, + +1(вход в пост) + 1(MORE) + 1(MORE в комментариях)
- для страницы календаря: 1(страница приветствия) + 1(страница года) + 1(cтраница месяца) + 1(страница дня) + 1(пост) + 1(MORE) + 1(MORE в комментарии) = 7.
6. Сообщество может скачать тот, у кого есть от него пароль.
7. Качаться будет долго, в зависимости от глубины сканирования и количества информации. По новым фильтрам мой дневник забирался больше 7 часов, но я перестраховалась и задала большую глубину скачивания, тому же качала и календарь, и теги.
8. Если закачку понадобится прервать и затем продолжить - это возможно. Просто вы останавливаете скачивание. Потом, когда нужно, открываете сохранённый проект скачивания .whtt и продолжаете с теми же параметрами.
9. Я не пробовала, но думаю, что с помощью сохраненного проекта скачивания .whtt можно будет обновлять архив дневника. Указывать только режим обновления закачки.
10. Когда дайри тормозят (504 Gateway Time-out) – большой риск при скачивании вместо некоторых страниц получить белые заглушки, в стиле «На ресурс идет DDoS атака попробуйте позже».
11. Я перезакачала дневник с начала.
12. После скачивания при входе внутрь поста, или открытия моря появляется окошко «Ошибка #51». Она ни на что не влияет, самое досадное в ней, что она не закрывается.
13. Можно попробовать обновить уже скачанный дневник с новыми фильтрами, но я не проверяла, будет ли программа обновлять недостающее или начнет переписывать все заново.
14. Кто уже установил программу, идите к п. 5 этой инструкции.
запись создана: 04.11.2017 в 03:31

@темы: Полезные ссылки, ПЧ, Исследования, Жду Д

URL
Комментарии
2017-11-08 в 01:28 

Команданте Роха
Мы катим мир, а все остальные сидят внутри и кричат "А-а-а! Куда катится этот мир?!"
Докладаю: с Оперы тоже не пошло. Придется специально скачивать огнелиса.

2017-11-08 в 01:53 

Julianna
Firefox, 31 секунда закачки и все, процесс обрывается.
Ссылка выглядит правильной, появляется после залогинивания.

2017-11-08 в 08:28 

quirischa
администратор
(с капибарой на аватарке)
Если вам будет интересно, то мы (администрация) против использования программ по выкачиванию сайта целиком, потому что это создаёт неоправданную, непредсказуемую и бестолковую нагрузку на сервера (наш скрипт, который делает архив, собирает только нужную информацию, программа тащит решительно всё - и нужное, и ненужное).

Когда дайри тормозят (504 Gateway Time-out) – большой риск при скачивании вместо некоторых страниц получить белые заглушки, в стиле «На ресурс идет DDoS атака попробуйте позже».

Как вы думаете, из-за чего это вдруг сайт начинает тормозить? :)

2017-11-08 в 08:50 

Раника
Мы в гробу того видали, кто нас пьяницей назвал. На свои мы деньги пили - нам никто не подавал.
Наверное из-за программы все ваши записи резко поднялись, у меня три страницы избранного было только в них.

2017-11-08 в 10:32 

kxena
Сказочница и исследователь
Раника, да это случилось из-за старых фильтров, я потом все эти записи вручную на место вернула. В новых фильтрах разрешено скачивание только нужных страниц и только с дневника, кнопки подъема записей больше не затрагиваются.

URL
2017-11-08 в 10:33 

Раника
Мы в гробу того видали, кто нас пьяницей назвал. На свои мы деньги пили - нам никто не подавал.
kxena, ясно))

2017-11-08 в 10:41 

Julianna
quirischa,
Спасибо, это, разумеется, интересно и важно.
Только ведь не от хорошей жизни люди ищут альтернативные варианты.
Я, например, уже третью неделю жду заказанный здесь архив, а его все нет и нет.

Не подскажете, кстати, как долго его еще ждать?

2017-11-08 в 10:41 

kxena
Сказочница и исследователь
quirischa, понятно, что администрация не одобряет, но пока нет никакой определенности с дайри-архивами, народ будет спасать данные всеми доступными средствами, в том числе и такими. Этим занимаются наверняка и без моей инструкции и не только этой программой.

URL
2017-11-08 в 10:47 

essilt
В детстве я нажралась отравы для тараканов - и теперь у меня в голове их нет! // Померанский шпиц. Блондинка духа. Инженер в теле женщины.
Julianna, а вам же подсказали в предыдущем посте на эту тему! Администрация не может оценить, сколько времени ей нужно! Это невероятно исчерпывающий ответ, как вы можете быть им недовольны?!

2017-11-08 в 10:52 

Julianna
essilt,
Да, уже увидела тот пост и этот комментарий и абсолютно с вами там согласилась:
таки весьма печально столько лет платить за дневник и уже третью неделю не мочь получить то, за что платила.
Я наивно думала, что запросы платных дневников на архивацию должны стоять в приоритете.

2017-11-08 в 10:55 

kxena
Сказочница и исследователь
essilt, Julianna, у меня тоже платный дневник и запрос на архив висит, как вы понимаете

URL
2017-11-08 в 11:41 

quirischa
администратор
(с капибарой на аватарке)
Julianna, Не подскажете, кстати, как долго его еще ждать?

Не подскажу, потому что таких данных нет.

пока нет никакой определенности с дайри-архивами, народ будет спасать данные всеми доступными средствами, в том числе и такими

Поэтому я и предупреждаю, что лучше не добивать не нагружать дополнительно сервера, пока они делают штатно заказанные архивы.

Julianna, Я наивно думала, что запросы платных дневников на архивацию должны стоять в приоритете.

Нет, это не так: создание архива дневника не является платной опцией, поэтому они создаются одинаково и для тех, кто пользуется платными сервисами, и для бесплатников.

* * *

Поймите правильно, мне не доставляет ровно никакого удовольствия писать "нет", "не знаю", "информации нет", "не известно", равно как и вам получать такие ответы. Но всё произошло внезапно. Вам срочно захотелось архив дневника, и вам, и вам, и ещё десяти тысячам человек тоже. Создание архива выполняется не мгновенно, эта операция занимает какое-то время. И для создания 20 тысяч архивов это время невозможно предсказать, исходя из той нагрузки по созданию архивов, которая была раньше.

Естественно, когда можно будет оценить время создания архива, это будет сделано. Пока что у меня его вычислить не получилось.

Если же выкачивать дневник программой, то мне кажется, это выглядит, словно какой-то лихач обгоняет по встречке весь тот поток, который стоит на светофоре и терпеливо ждёт переключения на зелёный. Пользоваться программой или нет - ваше дело, я ничего никому не запрещаю, как видите. Но мне кажется, это нечестно - и не по отношению к сайту, - а по отношению к другим его пользователям. Решите этот вопрос честности для себя сами.

2017-11-08 в 12:04 

kxena
Сказочница и исследователь
quirischa, Естественно, когда можно будет оценить время создания архива, это будет сделано. Пока что у меня его вычислить не получилось.
Предположительно, как пара архивов на дневники под 1000-3000 постов скачаются, то будет понятно сколько приблизительно времени это занимает при текущей нагрузке на сервер. Я думаю, что все были бы счастливы, если бы на дайри-спирит появилась хотя бы приблизительная информация. Мне-то понятно, что этот процесс может идти о-о-очень долго. Сутками. Но не все как я программисты. И уж точно никто не хочет положить дайри лишней нагрузкой, ни остаться без данных.

URL
2017-11-08 в 12:22 

Julianna
quirischa,
Представьте, что вам нужно переливание донорской крови. Государственная программа бесплатного переливания крови существует и, вроде, не отказывается вам помочь, но вас поставили в очередь, начало которой теряется в плотном тумане, а оттого абсолютно неизвестно, когда же вам достанется обещанная донорская кровь и достанется ли вообще. Нет, эта кровь – не вопрос жизни и смерти, но без нее вашему здоровью плохо. И тут появляется альтернативный донор, тоже, кстати, бесплатный и говорит, что может дать вам и всем остальным стоящим в очереди требуемое хоть сию минуту. Что же нечестного в том, чтобы воспользоваться этим альтернативным вариантом?

Всякая реальность субъективна, моя на данный момент выглядит таким образом: две с половиной недели назад мне для работы потребовался полный архив дневника, я заказала его и уехала в командировку. Спустя полторы недели я вернулась из поездки и узнала, что архив не прислан, проект «дайри» намеревается перестать быть, а среди дайри-юзеров бушует паника-паника и витают чемоданные настроения. Прошла еще неделя, архив так и не появился. И не появилось ни малейшей ясности, когда он появится и появится ли вообще.


Вам срочно захотелось архив дневника, и вам, и вам, и ещё десяти тысячам человек тоже. Создание архива выполняется не мгновенно, эта операция занимает какое-то время. И для создания 20 тысяч архивов это время невозможно предсказать, исходя из той нагрузки по созданию архивов, которая была раньше.

Так, повторюсь, почему бы в связи с этим не ввести платную услугу «приоритетный заказ архива»?
Это хорошее деловое решение проблемы и, к слову, дополнительный доход сайту.
Везде, абсолютно везде повышение приоритетности стоит денег – это норма.

2017-11-08 в 14:34 

essilt
В детстве я нажралась отравы для тараканов - и теперь у меня в голове их нет! // Померанский шпиц. Блондинка духа. Инженер в теле женщины.
Julianna, ОБОЖЕДА. Лайк, однозначно.
Про рано или поздно тоже хорошо. Знаете, у меня по жизни такая ситуация была, давно, десять или больше лет назад: непредсказуемый приступ аллергии со спецэффектом имени отека Квинке. По счастью, развивался он МЕДЛЕННО, иначе я бы щас сюда уже ничего не писала. Не снимался ничем, вызвали «скорую». Едет полчаса, час, полтора, я не могу дышать. Перезваниваем, перезваниваем, перезваниваем. Ну что вы трезвоните, говорят нам, ваша заявка в очереди! Рано или поздно «скорая» приедет!
В общем, да, через три часа она приехала, но к тому времени убийственная доза антигистаминных таки сработала. Но «скорая» приехала, зачОт, еще и высказалась, что мы их тут напрасно вызываем, фигли :)

2017-11-12 в 01:14 

Эйнэри
Секта свидетелей Накахары Чуи
kxena, спасибо за обновление инструкции, но пока завершается с ошибкой. Не могу понять, как должна выглядеть правильная ссылка, которую ловит программа - именно ссылка на страницу, с которой я качаю (теги/календарь)? У меня ловит ссылку на login.php, и все тут.

upd: Попробовала с Хрома с новыми фильтрами. но по старой инструкции, без "засечь файл" - внезапно понял логин и пароль и теперь качает закрытки тоже. Ура!

2017-11-12 в 10:51 

AniSkywalker
Времени в обрез, вечность впереди. (с)
Эйнэри, о, с хрома?! Слушай, надо попробовать. А то с Лисы он мне 633 ошибки уже выдал. А как ты ему Хром объясняешь?

2017-11-12 в 11:30 

Эйнэри
Секта свидетелей Накахары Чуи
AniSkywalker, а никак не объясняю, просто ввела логин и пароль. Но нет( к утру тоже навыдавал ошибок, хотя несколько страниц скачал залогиненным.
Сообщество не качает вообще(

2017-11-12 в 12:04 

AniSkywalker
Времени в обрез, вечность впереди. (с)
Эйнэри, мне через прокси вообще не идет. Видимо Великий Корейский Рандом. Буду закрытки смотреть руками.

2017-11-12 в 12:17 

kxena
Сказочница и исследователь
Эйнэри, то, что ошибки выдаются не всегда страшно, часто он ругается на картинки, которые не может скачать, потому что их уже нет.

URL
2017-11-12 в 13:57 

Эйнэри
Секта свидетелей Накахары Чуи
kxena, именно, у меня в логе ошибок две таких, я их уже и в фильтры запихивала, и в дайри пыталась найти эти ссылки - почему он в них все еще долбится, зарраза. И главное, почему какая-то левая картинка заставляет его прервать скачивание остального? Странно.

2017-11-12 в 16:37 

kxena
Сказочница и исследователь
Эйнэри, если хотите исключить какую-то конкретную картинку, что исключайте её самой последней, после фильтров: +*.gif +*.jpg +*.jpeg +*.png
потому что иначе они отменят ваш запрет :)

URL
2017-11-12 в 19:06 

Эйнэри
Секта свидетелей Накахары Чуи
kxena, действительно, вы ведь об этом писали, туплю :tear: Да, так прекращают обращаться к ненужным картинкам, но другое вылезает - весь день Service Temporarily Unavailable" (503) на static.diary.ru. Видимо, много людей качает, подожду.

2018-02-14 в 18:17 

sole
Natural Disaster
Спасибо вам, добрый человек! :)

Жду архив три месяца.. :hang:

Скажите пожалуйста, если с тэгов начинать, как вы описали, страницы с запиями без тэгов тоже качаются?

2018-02-14 в 18:42 

kxena
Сказочница и исследователь
sole, Скажите пожалуйста, если с тэгов начинать, как вы описали, страницы с запиями без тэгов тоже качаются?
Да, должен, на страничке тегов есть ссылка "Записи без тегов", так что скачивальщик по ней тоже пройдет, все что в ней унесет.

URL
2018-02-14 в 18:43 

sole
Natural Disaster
kxena, спасибо спасибо спасибо! :dance3:
Сложила лапы и жду теперь, авось скачается)))

Комментирование для вас недоступно.
Для того, чтобы получить возможность комментировать, авторизуйтесь:
 
РегистрацияЗабыли пароль?

Легендарий

главная