Наверно, все знают, что можно свободно скачать себе дамп википедии и развернуть клон на своём компьютере/сервере. Но дамп содержит только текстовую информацию, дампы изображений не предоставляются.

Есть несколько проектов по выкачиванию изображений с википедии разной степени успешности. А я тут подумал, что сами изображения мало кому нужны, и выкачал миниатюры в тех размерах, в каких они вставлены в статьи русской википедии. Получилось довольно компактно — 6 гб. Ссылки внутри.

Linux Nix Web Development - http://linuxoids.org/ размер 135x155, 20.86 kb

18 Responses to Выкачивание изображений с википедии

  1. Tfomo:

    для ценителей вектора специально выкачал архив векторных картинок
    http://narod.ru/disk/55324081001.6c0926e

  2. Tfomo:

    сейчас качается ещё много всего, если что-то интересно — спрашивайте.

  3. Tfomo:

    поясню. это всё разбито на 16 архивов для удобства закачки, надо качать все 16 штук.

    Это геморрой? Нет. геморрой — это качать 400000 файлов и ужимать их в архивы для удобства транспортировки-хранения…

  4. RetMega:

    Предлагаю аккуратно собрать все на ru и en — и тексты и все медиа, и положить в торренты на rutracker.
    Раздачу поддержу, пару терабайт места для этого дела найдется.

  5. Tfomo:

    я думал об этом, но как торрент отнесётся к мильону мелких файлов? это же не менее одной части на файл и оргомный вес самого торрент-файла. Или какие методы дистрибуции предлагаешь?

    У меня просто канал модемный с обрывами, проще разбить на архивы и с тридцатого раза выложить на обменник, чем терзать пиров моей скорость.

  6. RetMega:

    Да, количество может стать проблемой.
    Пожалуй лучше иметь все в одном большом.7z архиве. Обрывы торренту не помеха, будет качаться и раздаваться всем по мере возможности, а там уж мой толстый канал на выход поможет 🙂

  7. Tfomo:

    я думал об этом, но 7зип — сплошной архив, то есть для извлечения одного файла нужно прочитать ВЕСЬ поток перед ним.

    Обычный zip по идее значительно быстрее для задачи извлечения одного файла на лету (есть и библиотека готовые для этого).

    А в плане степени сжатия картинки и тем, и тем плохо жмутся, так как уже сжатые.

    Ещё было предложение распространять это как один файл с sqlite базой данных, но до такого фанатизма ещё не дошло, хотя идея неплохая ))

  8. Ylfer:

    Но зачем?

  9. Tfomo:

    а зачем жить?

  10. WebDev:

    индексированный тар?

  11. Tfomo:

    Stephan-V: тар тоже потоковый, перематывать долго ))

  12. Tfomo:

    Stephan-V: ленточный архиватор с быстрой перемоткой, ок.

    на самом деле не особо важно, какое средство будет использовано. хотя, Бейсик настаивает на индексированной базе sqlite.

  13. SubSnow:

    http://dumps.wikimedia.org/backup-index…. тут дампы
    http://meta.wikimedia.org/wiki/Wikix а тут способ/реализация парсер/даунлоадер картинок

    … на всякий случай

  14. Ylfer:

    скачай тогда индекс гугла, если такой максималист, чего на ерунду размениваешься.

  15. Tfomo:

    wikix выкачал картинок процентов 10, больше не нашёл. Видимо, для русских дампов его надо серьёзно переписывать. К тому же, он слишком громоздкий — весь его функционал помещается в одну строчку шелл-скрипта.

    Ну и самый цимес — wikix выкачивает оригиналы файлов (это под терабайт, если что). Он НЕ выкачивает миниатюры, которые как и раз нужны для просмотра страничек википедии.

    А я выкачал и выложил именно 6 Гб миниатюр.

  16. Tfomo:

    зачем мне качать индекс гугла? я уже давно создаю свой индекс! с шахматами и библиотекаршами. и это не максимализм, а необходимость.

Добавить комментарий