The little things give you away... A collection of various small helper stuff
Nelze vybrat více než 25 témat Téma musí začínat písmenem nebo číslem, může obsahovat pomlčky („-“) a může být dlouhé až 35 znaků.
 
 
 
JustAnotherArchivist c50a8fd796 Fix 'Dictionary mismatch' error when very small dicts are used because the temporary file isn't written to disk before zstdcat gets executed před 2 roky
LICENSE Initial commit před 5 roky
README.md Initial commit před 5 roky
alphabetseq Swap syntaxes před 2 roky
archivebot-blogspot Fix HTTPS handling před 5 roky
archivebot-high-memory Support python3 in any directory instead of just /usr/bin před 4 roky
archivebot-irccloud-paste Add archivebot-irccloud-paste před 3 roky
archivebot-jobid-calculation More snscrape helper tools před 5 roky
archivebot-jobs Pass through datetime, math, re, and time to --pyfilter před 3 roky
archivebot-list-stuck-requests Fix line endings před 5 roky
archivebot-log-extract-ignores Add archivebot-log-extract-ignores před 3 roky
archivebot-monitor-job-queue First set of little things před 5 roky
archivebot-youtube Add helper for AB/chromebot-ing YouTube channels and users před 5 roky
azure-storage-list Add --jsonl option před 2 roky
b64grep Add b64grep před 2 roky
bing-scrape Add Bing, Reddit/Pushshift, and FoolFuuka scrapers před 5 roky
bugzilla-url-list Add Bugzilla URL list generator před 2 roky
combine-by-prefix Add combine-by-prefix před 2 roky
curl-ua Add IE6 UA před 3 roky
deb-repo-urls Fix deb file URLs před 3 roky
dedupe Another alternative and performance/memory comparison před 3 roky
europarl-meps-collect Add script for scraping MEP links from europarl.europa.eu před 5 roky
foolfuuka-search Better workaround for the 5000 results limit; works for FoolFuuka 2.0.1 and up před 5 roky
format-size Split out size formatting před 5 roky
fos-ftp-upload First set of little things před 5 roky
get-crx4chrome-urls First set of little things před 5 roky
github-list-repos Fix org repo listing on new design/site structure před 2 roky
gitlab-list-repos Add support for other instances and full-instance listing před 2 roky
gofile.io-dl Add support for password-protected folders před 2 roky
ia-cdx-search Fix crash on an empty response před 2 roky
ia-derive Add script to queue derive on IA před 5 roky
ia-files-xml-to-jsonl Guarantee stable output order před 3 roky
ia-upload-progress Proper script for tracking size of uploaded data před 5 roky
ia-verify-file Add a timeout to prevent potentially indefinite blocking před 2 roky
ia-wait-item-tasks Add ia-wait-item-tasks před 2 roky
iasha1check Colourise sha1sum output před 3 roky
ix.io-upload Allow overriding the "remote filename" před 5 roky
kill-wpull-connections Merge kill-wpull-connections repository into little-things před 3 roky
killcx-all-https First set of little things před 5 roky
mastodon-enumerate-users Enumerate users on a Mastodon instance před 5 roky
mastodon-outdated Finding outdated Mastodon instances před 5 roky
parent-urls Refactor, strip query/fragment před 3 roky
pipelines-launch-in-tmux-windows First set of little things před 5 roky
pipelines-monitor-tmux-wget-outcomes Monitor how a pipeline's wget processes are faring před 5 roky
pipelines-stop-gracefully First set of little things před 5 roky
reddit-pushshift-search Add Bing, Reddit/Pushshift, and FoolFuuka scrapers před 5 roky
run-every-five-minutes First set of little things před 5 roky
s3-bucket-list Ignore TLS issues před 3 roky
s3-bucket-list-qwarc Record wrapper script in meta WARC as well před 3 roky
snscrape-extract Add support for Twitter hashtag extraction před 4 roky
snscrape-facebook-user Silence by default před 5 roky
snscrape-instagram-user Silence by default před 5 roky
snscrape-prepare-commands Add support for Twitter hashtag extraction před 4 roky
snscrape-tmux Update tmux session commands před 4 roky
snscrape-twitter-filter Filter Twitter hashtag scrapes based on account scrapes před 5 roky
snscrape-twitter-hashtag Extract external links from Twitter před 5 roky
snscrape-twitter-user Extract external links from Twitter před 5 roky
snscrape-upload Print Instagram ignore immediately after upload instead of at the end před 5 roky
snscrape-vk-user Silence by default před 5 roky
snscrape-wiki-transfer-merge Helper tools for snscrape and the wiki pages před 5 roky
social-media-extract-profile-link Fix decoding of links on Facebook profiles před 4 roky
sum-sizes Add sum-sizes před 2 roky
tar-many-files-progress First set of little things před 5 roky
tcp-closer Add tcp-closer command před 5 roky
transfer.archivete.am-upload Handle HTTP/2 lowercase headers před 3 roky
transfer.notkiska.pw-check-ia Switch to HTTPS před 3 roky
uniqify Add uniqify před 5 roky
url-normalise Normalise domain name to lower-case before further processing před 4 roky
warc-peek Add WARC/1.1 support před 3 roky
warc-size Split out size formatting před 5 roky
warc-tiny Fix compatibility with wpull 2.x před 3 roky
website-extract-social-media Add support for Facebook /pages/category/Category/Name-ID URLs před 4 roky
wget-spider-estimate-size First set of little things před 5 roky
wiki-list-to-main Add ArchiveBot wiki list helper před 5 roky
wiki-recursive-extract-normalise Fix deduplication within each section processing před 4 roky
wiki-sections-sort Add wiki-sections-sort před 4 roky
wiki-website-extract-social-media Add script for automatic social media discovery před 4 roky
wpull1-parallel-progress-monitor First set of little things před 5 roky
wpull1-progress-monitor First set of little things před 5 roky
wpull2-extract-remaining Clean up wpull DB commands před 3 roky
wpull2-log-extract-errors Treat NXDOMAIN and no A/AAAA record errors as ok před 3 roky
wpull2-requeue Print number of modified records on requeueing před 2 roky
wpull2-url-origin Clean up wpull DB commands před 3 roky
youtube-channel-list.py Add YouTube channel listing script před 2 roky
youtube-extract Handle ancient /?v= URLs před 2 roky
youtube-filter-autogen-channels Add youtube-filter-autogen-channels před 4 roky
zstdwarccat Fix 'Dictionary mismatch' error when very small dicts are used because the temporary file isn't written to disk before zstdcat gets executed před 2 roky

README.md

Over the past few years, I’ve written and accumulated a number of useful little things to help with archival-related tasks. This repository collects them. I hope someone finds some of them useful.

License (applies to all programs in this repository)

This program is free software: you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version.

This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.

You should have received a copy of the GNU General Public License along with this program. If not, see https://www.gnu.org/licenses/.