The little things give you away... A collection of various small helper stuff
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
JustAnotherArchivist c50a8fd796 Fix 'Dictionary mismatch' error when very small dicts are used because the temporary file isn't written to disk before zstdcat gets executed преди 2 години
LICENSE Initial commit преди 5 години
README.md Initial commit преди 5 години
alphabetseq Swap syntaxes преди 2 години
archivebot-blogspot Fix HTTPS handling преди 5 години
archivebot-high-memory Support python3 in any directory instead of just /usr/bin преди 4 години
archivebot-irccloud-paste Add archivebot-irccloud-paste преди 3 години
archivebot-jobid-calculation More snscrape helper tools преди 5 години
archivebot-jobs Pass through datetime, math, re, and time to --pyfilter преди 3 години
archivebot-list-stuck-requests Fix line endings преди 5 години
archivebot-log-extract-ignores Add archivebot-log-extract-ignores преди 3 години
archivebot-monitor-job-queue First set of little things преди 5 години
archivebot-youtube Add helper for AB/chromebot-ing YouTube channels and users преди 5 години
azure-storage-list Add --jsonl option преди 2 години
b64grep Add b64grep преди 2 години
bing-scrape Add Bing, Reddit/Pushshift, and FoolFuuka scrapers преди 5 години
bugzilla-url-list Add Bugzilla URL list generator преди 2 години
combine-by-prefix Add combine-by-prefix преди 2 години
curl-ua Add IE6 UA преди 3 години
deb-repo-urls Fix deb file URLs преди 3 години
dedupe Another alternative and performance/memory comparison преди 3 години
europarl-meps-collect Add script for scraping MEP links from europarl.europa.eu преди 5 години
foolfuuka-search Better workaround for the 5000 results limit; works for FoolFuuka 2.0.1 and up преди 5 години
format-size Split out size formatting преди 5 години
fos-ftp-upload First set of little things преди 5 години
get-crx4chrome-urls First set of little things преди 5 години
github-list-repos Fix org repo listing on new design/site structure преди 2 години
gitlab-list-repos Add support for other instances and full-instance listing преди 2 години
gofile.io-dl Add support for password-protected folders преди 2 години
ia-cdx-search Fix crash on an empty response преди 2 години
ia-derive Add script to queue derive on IA преди 5 години
ia-files-xml-to-jsonl Guarantee stable output order преди 3 години
ia-upload-progress Proper script for tracking size of uploaded data преди 5 години
ia-verify-file Add a timeout to prevent potentially indefinite blocking преди 2 години
ia-wait-item-tasks Add ia-wait-item-tasks преди 2 години
iasha1check Colourise sha1sum output преди 3 години
ix.io-upload Allow overriding the "remote filename" преди 5 години
kill-wpull-connections Merge kill-wpull-connections repository into little-things преди 3 години
killcx-all-https First set of little things преди 5 години
mastodon-enumerate-users Enumerate users on a Mastodon instance преди 5 години
mastodon-outdated Finding outdated Mastodon instances преди 5 години
parent-urls Refactor, strip query/fragment преди 3 години
pipelines-launch-in-tmux-windows First set of little things преди 5 години
pipelines-monitor-tmux-wget-outcomes Monitor how a pipeline's wget processes are faring преди 5 години
pipelines-stop-gracefully First set of little things преди 5 години
reddit-pushshift-search Add Bing, Reddit/Pushshift, and FoolFuuka scrapers преди 5 години
run-every-five-minutes First set of little things преди 5 години
s3-bucket-list Ignore TLS issues преди 3 години
s3-bucket-list-qwarc Record wrapper script in meta WARC as well преди 3 години
snscrape-extract Add support for Twitter hashtag extraction преди 4 години
snscrape-facebook-user Silence by default преди 5 години
snscrape-instagram-user Silence by default преди 5 години
snscrape-prepare-commands Add support for Twitter hashtag extraction преди 4 години
snscrape-tmux Update tmux session commands преди 4 години
snscrape-twitter-filter Filter Twitter hashtag scrapes based on account scrapes преди 5 години
snscrape-twitter-hashtag Extract external links from Twitter преди 5 години
snscrape-twitter-user Extract external links from Twitter преди 5 години
snscrape-upload Print Instagram ignore immediately after upload instead of at the end преди 5 години
snscrape-vk-user Silence by default преди 5 години
snscrape-wiki-transfer-merge Helper tools for snscrape and the wiki pages преди 5 години
social-media-extract-profile-link Fix decoding of links on Facebook profiles преди 4 години
sum-sizes Add sum-sizes преди 2 години
tar-many-files-progress First set of little things преди 5 години
tcp-closer Add tcp-closer command преди 5 години
transfer.archivete.am-upload Handle HTTP/2 lowercase headers преди 3 години
transfer.notkiska.pw-check-ia Switch to HTTPS преди 3 години
uniqify Add uniqify преди 5 години
url-normalise Normalise domain name to lower-case before further processing преди 4 години
warc-peek Add WARC/1.1 support преди 3 години
warc-size Split out size formatting преди 5 години
warc-tiny Fix compatibility with wpull 2.x преди 3 години
website-extract-social-media Add support for Facebook /pages/category/Category/Name-ID URLs преди 4 години
wget-spider-estimate-size First set of little things преди 5 години
wiki-list-to-main Add ArchiveBot wiki list helper преди 5 години
wiki-recursive-extract-normalise Fix deduplication within each section processing преди 4 години
wiki-sections-sort Add wiki-sections-sort преди 4 години
wiki-website-extract-social-media Add script for automatic social media discovery преди 4 години
wpull1-parallel-progress-monitor First set of little things преди 5 години
wpull1-progress-monitor First set of little things преди 5 години
wpull2-extract-remaining Clean up wpull DB commands преди 3 години
wpull2-log-extract-errors Treat NXDOMAIN and no A/AAAA record errors as ok преди 3 години
wpull2-requeue Print number of modified records on requeueing преди 2 години
wpull2-url-origin Clean up wpull DB commands преди 3 години
youtube-channel-list.py Add YouTube channel listing script преди 2 години
youtube-extract Handle ancient /?v= URLs преди 2 години
youtube-filter-autogen-channels Add youtube-filter-autogen-channels преди 4 години
zstdwarccat Fix 'Dictionary mismatch' error when very small dicts are used because the temporary file isn't written to disk before zstdcat gets executed преди 2 години

README.md

Over the past few years, I’ve written and accumulated a number of useful little things to help with archival-related tasks. This repository collects them. I hope someone finds some of them useful.

License (applies to all programs in this repository)

This program is free software: you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version.

This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.

You should have received a copy of the GNU General Public License along with this program. If not, see https://www.gnu.org/licenses/.