The little things give you away... A collection of various small helper stuff
No puede seleccionar más de 25 temas Los temas deben comenzar con una letra o número, pueden incluir guiones ('-') y pueden tener hasta 35 caracteres de largo.
 
 
 
JustAnotherArchivist c50a8fd796 Fix 'Dictionary mismatch' error when very small dicts are used because the temporary file isn't written to disk before zstdcat gets executed hace 2 años
LICENSE Initial commit hace 5 años
README.md Initial commit hace 5 años
alphabetseq Swap syntaxes hace 2 años
archivebot-blogspot Fix HTTPS handling hace 5 años
archivebot-high-memory Support python3 in any directory instead of just /usr/bin hace 4 años
archivebot-irccloud-paste Add archivebot-irccloud-paste hace 3 años
archivebot-jobid-calculation More snscrape helper tools hace 5 años
archivebot-jobs Pass through datetime, math, re, and time to --pyfilter hace 3 años
archivebot-list-stuck-requests Fix line endings hace 5 años
archivebot-log-extract-ignores Add archivebot-log-extract-ignores hace 3 años
archivebot-monitor-job-queue First set of little things hace 5 años
archivebot-youtube Add helper for AB/chromebot-ing YouTube channels and users hace 5 años
azure-storage-list Add --jsonl option hace 2 años
b64grep Add b64grep hace 2 años
bing-scrape Add Bing, Reddit/Pushshift, and FoolFuuka scrapers hace 5 años
bugzilla-url-list Add Bugzilla URL list generator hace 2 años
combine-by-prefix Add combine-by-prefix hace 2 años
curl-ua Add IE6 UA hace 3 años
deb-repo-urls Fix deb file URLs hace 3 años
dedupe Another alternative and performance/memory comparison hace 3 años
europarl-meps-collect Add script for scraping MEP links from europarl.europa.eu hace 5 años
foolfuuka-search Better workaround for the 5000 results limit; works for FoolFuuka 2.0.1 and up hace 5 años
format-size Split out size formatting hace 5 años
fos-ftp-upload First set of little things hace 5 años
get-crx4chrome-urls First set of little things hace 5 años
github-list-repos Fix org repo listing on new design/site structure hace 2 años
gitlab-list-repos Add support for other instances and full-instance listing hace 2 años
gofile.io-dl Add support for password-protected folders hace 2 años
ia-cdx-search Fix crash on an empty response hace 2 años
ia-derive Add script to queue derive on IA hace 5 años
ia-files-xml-to-jsonl Guarantee stable output order hace 3 años
ia-upload-progress Proper script for tracking size of uploaded data hace 5 años
ia-verify-file Add a timeout to prevent potentially indefinite blocking hace 2 años
ia-wait-item-tasks Add ia-wait-item-tasks hace 2 años
iasha1check Colourise sha1sum output hace 3 años
ix.io-upload Allow overriding the "remote filename" hace 5 años
kill-wpull-connections Merge kill-wpull-connections repository into little-things hace 3 años
killcx-all-https First set of little things hace 5 años
mastodon-enumerate-users Enumerate users on a Mastodon instance hace 5 años
mastodon-outdated Finding outdated Mastodon instances hace 5 años
parent-urls Refactor, strip query/fragment hace 3 años
pipelines-launch-in-tmux-windows First set of little things hace 5 años
pipelines-monitor-tmux-wget-outcomes Monitor how a pipeline's wget processes are faring hace 5 años
pipelines-stop-gracefully First set of little things hace 5 años
reddit-pushshift-search Add Bing, Reddit/Pushshift, and FoolFuuka scrapers hace 5 años
run-every-five-minutes First set of little things hace 5 años
s3-bucket-list Ignore TLS issues hace 3 años
s3-bucket-list-qwarc Record wrapper script in meta WARC as well hace 3 años
snscrape-extract Add support for Twitter hashtag extraction hace 4 años
snscrape-facebook-user Silence by default hace 5 años
snscrape-instagram-user Silence by default hace 5 años
snscrape-prepare-commands Add support for Twitter hashtag extraction hace 4 años
snscrape-tmux Update tmux session commands hace 4 años
snscrape-twitter-filter Filter Twitter hashtag scrapes based on account scrapes hace 5 años
snscrape-twitter-hashtag Extract external links from Twitter hace 5 años
snscrape-twitter-user Extract external links from Twitter hace 5 años
snscrape-upload Print Instagram ignore immediately after upload instead of at the end hace 5 años
snscrape-vk-user Silence by default hace 5 años
snscrape-wiki-transfer-merge Helper tools for snscrape and the wiki pages hace 5 años
social-media-extract-profile-link Fix decoding of links on Facebook profiles hace 4 años
sum-sizes Add sum-sizes hace 2 años
tar-many-files-progress First set of little things hace 5 años
tcp-closer Add tcp-closer command hace 5 años
transfer.archivete.am-upload Handle HTTP/2 lowercase headers hace 3 años
transfer.notkiska.pw-check-ia Switch to HTTPS hace 3 años
uniqify Add uniqify hace 5 años
url-normalise Normalise domain name to lower-case before further processing hace 4 años
warc-peek Add WARC/1.1 support hace 3 años
warc-size Split out size formatting hace 5 años
warc-tiny Fix compatibility with wpull 2.x hace 3 años
website-extract-social-media Add support for Facebook /pages/category/Category/Name-ID URLs hace 4 años
wget-spider-estimate-size First set of little things hace 5 años
wiki-list-to-main Add ArchiveBot wiki list helper hace 5 años
wiki-recursive-extract-normalise Fix deduplication within each section processing hace 4 años
wiki-sections-sort Add wiki-sections-sort hace 4 años
wiki-website-extract-social-media Add script for automatic social media discovery hace 4 años
wpull1-parallel-progress-monitor First set of little things hace 5 años
wpull1-progress-monitor First set of little things hace 5 años
wpull2-extract-remaining Clean up wpull DB commands hace 3 años
wpull2-log-extract-errors Treat NXDOMAIN and no A/AAAA record errors as ok hace 3 años
wpull2-requeue Print number of modified records on requeueing hace 2 años
wpull2-url-origin Clean up wpull DB commands hace 3 años
youtube-channel-list.py Add YouTube channel listing script hace 2 años
youtube-extract Handle ancient /?v= URLs hace 2 años
youtube-filter-autogen-channels Add youtube-filter-autogen-channels hace 4 años
zstdwarccat Fix 'Dictionary mismatch' error when very small dicts are used because the temporary file isn't written to disk before zstdcat gets executed hace 2 años

README.md

Over the past few years, I’ve written and accumulated a number of useful little things to help with archival-related tasks. This repository collects them. I hope someone finds some of them useful.

License (applies to all programs in this repository)

This program is free software: you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version.

This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.

You should have received a copy of the GNU General Public License along with this program. If not, see https://www.gnu.org/licenses/.