Tobias Müller
@tobilg.com
3.4K followers 490 following 830 posts
Serverless enthusiast. DuckDB afficionado. AWS Community Builder. Building @sql-workbench.com @ownstats.com @learningduckdb.com Blog: https://tobilg.com
Posts Media Videos Starter Packs
tobilg.com
"Being helpful" to developers / researchers way the written goal of the other guy as well. That's a very vague justification though.

Lookup the original post and read the comments if you want to see what the users thought about it.
tobilg.com
The last time it wasn't about anonymous downloads, it was about users being part of datasets that can be used for machine learning etc. without giving consent. You even hydrate the data now.

And you can't control what people are doing with the data once they download it... It's a thin line I'd say.
tobilg.com
You don't own the data generated by users, I'm not a lawyer but I don't think you can just re-license content that doesn't belong to you originally. This is not how this works IMO.

Last year, the guy who prepared the dataset allegedly received personal threads, and a very negative 404 article.
tobilg.com
Last November there was a huge outcry about a published dataset of 1 million (public) posts, that weren't even hydrated with additional data, or with ML models...

I really wonder why there's no community fallout this time. Or please explain why this is different this time.
tobilg.com
Appreciate your work! Pushing the data to R2 should „just“ be a S3 Bucket Event on ObjectCreate and a triggered Lambda function that syncs the object to R2 away from the current implementation…

I realize how the community opinion about publishing full datasets has shifted apparently…
tobilg.com
Why not use R2 that has no egress fees? It‘s S3 API compatible as well…
tobilg.com
Auch nach 100m kann dich jemand über den Haufen fahren, die Distanz ist völlig egal... Schon aus reinem Selbstschutz sollte man ein Interesse haben einen Helm zu tragen. Und Fahrfehler passieren ebenfalls.

Aber muss wohl jeder selber wissen, ich persönlich werde das nie verstehen...
tobilg.com
und c) weil ich das auch als Vorbild schlecht von meinen Kinder verlangen kann auf ihrem stark befahrenen Schulweg einen Helm zu tragen wenn es selbst nicht tue...
tobilg.com
Gut, das ist dann halt wie im echten Leben, Unwissen oder Versehen schützt vor Strafe nicht.

Ist halt aus meiner Sicht ein schlechtes Argument gegen Helme tragen...

Ich fahre ca. 3000km Rad, nur mit Helm, weil ich a) schon dutzende Male fast angefahren wurde, und b) selbst schon gestürzt bin.
tobilg.com
Krass, ich denke da ist Deutschland dann in 20 Jahren soweit 😂

Ich bin ja kein absoluter Verfechter einer Helmpflicht, aber ich denke es gab exakt die gleichen Diskussionen bei der Einführung der Gurtpflicht beim Auto.

Und die hat retrospektiv betrachtet wahrscheinlich zehntausende Leben gerettet
tobilg.com
Wenn du mit dem Auto fahren würdest und der Führerschein läge zuhause und du wirst kontrolliert gäbe es zumindest in D auch ein Bußgeld… 💁🏼‍♂️
tobilg.com
If you store all Firehose / Jetstream events, this will get costly pretty quick if you want unlimited data retention on object storage.

Can you elaborate on the use case?
tobilg.com
I‘m running the Bluesky Firehose through @duckdb.org for microbatch „streaming“ analytics: skyfirehose.com

Works pretty well.
skyfirehose.com - Query the Bluesky Jetstream with DuckDB
skyfirehose.com
tobilg.com
Unfortunately I had to cancel on short notice, looked great from the agenda
tobilg.com
Die haben aber ein funktionierendes, vom normalen Netz abgekoppeltes Netz für die Shinkansen... Wir nicht.
tobilg.com
Sehe ich persönlich anders... Es wäre wichtiger gewesen die "normalen" Schienenprojekte zu verbessern und Neubaustrecken zu bauen wo nötig.

Transrapid ist viel zu teuer und die Kapazitäten zu gering. In Japan hat das nun auf 35 Jahre gebraucht bis die ersten Strecken gebaut werden.
tobilg.com
Yes, it works! Thanks for your help and support!
tobilg.com
Yes, this is a @quinnypig.com sub-skeet:
tobilg.com
Was passiert wenn man das in D machen möchte kann man seit ca. 3 Jahrzehnten bzgl. Neubaustrecke / Ausbau Bestandsstrecke HH -> H sehen.

Ich glaube ich werde das nicht mehr erleben dass da ein Zug fährt.
tobilg.com
…welche nicht den Großteil ihres Streckennetzes mit Güter- und Regionalzügen teilen müssen… 🤷🏼‍♂️
tobilg.com
Yes, but IMO it‘ll use the local code in the context it’s sending to the model, so this will have an effect as well I guess, just at another position in the (tool) call chain.

And possibly a cost effect as well (input/output tokens)… I‘m not an expert in this area though, and very open to insights
tobilg.com
It has a context limitation to 20k tokens as far as I understood. This could be a limiting factor, but usually it works for the repos I use it with.

Cloning the repos is a valid fallback I guess, not sure about the impact on context size tbh.

Do you manually point Claude to the code?
tobilg.com
That’s the one I used as well