Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (2024)

Maximilian Filtenborg

Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

  • Report this post

Another newsletter! This time, I've written a post about how Dagster IO managers can be vital to building data pipelines ๐Ÿ”ง . By using the software-defined assets that dagster introduces, you significantly simplify how your pipeline works compared to, for example, Airflow. We've been working with Dagster for some time now for various clients (deployed OSS) and absolutely would recommend it. There's been frequent updates to the UI, which is great, and it also integrates very well with DBT.The one downside is that it's still relatively early days for Dagster and some of its packages. This means that you need to be careful when upgrading or using certain alpha features, which we generally don't.Dagster offers several IO managers out of the box, but we've ended up writing some of our own for:- S3 files- Streaming large datasets into Redshift- etc.The full blog post also contains our implementation of a basic IO manager that interfaces with AWS Redshift.Check out more below ๐Ÿ‘‡

Dagster IO Managers Explained: A Practical Guide Maximilian Filtenborg on LinkedIn

6

Like Comment

To view or add a comment, sign in

More Relevant Posts

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    Already the third edition! ๐Ÿ‘Œ Next week, the topic will be about how to communicate data effectively. This is an often overlooked point that goes wrong all the time! Using data should be like telling a story, but many people treat it like assembling IKEA furnitureโ€”confusing, frustrating, and always missing a few key pieces!Starting design first is also not the answer, as making your dashboards pretty is not how you make them actionable.On July 2nd at 17:30, Nathaniel Bootes, Data Lead at SwipeGuide, and Umut Ali ร–zbay, Head of Data Visualization at Miele X, will explain how to effectively communicate data to various stakeholders, both through data APIs and visualizations.Ready to grab some Data Bites?Hope to see you there!Link in the comments ๐Ÿ‘‡

    • Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (5)

    9

    2 Comments

    Like Comment

    To view or add a comment, sign in

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    Data quality is a critical challenge when building data products that isn't solely a technological issue. Having said that, many data teams fail to apply essential practices to improve it. To ensure high data quality, we focus on five main pillars:๐๐ข๐ฅ๐ฅ๐š๐ซ 1: ๐ƒ๐š๐ญ๐š ๐Œ๐š๐ง๐š๐ ๐ž๐ฆ๐ž๐ง๐ญ๐๐ข๐ฅ๐ฅ๐š๐ซ 2: ๐ƒ๐š๐ญ๐š ๐Ž๐ฉ๐ž๐ซ๐š๐ญ๐ข๐จ๐ง๐ฌ๐๐ข๐ฅ๐ฅ๐š๐ซ 3: ๐ƒ๐š๐ญ๐š ๐€๐ซ๐œ๐ก๐ข๐ญ๐ž๐œ๐ญ๐ฎ๐ซ๐ž๐๐ข๐ฅ๐ฅ๐š๐ซ 4: ๐Ž๐ซ๐œ๐ก๐ž๐ฌ๐ญ๐ซ๐š๐ญ๐ข๐จ๐ง๐๐ข๐ฅ๐ฅ๐š๐ซ 5: ๐’๐จ๐Ÿ๐ญ๐ฐ๐š๐ซ๐ž ๐„๐ง๐ ๐ข๐ง๐ž๐ž๐ซ๐ข๐ง๐ By applying these five pillarsโ€”data management, data operations, data architecture, orchestration, and software engineeringโ€”data teams can significantly enhance data quality and reliability, increasing the trust and usage of your data and data products.Read more in the newsletter ๐Ÿ‘‡

    5 Data Engineering Pillars to Ensure Good Data Quality Maximilian Filtenborg on LinkedIn

    5

    1 Comment

    Like Comment

    To view or add a comment, sign in

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    Waarom kampt elk data team met data kwaliteit issues? โ“ Het is de grootste uitdaging bij het inzetten van analytics: ๐๐ž ๐ค๐ฐ๐š๐ฅ๐ข๐ญ๐ž๐ข๐ญ ๐ฏ๐š๐ง ๐๐ž ๐๐š๐ญ๐š. AI inzetten? Idem.Er zijn 3 belangrijke reden waardoor dit komt:1. ๐Œ๐š๐ง๐ฎ๐ž๐ž๐ฅ ๐ข๐ง๐ ๐ž๐ฏ๐จ๐ž๐ซ๐๐ž ๐๐š๐ญ๐š: Het is heel moeilijk om manueel ingevoerde datapunten correct te krijgen. Hoe leer je 10 sales medewerkers om de data op dezelfde manier in te vullen? Hoe zorg je ervoor dat alle excel sheets op de standaarden van de organisatie volgen en accuraat zijn (en verzameld worden)? De enige oplossing hiervoor is automatisering en software, en dan nog blijft het moeilijk.2. ๐‡๐š๐ง๐๐จ๐ฏ๐ž๐ซ ๐ฉ๐ซ๐จ๐›๐ฅ๐ž๐ž๐ฆ: De producent van de data is vaak niet de consument van de data. Dit betekent dat er een communicatieslag gemaakt moet worden, probleem is dat vaak de producent van de data niet betrokken wordt bij hoe de data uiteindelijk gebruikt gaat worden, en wat de waarde daarvan is. Als het niet duidelijk is wat het nut is van het gestructureerd opslaan van de data, dan gaat het niet gebeuren. Een voorbeeld hiervan is een development team die data overschrijft in de database. Dit is prima voor operationele doeleinden, maar kan voor analytics later problemen opleveren.3. ๐•๐ž๐ซ๐š๐ง๐๐ž๐ซ๐ข๐ง๐ : Bedrijven veranderen continu, definities veranderen. Maar de data verandert niet. **Een lead een jaar geleden betekent heeft vaak een andere definitie toen, dan nu. Context is hiervoor belangrijk.**Bijna elke baan genereert tegenwoordig data. Hierbij is de mindset dat deze data belangrijk is en de kennis van hoe die gebruikt gaat worden key. Iedereen moet eigenaar worden van zijn eigen data, en de kwaliteit er van. Voorbeelden hiervan zijn:- Een developer die data ownership heeft binnen een Development team.- Een sales manager die verantwoordelijk is voor de data binnen het sales team.- Een marketing manager die verantwoordelijk is voor de data binnen het marketing team.Pas als data ownership in de hele organisatie is verwerkt, op alle niveaus en binnen alle teams, is er een goede basis om de data kwaliteit binnen een organisatie te verbeteren. Alleen dan kan het vertrouwen in de data groeien en is de eerste stap gemaakt voor het creรซren van een datagedreven cultuur.Je kan hier niet vroeg genoeg mee beginnen.Ben ik nog een belangrijk scenario vergeten?Success!

    7

    Like Comment

    To view or add a comment, sign in

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    โ€˜Wij hebben een Data Lakeโ€™ hoor ik tegenwoordig overal om mij heen,De zoveelste hype in de data space.Het is een slecht overblijfsel van tijden dat iedereen het over โ€˜big dataโ€™ had.Alle data engineers hadden deze hippe marketing term, de Data Lake, netzoals Hadoop, een andere big data technologie, bij het vuilnis moeten zetten.Een data lake heeft wel toepassingen, maar de meeste bedrijven hebben echt meer aan een datawarehouse.Het verschil tussen een data lake en een datawarehouse is heel eenvoudig.Een Data Lake is zoals de naam het zegt, een meer (lake) waar je je data in dumpt, met weinig zorg en zonder het netjes te structureren. Een datawarehouse is eigenlijk hetzelfde, behalve dat je alles netjes in het warehouse neerzet. Dit betekent dat het gelijk geschikt is voor analytics.Het Data Lake is een overblijfsel van de big data tijden, ergo verzamel al je data in het lake, ongestructureerd, en bepaal later wat je er mee gaat doen. Dit wordt steeds makkelijker met alle technologie die we tegenwoordig hebben. Een data lake is in de meeste gevallen helemaal niet geschikt, en zou ik ook sterk afraden. Het is een hippe term maar dat was het dan ook.Aan de andere kant is het nadeel van een datawarehouse dat het een grotere investering is om te op te zetten, wat logisch is, want je moet bepalen hoe je het inricht. Maar als je iets nuttig met de data wilt gaan doen zal je dat toch moeten doen.Dus waarom het niet gelijk goed doen?Dit heeft direct impact op de bruikbaarheid en de kwaliteit van de data en uiteindelijk daarmee het vertrouwen in de data.P.S. Eigenlijk is een data lake vaak gewoon een simpele techniek, zoals Amazon S3 of AWS Athena. Deze technieken zijn zeer belangrijk in moderne data infrastructuren. Laten we alleen precies zijn in de woorden de we gebruiken: een datalake als analytics oplossing is geschikt voor ruwe data, een data lakehouse of datawarehouse voor gestructureerde data.

    • Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (14)

    15

    Like Comment

    To view or add a comment, sign in

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    I'm currently writing a blog post about setting up IO managers in Dagster, a data orchestration framework similar to Apache Airflow.We've been using Dagster for a while and have been quite impressed with its capabilities and user experience.I'm curious about what everyone else is using as their orchestration tool of choice:- Apache Airflow- Dagster- Cron- GitHub Actions- Something else?It's interesting to note that while Cron and GitHub Actions are not typically seen as full-fledged orchestration solutions, quite some people seem to be using them to schedule their pipelines. For example, GitHub actions is often used together with DBT.I'd love to hear your thoughts and experiences! What tools are you using to orchestrate your data workflows, and why? Happy to discuss ๐Ÿ™‚.#DataOrchestration #Dagster #ApacheAirflow #DataEngineering

    This content isnโ€™t available here

    Access this content and more in the LinkedIn app

    3

    Like Comment

    To view or add a comment, sign in

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    Een van de complexe vraagstukken binnen datateams, waarvoor geen eenduidig antwoord bestaat, is de vraag: "Hoe kunnen we data delen met onze klanten?"De aankomende editie van Data Bites op 14 mei staat in het teken van "B2B data sharing".Deze editie zullen Bob ter Brugge, Product Owner Data bij Seenons en Bouke Nederstigt, CTO bij TAPP, hun uitgebreide ervaring met dit onderwerp delen.Na het onzettende success van de vorige editie wil ik jullie allemaal graag uitnodigen voor de volgende editie @ House of Watt op 14 mei van 17 tot 19 uur.Zie comments voor de link naar het evenement.

    • Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (21)

    7

    1 Comment

    Like Comment

    To view or add a comment, sign in

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    In mijn laatste blog post heb ik geschreven over Data Governance en wat het voor je kan betekenen. Ik denk dat voor veel mensen data governance een ver-van-mijn-bedshow is, waardoor er niet veel mee gedaan wordt. Als je er eenmaal praktisch mee aan de slag gaat zal je merken dat het allemaal best logisch is.Simpelweg gaat Data Governance over het dirigeren van mensen, processen, beleid en tools omtrent data. Het zal organisaties in staat stellen om data in te zetten, waarbij ze best practices volgen en beleidsregels, terwijl ze data gebruiken om succesvoller te worden.In de blog behandel ik de volgende onderwerpen:-Wat is data governance?-De voordelen van data governance-De uitdagingen bij het implementeren van data governance-Een stapsgewijs plan over hoe te beginnen met data governance-Best practices om succes te behalen met data governanceIk deel de link in de comments ๐Ÿ‘‡

    • Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (24)
    • Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (25)
    • Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (26)

    13

    1 Comment

    Like Comment

    To view or add a comment, sign in

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    Last month, we finished a PowerBI training session for Rabia Sarac Kocak from NextPax. This was the first time we gave training to one of our clients. I am happy to share that we got great feedback. ๐Ÿ™‚We focused on building a usable product in the training, which meant she gained hands-on experience. This way, we killed two birds with one stone: a new dashboard and hands-on experience building dashboards that are ready to be used.Instead of starting from scratch with a PowerBI 101 course, we decided that there are already great courses on PowerBI available online. We advised to first follow the following modules from Pluralsight:- Data Literacy: Essentials of Power BI- Effective Reporting with Power BI- Modeling Data in Power BIThese videos will teach you the basics and also touch upon the most complex (and powerful) part of PowerBI, DAX. With this in place, we could dive into the nitty gritty and start developing powerful comparisons directly, and skip the boring stuff in our two sessions.If you're interested in the Pluralsight modules, Iโ€™ll share the links in the comments.

    • Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (29)

    33

    3 Comments

    Like Comment

    To view or add a comment, sign in

  • Maximilian Filtenborg

    Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams

    • Report this post

    In two weeks from now, on March 19th, BiteStreams will be hosting the first edition of our new event: Data Bites ๐Ÿ˜‹ ๐Ÿ“‹ Format: Walk-in (with bites), Two presentations, Food & Drinksโ“ For Who: individuals interested in data and will delve deeper into its possibilities for B2B SaaS companies.โฒ When: Tuesday, March 19th from 17:00 -- 19:00.๐Ÿง  Topics: Using data & AI for recruitment and conducting risk assessments of buyers within B2B transactions.At each edition, two SaaS companies will share practical examples of leveraging data within their organization.We invite anyone interested in these topics to join us for this inaugural edition! See you there :)RSVP ๐Ÿ‘‡ https://lnkd.in/eHEmw3Z4#meetup #bitestreams #event

    Data Bites eventbrite.nl

    5

    Like Comment

    To view or add a comment, sign in

Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (34)

Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (35)

1,122 followers

  • 81 Posts
  • 18 Articles

View Profile

Follow

More from this author

  • 5 Data Engineering Pillars to Ensure Good Data Quality Maximilian Filtenborg 2d
  • Dagster IO Managers Explained: A Practical Guide Maximilian Filtenborg 2w

Explore topics

  • Sales
  • Marketing
  • Business Administration
  • HR Management
  • Content Management
  • Engineering
  • Soft Skills
  • See All
Maximilian Filtenborg on LinkedIn: Dagster IO Managers Explained: A Practical Guide (2024)

References

Top Articles
Latest Posts
Article information

Author: Annamae Dooley

Last Updated:

Views: 6599

Rating: 4.4 / 5 (45 voted)

Reviews: 92% of readers found this page helpful

Author information

Name: Annamae Dooley

Birthday: 2001-07-26

Address: 9687 Tambra Meadow, Bradleyhaven, TN 53219

Phone: +9316045904039

Job: Future Coordinator

Hobby: Archery, Couponing, Poi, Kite flying, Knitting, Rappelling, Baseball

Introduction: My name is Annamae Dooley, I am a witty, quaint, lovely, clever, rich, sparkling, powerful person who loves writing and wants to share my knowledge and understanding with you.