Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
Another newsletter! This time, I've written a post about how Dagster IO managers can be vital to building data pipelines ๐ง . By using the software-defined assets that dagster introduces, you significantly simplify how your pipeline works compared to, for example, Airflow. We've been working with Dagster for some time now for various clients (deployed OSS) and absolutely would recommend it. There's been frequent updates to the UI, which is great, and it also integrates very well with DBT.The one downside is that it's still relatively early days for Dagster and some of its packages. This means that you need to be careful when upgrading or using certain alpha features, which we generally don't.Dagster offers several IO managers out of the box, but we've ended up writing some of our own for:- S3 files- Streaming large datasets into Redshift- etc.The full blog post also contains our implementation of a basic IO manager that interfaces with AWS Redshift.Check out more below ๐
6
To view or add a comment, sign in
More Relevant Posts
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
Already the third edition! ๐ Next week, the topic will be about how to communicate data effectively. This is an often overlooked point that goes wrong all the time! Using data should be like telling a story, but many people treat it like assembling IKEA furnitureโconfusing, frustrating, and always missing a few key pieces!Starting design first is also not the answer, as making your dashboards pretty is not how you make them actionable.On July 2nd at 17:30, Nathaniel Bootes, Data Lead at SwipeGuide, and Umut Ali รzbay, Head of Data Visualization at Miele X, will explain how to effectively communicate data to various stakeholders, both through data APIs and visualizations.Ready to grab some Data Bites?Hope to see you there!Link in the comments ๐
9
2 Comments
Like CommentTo view or add a comment, sign in
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
Data quality is a critical challenge when building data products that isn't solely a technological issue. Having said that, many data teams fail to apply essential practices to improve it. To ensure high data quality, we focus on five main pillars:๐๐ข๐ฅ๐ฅ๐๐ซ 1: ๐๐๐ญ๐ ๐๐๐ง๐๐ ๐๐ฆ๐๐ง๐ญ๐๐ข๐ฅ๐ฅ๐๐ซ 2: ๐๐๐ญ๐ ๐๐ฉ๐๐ซ๐๐ญ๐ข๐จ๐ง๐ฌ๐๐ข๐ฅ๐ฅ๐๐ซ 3: ๐๐๐ญ๐ ๐๐ซ๐๐ก๐ข๐ญ๐๐๐ญ๐ฎ๐ซ๐๐๐ข๐ฅ๐ฅ๐๐ซ 4: ๐๐ซ๐๐ก๐๐ฌ๐ญ๐ซ๐๐ญ๐ข๐จ๐ง๐๐ข๐ฅ๐ฅ๐๐ซ 5: ๐๐จ๐๐ญ๐ฐ๐๐ซ๐ ๐๐ง๐ ๐ข๐ง๐๐๐ซ๐ข๐ง๐ By applying these five pillarsโdata management, data operations, data architecture, orchestration, and software engineeringโdata teams can significantly enhance data quality and reliability, increasing the trust and usage of your data and data products.Read more in the newsletter ๐
See AlsoCritical Control Points in Packaging for Safety and Quality AssuranceHazard Analysis and Critical Control Point (HACCP) and Food Safety Management SystemsImprove Raw Beef Quality Control With X-Ray Inspection Systems | FPEwetten.nl - Regeling - Specifiek interventiebeleid NVWA diervoeder (IB02-SPEC 35, versie 04)5
1 Comment
Like CommentTo view or add a comment, sign in
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
Waarom kampt elk data team met data kwaliteit issues? โ Het is de grootste uitdaging bij het inzetten van analytics: ๐๐ ๐ค๐ฐ๐๐ฅ๐ข๐ญ๐๐ข๐ญ ๐ฏ๐๐ง ๐๐ ๐๐๐ญ๐. AI inzetten? Idem.Er zijn 3 belangrijke reden waardoor dit komt:1. ๐๐๐ง๐ฎ๐๐๐ฅ ๐ข๐ง๐ ๐๐ฏ๐จ๐๐ซ๐๐ ๐๐๐ญ๐: Het is heel moeilijk om manueel ingevoerde datapunten correct te krijgen. Hoe leer je 10 sales medewerkers om de data op dezelfde manier in te vullen? Hoe zorg je ervoor dat alle excel sheets op de standaarden van de organisatie volgen en accuraat zijn (en verzameld worden)? De enige oplossing hiervoor is automatisering en software, en dan nog blijft het moeilijk.2. ๐๐๐ง๐๐จ๐ฏ๐๐ซ ๐ฉ๐ซ๐จ๐๐ฅ๐๐๐ฆ: De producent van de data is vaak niet de consument van de data. Dit betekent dat er een communicatieslag gemaakt moet worden, probleem is dat vaak de producent van de data niet betrokken wordt bij hoe de data uiteindelijk gebruikt gaat worden, en wat de waarde daarvan is. Als het niet duidelijk is wat het nut is van het gestructureerd opslaan van de data, dan gaat het niet gebeuren. Een voorbeeld hiervan is een development team die data overschrijft in de database. Dit is prima voor operationele doeleinden, maar kan voor analytics later problemen opleveren.3. ๐๐๐ซ๐๐ง๐๐๐ซ๐ข๐ง๐ : Bedrijven veranderen continu, definities veranderen. Maar de data verandert niet. **Een lead een jaar geleden betekent heeft vaak een andere definitie toen, dan nu. Context is hiervoor belangrijk.**Bijna elke baan genereert tegenwoordig data. Hierbij is de mindset dat deze data belangrijk is en de kennis van hoe die gebruikt gaat worden key. Iedereen moet eigenaar worden van zijn eigen data, en de kwaliteit er van. Voorbeelden hiervan zijn:- Een developer die data ownership heeft binnen een Development team.- Een sales manager die verantwoordelijk is voor de data binnen het sales team.- Een marketing manager die verantwoordelijk is voor de data binnen het marketing team.Pas als data ownership in de hele organisatie is verwerkt, op alle niveaus en binnen alle teams, is er een goede basis om de data kwaliteit binnen een organisatie te verbeteren. Alleen dan kan het vertrouwen in de data groeien en is de eerste stap gemaakt voor het creรซren van een datagedreven cultuur.Je kan hier niet vroeg genoeg mee beginnen.Ben ik nog een belangrijk scenario vergeten?Success!
7
Like CommentTo view or add a comment, sign in
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
โWij hebben een Data Lakeโ hoor ik tegenwoordig overal om mij heen,De zoveelste hype in de data space.Het is een slecht overblijfsel van tijden dat iedereen het over โbig dataโ had.Alle data engineers hadden deze hippe marketing term, de Data Lake, netzoals Hadoop, een andere big data technologie, bij het vuilnis moeten zetten.Een data lake heeft wel toepassingen, maar de meeste bedrijven hebben echt meer aan een datawarehouse.Het verschil tussen een data lake en een datawarehouse is heel eenvoudig.Een Data Lake is zoals de naam het zegt, een meer (lake) waar je je data in dumpt, met weinig zorg en zonder het netjes te structureren. Een datawarehouse is eigenlijk hetzelfde, behalve dat je alles netjes in het warehouse neerzet. Dit betekent dat het gelijk geschikt is voor analytics.Het Data Lake is een overblijfsel van de big data tijden, ergo verzamel al je data in het lake, ongestructureerd, en bepaal later wat je er mee gaat doen. Dit wordt steeds makkelijker met alle technologie die we tegenwoordig hebben. Een data lake is in de meeste gevallen helemaal niet geschikt, en zou ik ook sterk afraden. Het is een hippe term maar dat was het dan ook.Aan de andere kant is het nadeel van een datawarehouse dat het een grotere investering is om te op te zetten, wat logisch is, want je moet bepalen hoe je het inricht. Maar als je iets nuttig met de data wilt gaan doen zal je dat toch moeten doen.Dus waarom het niet gelijk goed doen?Dit heeft direct impact op de bruikbaarheid en de kwaliteit van de data en uiteindelijk daarmee het vertrouwen in de data.P.S. Eigenlijk is een data lake vaak gewoon een simpele techniek, zoals Amazon S3 of AWS Athena. Deze technieken zijn zeer belangrijk in moderne data infrastructuren. Laten we alleen precies zijn in de woorden de we gebruiken: een datalake als analytics oplossing is geschikt voor ruwe data, een data lakehouse of datawarehouse voor gestructureerde data.
15
Like CommentTo view or add a comment, sign in
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
I'm currently writing a blog post about setting up IO managers in Dagster, a data orchestration framework similar to Apache Airflow.We've been using Dagster for a while and have been quite impressed with its capabilities and user experience.I'm curious about what everyone else is using as their orchestration tool of choice:- Apache Airflow- Dagster- Cron- GitHub Actions- Something else?It's interesting to note that while Cron and GitHub Actions are not typically seen as full-fledged orchestration solutions, quite some people seem to be using them to schedule their pipelines. For example, GitHub actions is often used together with DBT.I'd love to hear your thoughts and experiences! What tools are you using to orchestrate your data workflows, and why? Happy to discuss ๐.#DataOrchestration #Dagster #ApacheAirflow #DataEngineering
This content isnโt available here
Access this content and more in the LinkedIn app
3
Like CommentTo view or add a comment, sign in
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
Een van de complexe vraagstukken binnen datateams, waarvoor geen eenduidig antwoord bestaat, is de vraag: "Hoe kunnen we data delen met onze klanten?"De aankomende editie van Data Bites op 14 mei staat in het teken van "B2B data sharing".Deze editie zullen Bob ter Brugge, Product Owner Data bij Seenons en Bouke Nederstigt, CTO bij TAPP, hun uitgebreide ervaring met dit onderwerp delen.Na het onzettende success van de vorige editie wil ik jullie allemaal graag uitnodigen voor de volgende editie @ House of Watt op 14 mei van 17 tot 19 uur.Zie comments voor de link naar het evenement.
7
1 Comment
Like CommentTo view or add a comment, sign in
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
In mijn laatste blog post heb ik geschreven over Data Governance en wat het voor je kan betekenen. Ik denk dat voor veel mensen data governance een ver-van-mijn-bedshow is, waardoor er niet veel mee gedaan wordt. Als je er eenmaal praktisch mee aan de slag gaat zal je merken dat het allemaal best logisch is.Simpelweg gaat Data Governance over het dirigeren van mensen, processen, beleid en tools omtrent data. Het zal organisaties in staat stellen om data in te zetten, waarbij ze best practices volgen en beleidsregels, terwijl ze data gebruiken om succesvoller te worden.In de blog behandel ik de volgende onderwerpen:-Wat is data governance?-De voordelen van data governance-De uitdagingen bij het implementeren van data governance-Een stapsgewijs plan over hoe te beginnen met data governance-Best practices om succes te behalen met data governanceIk deel de link in de comments ๐
13
1 Comment
Like CommentTo view or add a comment, sign in
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
Last month, we finished a PowerBI training session for Rabia Sarac Kocak from NextPax. This was the first time we gave training to one of our clients. I am happy to share that we got great feedback. ๐We focused on building a usable product in the training, which meant she gained hands-on experience. This way, we killed two birds with one stone: a new dashboard and hands-on experience building dashboards that are ready to be used.Instead of starting from scratch with a PowerBI 101 course, we decided that there are already great courses on PowerBI available online. We advised to first follow the following modules from Pluralsight:- Data Literacy: Essentials of Power BI- Effective Reporting with Power BI- Modeling Data in Power BIThese videos will teach you the basics and also touch upon the most complex (and powerful) part of PowerBI, DAX. With this in place, we could dive into the nitty gritty and start developing powerful comparisons directly, and skip the boring stuff in our two sessions.If you're interested in the Pluralsight modules, Iโll share the links in the comments.
33
3 Comments
Like CommentTo view or add a comment, sign in
-
Maximilian Filtenborg
Helping B2B software companies trust their data | Data Engineer & Co-founder at BiteStreams
- Report this post
In two weeks from now, on March 19th, BiteStreams will be hosting the first edition of our new event: Data Bites ๐ ๐ Format: Walk-in (with bites), Two presentations, Food & Drinksโ For Who: individuals interested in data and will delve deeper into its possibilities for B2B SaaS companies.โฒ When: Tuesday, March 19th from 17:00 -- 19:00.๐ง Topics: Using data & AI for recruitment and conducting risk assessments of buyers within B2B transactions.At each edition, two SaaS companies will share practical examples of leveraging data within their organization.We invite anyone interested in these topics to join us for this inaugural edition! See you there :)RSVP ๐ https://lnkd.in/eHEmw3Z4#meetup #bitestreams #event
5
Like CommentTo view or add a comment, sign in
1,122 followers
- 81 Posts
- 18 Articles
View Profile
FollowMore from this author
- 5 Data Engineering Pillars to Ensure Good Data Quality Maximilian Filtenborg 2d
- Dagster IO Managers Explained: A Practical Guide Maximilian Filtenborg 2w