DataLake에서 update를 할 수 있게 해주세요.
DataLake는 (비정형) 원시 데이터를 적재하는 저장소의 개념을 띄고 있습니다. (비정형)이라는 것은 저장된 데이터가 스키마나 명세를 갖고 있지 않을 수도 있다라는 것을 의미하고 원시데이터라 함은 특정목적을 위해 데이터가 처리되지 않은 원래의 상태를 뜻합니다. 전통적인 방식에 기반하여 이후의 데이터의 lifecycle을 정리 해보면 데이터를 사용할 수 있는 형태로 처리(ETL)하여 ODS(Operational Data Store)에 저장하고 이를 의사결정 및 각종분석에 활용하기 위해 DW(Data Warehouse)에 집중시킵니다. 또 ODS나 DW의 데이터 중 발굴된 인사이트는 서비스로의 활용을 위해 별도로 처리되어 저장되는데 이곳을 Mart라고 칭하고 있습니다.......
2021-08-11 11:38:26 |
산소소년
DataLake에서 update를 할 수 있게 해주세요.
DataLake는 (비정형) 원시 데이터를 적재하는 저장소의 개념을 띄고 있습니다. (비정형)이라는 것은 저장된 데이터가 스키마나 명세를 갖고 있지 않을 수도 있다라는 것을 의미하고 원시데이터라 함은 특정목적을 위해 데이터가 처리되지 않은 원래의 상태를 뜻합니다. 전통적인 방식에 기반하여 이후의 데이터의 lifecycle을 정리 해보면 데이터를 사용할 수 있는 형태로 처리(ETL)하여 ODS(Operational Data Store)에 저장하고 이를 의사결정 및 각종분석에 활용하기 위해 DW(Data Warehouse)에 집중시킵니다. 또 ODS나 DW의 데이터 중 발굴된 인사이트는 서비스로의 활용을 위해 별도로 처리되어 저장되는데 이곳을 Mart라고 칭하고 있습니다.......
2021-08-11 11:38:26 |
산소소년
DataLake에서 update를 할 수 있게 해주세요.
DataLake는 (비정형) 원시 데이터를 적재하는 저장소의 개념을 띄고 있습니다. (비정형)이라는 것은 저장된 데이터가 스키마나 명세를 갖고 있지 않을 수도 있다라는 것을 의미하고 원시데이터라 함은 특정목적을 위해 데이터가 처리되지 않은 원래의 상태를 뜻합니다. 전통적인 방식에 기반하여 이후의 데이터의 lifecycle을 정리 해보면 데이터를 사용할 수 있는 형태로 처리(ETL)하여 ODS(Operational Data Store)에 저장하고 이를 의사결정 및 각종분석에 활용하기 위해 DW(Data Warehouse)에 집중시킵니다. 또 ODS나 DW의 데이터 중 발굴된 인사이트는 서비스로의 활용을 위해 별도로 처리되어 저장되는데 이곳을 Mart라고 칭하고 있습니다.......
2021-08-11 02:38:26 |
산소소년
DataLake에서 update를 할 수 있게 해주세요.
DataLake는 (비정형) 원시 데이터를 적재하는 저장소의 개념을 띄고 있습니다. (비정형)이라는 것은 저장된 데이터가 스키마나 명세를 갖고 있지 않을 수도 있다라는 것을 의미하고 원시데이터라 함은 특정목적을 위해 데이터가 처리되지 않은 원래의 상태를 뜻합니다. 전통적인 방식에 기반하여 이후의 데이터의 lifecycle을 정리 해보면 데이터를 사용할 수 있는 형태로 처리(ETL)하여 ODS(Operational Data Store)에 저장하고 이를 의사결정 및 각종분석에 활용하기 위해 DW(Data Warehouse)에 집중시킵니다. 또 ODS나 DW의 데이터 중 발굴된 인사이트는 서비스로의 활용을 위해 별도로 처리되어 저장되는데 이곳을 Mart라고 칭하고 있습니다.......
2021-08-11 02:38:26 |
산소소년
줄바꿈이 되어있지 않은 json 덩어리를 spark dataframe으로 만들기
제가 담당하고 있는 업무 중에는 협력업체의 데이터를 받아 정형하고 분석하는 플랫폼을 만드는 과제도 있습니다. 그러다보니 각양각색의 데이터를 다루게 되는데요, 이번에는 JSON 파일을 전달받았습니다. 그래서 우선 전달받은 데이터 파일 하나를 로딩해 봅니다. 음, 샘플인가? 왜 record가 한 개지? 한 개치고는 용량이 큰데? 살펴보니 협력업체에는 하둡 데이터 엔지니어가 없다보니 줄바꿈이 되어있지 않은 대용량의 통짜 json 파일을 받았네요... (예시를 위해 만든 가상의 데이터이니 너무 자세히 보실 필요는 없습니다. ^^;;) 이곳에서는 이전부터 newline 없이 데이터를 쌓고 있기도 하여 정책을 변경하여 전달해 주도록 다시 요청하는.......
2021-07-31 00:14:16 |
산소소년
줄바꿈이 되어있지 않은 json 덩어리를 spark dataframe으로 만들기
제가 담당하고 있는 업무 중에는 협력업체의 데이터를 받아 정형하고 분석하는 플랫폼을 만드는 과제도 있습니다. 그러다보니 각양각색의 데이터를 다루게 되는데요, 이번에는 JSON 파일을 전달받았습니다. 그래서 우선 전달받은 데이터 파일 하나를 로딩해 봅니다. 음, 샘플인가? 왜 record가 한 개지? 한 개치고는 용량이 큰데? 살펴보니 협력업체에는 하둡 데이터 엔지니어가 없다보니 줄바꿈이 되어있지 않은 대용량의 통짜 json 파일을 받았네요... (예시를 위해 만든 가상의 데이터이니 너무 자세히 보실 필요는 없습니다. ^^;;) 이곳에서는 이전부터 newline 없이 데이터를 쌓고 있기도 하여 정책을 변경하여 전달해 주도록 다시 요청하는.......
2021-07-31 00:14:16 |
산소소년
줄바꿈이 되어있지 않은 json 덩어리를 spark dataframe으로 만들기
제가 담당하고 있는 업무 중에는 협력업체의 데이터를 받아 정형하고 분석하는 플랫폼을 만드는 과제도 있습니다. 그러다보니 각양각색의 데이터를 다루게 되는데요, 이번에는 JSON 파일을 전달받았습니다. 그래서 우선 전달받은 데이터 파일 하나를 로딩해 봅니다. 음, 샘플인가? 왜 record가 한 개지? 한 개치고는 용량이 큰데? 살펴보니 협력업체에는 하둡 데이터 엔지니어가 없다보니 줄바꿈이 되어있지 않은 대용량의 통짜 json 파일을 받았네요... (예시를 위해 만든 가상의 데이터이니 너무 자세히 보실 필요는 없습니다. ^^;;) 이곳에서는 이전부터 newline 없이 데이터를 쌓고 있기도 하여 정책을 변경하여 전달해 주도록 다시 요청하는.......
2021-07-30 15:14:16 |
산소소년
줄바꿈이 되어있지 않은 json 덩어리를 spark dataframe으로 만들기
제가 담당하고 있는 업무 중에는 협력업체의 데이터를 받아 정형하고 분석하는 플랫폼을 만드는 과제도 있습니다. 그러다보니 각양각색의 데이터를 다루게 되는데요, 이번에는 JSON 파일을 전달받았습니다. 그래서 우선 전달받은 데이터 파일 하나를 로딩해 봅니다. 음, 샘플인가? 왜 record가 한 개지? 한 개치고는 용량이 큰데? 살펴보니 협력업체에는 하둡 데이터 엔지니어가 없다보니 줄바꿈이 되어있지 않은 대용량의 통짜 json 파일을 받았네요... (예시를 위해 만든 가상의 데이터이니 너무 자세히 보실 필요는 없습니다. ^^;;) 이곳에서는 이전부터 newline 없이 데이터를 쌓고 있기도 하여 정책을 변경하여 전달해 주도록 다시 요청하는.......
2021-07-30 15:14:16 |
산소소년
증강분석(Augmented Analytics)에 연계되는 AI 서비스 개발기
근래의 데이터 기반 환경은 많은 데이터를 스스로 분석하고 인사이트를 도출할 수 있는 Self Discovery로 대변되는 기술적인 움직임과 데이터 활동을 누구나 어렵지않게 수행할 수 있도록 하는 데이터 민주화(Data Democratization) 정책으로 구분하여 볼 수 있습니다. 여기에 최근에는 각종 마이닝 기법과 ML, AI 모델을 적용한 예측된 데이터를 추가하여 "정보에 증강된 부가가치"를 부여하여 지식(knowledge)을 뛰어넘어 지혜(wisdom)를 추구하려는 증강분석(Augmented Analytics) 시대에 접어들고 있습니다. 여러분들께서 많이 들어 보셨던 태블로라는 BI분석 플랫폼에서도 비지니스 사이언스라는 상품과 개념을 앞세워 라인업을 구.......
2021-06-13 22:13:46 |
산소소년
증강분석(Augmented Analytics)에 연계되는 AI 서비스 개발기
근래의 데이터 기반 환경은 많은 데이터를 스스로 분석하고 인사이트를 도출할 수 있는 Self Discovery로 대변되는 기술적인 움직임과 데이터 활동을 누구나 어렵지않게 수행할 수 있도록 하는 데이터 민주화(Data Democratization) 정책으로 구분하여 볼 수 있습니다. 여기에 최근에는 각종 마이닝 기법과 ML, AI 모델을 적용한 예측된 데이터를 추가하여 "정보에 증강된 부가가치"를 부여하여 지식(knowledge)을 뛰어넘어 지혜(wisdom)를 추구하려는 증강분석(Augmented Analytics) 시대에 접어들고 있습니다. 여러분들께서 많이 들어 보셨던 태블로라는 BI분석 플랫폼에서도 비지니스 사이언스라는 상품과 개념을 앞세워 라인업을 구.......
2021-06-13 22:13:46 |
산소소년
증강분석(Augmented Analytics)에 연계되는 AI 서비스 개발기
근래의 데이터 기반 환경은 많은 데이터를 스스로 분석하고 인사이트를 도출할 수 있는 Self Discovery로 대변되는 기술적인 움직임과 데이터 활동을 누구나 어렵지않게 수행할 수 있도록 하는 데이터 민주화(Data Democratization) 정책으로 구분하여 볼 수 있습니다. 여기에 최근에는 각종 마이닝 기법과 ML, AI 모델을 적용한 예측된 데이터를 추가하여 "정보에 증강된 부가가치"를 부여하여 지식(knowledge)을 뛰어넘어 지혜(wisdom)를 추구하려는 증강분석(Augmented Analytics) 시대에 접어들고 있습니다. 여러분들께서 많이 들어 보셨던 태블로라는 BI분석 플랫폼에서도 비지니스 사이언스라는 상품과 개념을 앞세워 라인업을 구.......
2021-06-13 13:13:46 |
산소소년
증강분석(Augmented Analytics)에 연계되는 AI 서비스 개발기
근래의 데이터 기반 환경은 많은 데이터를 스스로 분석하고 인사이트를 도출할 수 있는 Self Discovery로 대변되는 기술적인 움직임과 데이터 활동을 누구나 어렵지않게 수행할 수 있도록 하는 데이터 민주화(Data Democratization) 정책으로 구분하여 볼 수 있습니다. 여기에 최근에는 각종 마이닝 기법과 ML, AI 모델을 적용한 예측된 데이터를 추가하여 "정보에 증강된 부가가치"를 부여하여 지식(knowledge)을 뛰어넘어 지혜(wisdom)를 추구하려는 증강분석(Augmented Analytics) 시대에 접어들고 있습니다. 여러분들께서 많이 들어 보셨던 태블로라는 BI분석 플랫폼에서도 비지니스 사이언스라는 상품과 개념을 앞세워 라인업을 구.......
2021-06-13 13:13:46 |
산소소년
뼈대있는 가문의 데이터로 만들기
작년 중순부터 BI업무를 담당하게 되어 환경개선을 위해 수행한 업무 중 다른 부서에도 도움이 될만한 내용을 공유해보려 올해 초 사내 게시판에 공유했던 것을 회사 기술블로그에 올리기 위해 재편집한 내용 입니다. 데이터 처리, 집계, 모델링 업무를 수행하다보면 인지하지 못하는 복잡한 상관관계가 만들어지게 됩니다. 특히 테이블이라고 표현되는 Relational Database의 DataSet들은 조회 용으로 쓰이는 경우도 있지만 많은 경우 다른 DataSet의 입력이 되거나 침조하는 meta성 데이터가 되기도 합니다. 그러다보니 아래와 같은 경우가 심심치 않게 자주 발생됩니다. 어떻게 대응해야 할까요? ㅠ.ㅠ 이를 해결하기 위해서는 T1을 참조하는.......
2021-06-04 08:52:00 |
산소소년
뼈대있는 가문의 데이터로 만들기
작년 중순부터 BI업무를 담당하게 되어 환경개선을 위해 수행한 업무 중 다른 부서에도 도움이 될만한 내용을 공유해보려 올해 초 사내 게시판에 공유했던 것을 회사 기술블로그에 올리기 위해 재편집한 내용 입니다. 데이터 처리, 집계, 모델링 업무를 수행하다보면 인지하지 못하는 복잡한 상관관계가 만들어지게 됩니다. 특히 테이블이라고 표현되는 Relational Database의 DataSet들은 조회 용으로 쓰이는 경우도 있지만 많은 경우 다른 DataSet의 입력이 되거나 침조하는 meta성 데이터가 되기도 합니다. 그러다보니 아래와 같은 경우가 심심치 않게 자주 발생됩니다. 어떻게 대응해야 할까요? ㅠ.ㅠ 이를 해결하기 위해서는 T1을 참조하는.......
2021-06-04 08:52:00 |
산소소년
뼈대있는 가문의 데이터로 만들기
작년 중순부터 BI업무를 담당하게 되어 환경개선을 위해 수행한 업무 중 다른 부서에도 도움이 될만한 내용을 공유해보려 올해 초 사내 게시판에 공유했던 것을 회사 기술블로그에 올리기 위해 재편집한 내용 입니다. 데이터 처리, 집계, 모델링 업무를 수행하다보면 인지하지 못하는 복잡한 상관관계가 만들어지게 됩니다. 특히 테이블이라고 표현되는 Relational Database의 DataSet들은 조회 용으로 쓰이는 경우도 있지만 많은 경우 다른 DataSet의 입력이 되거나 침조하는 meta성 데이터가 되기도 합니다. 그러다보니 아래와 같은 경우가 심심치 않게 자주 발생됩니다. 어떻게 대응해야 할까요? ㅠ.ㅠ 이를 해결하기 위해서는 T1을 참조하는.......
2021-06-03 23:52:00 |
산소소년
뼈대있는 가문의 데이터로 만들기
작년 중순부터 BI업무를 담당하게 되어 환경개선을 위해 수행한 업무 중 다른 부서에도 도움이 될만한 내용을 공유해보려 올해 초 사내 게시판에 공유했던 것을 회사 기술블로그에 올리기 위해 재편집한 내용 입니다. 데이터 처리, 집계, 모델링 업무를 수행하다보면 인지하지 못하는 복잡한 상관관계가 만들어지게 됩니다. 특히 테이블이라고 표현되는 Relational Database의 DataSet들은 조회 용으로 쓰이는 경우도 있지만 많은 경우 다른 DataSet의 입력이 되거나 침조하는 meta성 데이터가 되기도 합니다. 그러다보니 아래와 같은 경우가 심심치 않게 자주 발생됩니다. 어떻게 대응해야 할까요? ㅠ.ㅠ 이를 해결하기 위해서는 T1을 참조하는.......
2021-06-03 23:52:00 |
산소소년
구매 데이터를 이용한 고객 세분화 기법 - RFM
안녕하십니까? 오늘은 뜬금없이 마케팅에 관련된 것들을 말씀 드려볼 생각인데요. 전반적인 마케팅 관련분야는 저의 전문이 아니기도하고 또 주위에 수많은 고수 분들이 계실테니 저는 제가 자신있어하는 부분인 데이터 관점만 똑 떼어내서 이야기를 진행해 볼까 합니다. 시작에 앞서... 근래의 마케팅은 모든 고객에게 일관된 전략을 수립하고 운영하기 보다는 고객을 세분화하고 그 구분에 따라 최적의 정책을 만들어 나가는 방향으로 진행되고 있으며 이것들을 여러분들도 많이 들어본 타겟 마케팅 이라고 부르고 있는 것 같습니다. 고객사가 고객을 좀 더 잘 이해하고 이를 통해 최소의 비용으로 최대의 효과를 일으키려는 목적이지만 또 너.......
2021-04-04 11:55:26 |
산소소년
구매 데이터를 이용한 고객 세분화 기법 - RFM
안녕하십니까? 오늘은 뜬금없이 마케팅에 관련된 것들을 말씀 드려볼 생각인데요. 전반적인 마케팅 관련분야는 저의 전문이 아니기도하고 또 주위에 수많은 고수 분들이 계실테니 저는 제가 자신있어하는 부분인 데이터 관점만 똑 떼어내서 이야기를 진행해 볼까 합니다. 시작에 앞서... 근래의 마케팅은 모든 고객에게 일관된 전략을 수립하고 운영하기 보다는 고객을 세분화하고 그 구분에 따라 최적의 정책을 만들어 나가는 방향으로 진행되고 있으며 이것들을 여러분들도 많이 들어본 타겟 마케팅 이라고 부르고 있는 것 같습니다. 고객사가 고객을 좀 더 잘 이해하고 이를 통해 최소의 비용으로 최대의 효과를 일으키려는 목적이지만 또 너.......
2021-04-04 11:55:26 |
산소소년
구매 데이터를 이용한 고객 세분화 기법 - RFM
안녕하십니까? 오늘은 뜬금없이 마케팅에 관련된 것들을 말씀 드려볼 생각인데요. 전반적인 마케팅 관련분야는 저의 전문이 아니기도하고 또 주위에 수많은 고수 분들이 계실테니 저는 제가 자신있어하는 부분인 데이터 관점만 똑 떼어내서 이야기를 진행해 볼까 합니다. 시작에 앞서... 근래의 마케팅은 모든 고객에게 일관된 전략을 수립하고 운영하기 보다는 고객을 세분화하고 그 구분에 따라 최적의 정책을 만들어 나가는 방향으로 진행되고 있으며 이것들을 여러분들도 많이 들어본 타겟 마케팅 이라고 부르고 있는 것 같습니다. 고객사가 고객을 좀 더 잘 이해하고 이를 통해 최소의 비용으로 최대의 효과를 일으키려는 목적이지만 또 너.......
2021-04-04 02:55:26 |
산소소년
구매 데이터를 이용한 고객 세분화 기법 - RFM
안녕하십니까? 오늘은 뜬금없이 마케팅에 관련된 것들을 말씀 드려볼 생각인데요. 전반적인 마케팅 관련분야는 저의 전문이 아니기도하고 또 주위에 수많은 고수 분들이 계실테니 저는 제가 자신있어하는 부분인 데이터 관점만 똑 떼어내서 이야기를 진행해 볼까 합니다. 시작에 앞서... 근래의 마케팅은 모든 고객에게 일관된 전략을 수립하고 운영하기 보다는 고객을 세분화하고 그 구분에 따라 최적의 정책을 만들어 나가는 방향으로 진행되고 있으며 이것들을 여러분들도 많이 들어본 타겟 마케팅 이라고 부르고 있는 것 같습니다. 고객사가 고객을 좀 더 잘 이해하고 이를 통해 최소의 비용으로 최대의 효과를 일으키려는 목적이지만 또 너.......
2021-04-04 02:55:26 |
산소소년