빅데이터 김교수의 "AI노마드연구소" AI로 열어가는 노마드 세상!

빅데이터 김교수의 "AI노마드연구소" AI로 열어가는 노마드 세상입니다. AI 코딩작성, SNS 분석, AI업무자동화 컨설팅 0507-1419-0222

자세히보기

교육/파이썬빅데이터분석교육 55

파이썬 판다스의 이해4 - pandas plotting

팬더 - 플로팅 플로팅 Pandas는 이 plot()방법을 사용하여 다이어그램을 만듭니다. Matplotlib 라이브러리의 하위 모듈인 Pyplot을 사용하여 다이어그램을 화면에 시각화할 수 있습니다. 예시 Matplotlib에서 pyplot을 가져오고 DataFrame을 시각화합니다. import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('data.csv') df.plot() plt.show() 이 페이지의 예에서는 'data.csv'라는 CSV 파일을 사용합니다. data.csv 다운로드 또는 data.csv 열기 산포도 kind다음 인수 를 사용하여 산점도를 원한다고 지정합니다 . kind = 'scatter' 산점도에는 x축과 ..

파이썬 판다스의 이해2 - Pandas Cleaning

Pandas - 빈 셀 청소 빈 셀 빈 셀은 데이터를 분석할 때 잠재적으로 잘못된 결과를 제공할 수 있습니다. 행 제거 빈 셀을 처리하는 한 가지 방법은 빈 셀이 포함된 행을 제거하는 것입니다. 데이터 세트가 매우 클 수 있고 몇 개의 행을 제거해도 결과에 큰 영향을 미치지 않기 때문에 일반적으로 괜찮습니다. 예시 빈 셀이 없는 새 데이터 프레임을 반환합니다. import pandas as pd df = pd.read_csv('data.csv') new_df = df.dropna() print(new_df.to_string()) 참고: 기본적으로 dropna()메서드는 새 DataFrame을 반환하고 원본을 변경하지 않습니다. 원래 DataFrame을 변경하려면 다음 inplace = True인수 를 사..

파이썬 판다스의 이해0 - 데이터유형

Pandas는 데이터 세트 작업에 사용되는 Python 라이브러리입니다. 데이터를 분석, 정리, 탐색 및 조작하는 기능이 있습니다. "Pandas"라는 이름은 "Panel Data"와 "Python Data Analysis"를 모두 참조하며 2008년 Wes McKinney가 만들었습니다. Pandas에 대해 자세히 알아볼 수 있도록 14개의 튜토리얼 페이지를 만들었습니다. 기본 소개로 시작하여 데이터 정리 및 플로팅으로 끝납니다. 판다스의 데이터 유형 1. Pandas Series Pandas Series는 테이블의 열과 같습니다. 모든 유형의 데이터를 보유하는 1차원 배열입니다 2. 데이터프레임이란? Pandas DataFrame은 2차원 배열 또는 행과 열이 있는 테이블과 같은 2차원 데이터 구조입..

빅데이터로 보는 윤석열대통령! 100일(2022년 8월)웹크룰링, 워드크라우드

오늘은 #윤석열대통령 취임 100일에 즈음해서 네이버 뉴스 빅데이터로 바라본 윤석열 대통령의 워드크라우드 분석을 살펴보겠습니다. 임기초기부터 현재까지 검색추이는 다음 그래프와 같습니다. 비교 대상 인물로 유시민, #이준석, 이재명의원과 검색추이를 비교핳 경우, 상대적으로 윤석열대통령에 대한 검색수가 상대적으로 높은 것을 파악되었습니다(구글 트렌드) 다음은 윤석열대통령을 키워드로 네이버 뉴스에 나타난 빅데이터 분석결과입니다. 대통령의 이름인 "윤석열" 이 가장 많이 검색되었으며, 관련키워드로 대통령, 정부, 검찰총장, 경찰, 취임, 지지율 순으로 나타났으며 최근 북한간의 문제로 인해 "김여정" 이 연관단어로 나타났으며, 이준석, 기자회견, 이원석, 구성, 평가 등의 단어순으로 보여지고 있다. 긍정단어으로는..

테슬라 주가와 구글검색 빅데이터관계를 통해 살펴보는 주가흐름?!

" 사람이 지나간 길에는 흔적이 남듯이 인터넷검색결과는 사람의 생각을 읽는 소재가 됩니다" 테슬라는 1990년대 애플과 같이 2000년대 4차 산업을 이끄는 가장 핫한 기업임에는 부인할 수 없을 것이다. 테슬라는 관련 기술분야가 다양하여 자율주행, 인공지능, 전기자동자, 재생에너지 등 4차산업 중심에 있는 기업으로 흥미로운 기업입니다. 오늘은 2022년 1년간 테슬라주가 변화 추이와 구글트렌드의 빅데이터 검색추이(영어) 차트를 비교하며 그 흐름을 보고자 합니다. 테슬라 1년간 변화추이는 다음 그래프와 같습니다. 테슬라의 1년간 구글트렌드의 검색추이는 다음과 같습니다. 구글에서 "테슬라(TELSA)"라는 단어로 검색한 결과를 보면 상승 기간인 21년 10월 24~30일 기간동안 최고점(상대값 100)을 나..

AI 빅데이터, 텍스트 마이닝기법을 이용한 소비자 감성분석( 파이썬활용)

"AI 빅데이터"로 할 수 있는 과업들은 다음과 같습니다. 텍스트마이닝, 추천 알고리즘, 영상처리 분석, 이상탐지, 이미지분석, 딥러닝, 기계학습, 시뮬레이션 및 금융공학 등입니다. 그 중 이번 시간에는 텍스트 마이닝 기반 소비자 분석측면에서 응용하여 보겠습니다. 우리나라 AI 빅데이터 주요 기업 더보기 텍스트 마이닝(text mining) 정의 텍스트 마이닝은 비정형의 텍스트 데이트에서 고품질 정보를 추출하는 프로세스입니다. 다시말해, 비정형 텍스트데이터로부터 패턴을 찾아내어 의미 있는 정보를 추출하는 분석과정 또는 기법을 말한다. 텍스트 마이닝은 데이터 마이닝과 자연어 처리(natural language process), 정보 검색 등의 분갸가 결할된 분석 기법을 사용하여 텍스트 데이터로부터 유용한 ..

부동산 빅데이터 분석1_부동산 빅데이터 시세 파악에 유용한 사이트

우리나라에서 아파트 등 부동산 빅데이터를 파악 및 AI를 통한 시세 예측까지 분석 정보를 파악할 수 있는 사이트는 다음과 같습니다. 1. 네이버 부동산 정보 네이버 부동산 정보는 매물, 분양, 뉴스, 커뮤니티 등 메뉴를 구성되어 있으며 네이버 아디와 연동된 MY페이지를 통해 관심 매물에 대한 정보를 모아서 보기에 좋습니다. 2. KB 부동산 정보 KB 부동산 정보는 아파트 시게, 실거래가, 분양 및 빌라시세와 AI예측시세를 통해 향후 시세 전망을 파악하기에 유용하게 구성되어 있습니다. 화면 구성은 페이지에 접속하자 마자 왼쪽에 전체 매물수와 아파트, 오피스텔 등 카테고리별로 한눈에 볼 수 있게 구분되어 있습니다. 특히, 내집과 오늘 기준 분양, 청양정보를 바로 확인할 수 있도록 정보를 제공합니다. 왼쪽에..

[파이썬통계분석]타이타닉호 침몰의 비밀, 1등석 고객의 생존가능성은?

타이타닉호의 탑승한 승객이 1 등석과 3등석중 어떤 그룹의 생존율이 높았을까요?     한번쯤 생각해 보셨나요? 타이타닉 고객중 1등석 고객이 오래 생존했을까요? 아님 3등석 고객이 많이 생존했을까요? 파이썬으로 타이타닉호에 승선한 고객데이터를 기준으로 분석해 보겠습니다.  이 문제를 풀기위해서는 원인과 결과의 측면이 아니라 상관관계, 즉 여러 변수간의 관계를 찾아네는 것이 중요합니다.  3. 데이터 수집4. 데이터 준비우선 준비물로 타이타닉호 탐승고객 정보를 활요하도록 합니다.  탑승 고객의 정보는 다음과 같은 열로 구성됩니다.  준비된 자료에서 상관관계는 종속변수인 생존여부(survived)와 pclass(탑승 등석) 및 classs,  age(나이), sibsp(동석가족수), parch(부양가족수)..

파이썬 동적 크룰링 실습_커피빈사이트 활용

파이썬에서 크룰링은 정적과 동적크룰링으로 나눠집니다. 그중 동적 크룰링은 자바스크립트로 콘텐츠가 HTML(홈페이지)에 나타나지 않는 페이지를 대상으로 합니다. 이를 위해서는 다음과 같은 환경설정이 필요로 합니다. 1. 파이썬 동적크룰링 환경설정하기 우선 필요한 라이브러리를 설치합니다.(설명은 코랩(Colab) 환경을 기준) 필요한 라이브러리는 request, BeautifulSoup, Selenium이 필요합니다. 특히, 동적크룰링에서는 selenium을 통해 크롬브라우즈를 활용할 수 있습니다. !pip install selenium # 셀레늄 라이브러리 설치 !apt-get upgrade # apt 설치 명령 업그레이드 !apt install chromium-chromedriver # 크롬 가상 드라이..

[파이썬]선형회귀분석 t-검증을 이용한 와인 품질 등급 예측하기

ㅁ 개요 이 장의 목표는 와인 데이터의 속성(성분 등)을 분석한 뒤 셈플 데이터를 이용하여 품질 등급을 예측하는 것이다. 이를 위해 데이터의 선형회귀분석 기술 통계를 구하고 레드와인과 화이트 와인 그룹의 품질에 대해 t-검정으로 셈플와인의 품질을 예측하는 내용입니다. 와인속성에 따른 품질 등급을 예측하기 위해 와인의 속성을 독립변수로 정하고, 와인의 품질을 종속 변수로 선형 회귀분석을 수행한다. 셈플데이이터는 캘리포니아 어바인 대학의 머신러닝 저장소의 자료를 다운받아 활용합니다. ㅁ 핵심 개념 - 기술통계 : 요약통계(평균(mean), 중앙값(median), 최빈값(mode))로 대표값을 찾고 표준편차(standard deviation)과 사분위(quartile)로 분포를 확인할 수 있습니다. - 회귀분..

반응형