TF-IDF정의와 sklearn 예시

교육/인공지능교육

TF-IDF정의와 sklearn 예시

빅데이터 김교수 2023. 1. 24. 22:06

TF-IDF(term frequency-inverse document frequency)란?

TF-IDF(term frequency-inverse document frequency)는 문서에서 단어의 중요성을 측정하는 데 사용되는 수치 통계입니다. 문서의 단어에 대한 TF-IDF 값은 용어 빈도(TF)와 역 문서 빈도(IDF)의 곱입니다. TF는 단어가 문서에 나타나는 횟수이고 IDF는 단어를 포함하는 문서의 로그 스케일링된 역 비율입니다. 단어의 TF-IDF 값이 높을수록 문서에 더 중요합니다. 다음은 scikit-learn 라이브러리를 사용하여 Python에서 TF-IDF를 계산하는 방법의 예입니다.

from sklearn.feature_extraction.text import TfidfVectorizer

# Define a list of documents
documents = ["this is the first document", "this document is the second document", "and this is the third one", "is this the first document"]

# Create a TfidfVectorizer object
vectorizer = TfidfVectorizer()

# Fit the vectorizer to the documents
X = vectorizer.fit_transform(documents)

# Get the feature names
feature_names = vectorizer.get_feature_names()

# Print the TF-IDF values for each word
for doc in X:
    for word in doc.nonzero()[1]:
        print(feature_names[word], doc[0, word])

그러면 문서의 각 단어에 대한 TF-IDF 값이 출력됩니다.

저작자표시

'교육 > 인공지능교육' 카테고리의 다른 글

"5분만에 ChatGPT로 Tesla와 Apple 주가차트 분석하기" (0)	2023.01.27
ChatGPT 종합 사용자 매뉴얼: API 언어 모델 설정 및 사용법 (2)	2023.01.26
"ChatGPT의 가능성 활성화: 기술 깊은 파고들기" (0)	2023.01.21
"ChatGPT: 언어 처리의 미래" (0)	2023.01.21
인공지능, 머신러닝, 딥러닝의 차이점는? (0)	2022.05.13

현재글TF-IDF정의와 sklearn 예시

AI교육연구소는 인공지능(AI) 기술을 활용하여 자유롭게 일하는 사람들에 대한 블로그입니다. AI교유은 우리가 전 세계 어디에서나 일할 수 있으며, 시간과 장소에 구애받지 않고 자신의 삶을 설계할 수 있습니다. 이 블로그는 AI노마드가 되기 위한 방법, AI 기술을 활용하여 성공하는 비즈니스를 만드는 방법, 그리고 AI노마드로서의 삶의 장단점에 대한 정보를 제공합니다. AI노마드가 되고 싶다면, 이 블로그는 시작하기에 좋은 곳입니다. 이 블로그는 A

챗GPT, 바드, 빅데이터, ADsP, 애플, 챗지피티, 빅데이터분석준전문가자격증, 쿠팡, 파이썬 판다스, 파이썬, pandas 이해, ChatGPT, 테슬라주식, 테슬라주가, #No #tag, 테슬라, 넷케이, Ai, Tesla, 미국주식,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30