AI 공부 도전기

sklearn countvectorizer로 토큰화할 때 에러가 생길 때 해결법 ValueError: Iterable over raw text documents expected, string object received.

Python/pandas

2020. 6. 6. 21:04

문장을 토큰화할 때 개인이 만들 수도 있지만 보통 우리는 sklearn, nltk를 사용한다. 이 때 제목과도 같은 에러는 맞닥뜨릴 수 있다.

이에 대한 해답은 아래 링크를 통해 해결할 수 있다.

답은 오히려 간단한 것이 우리가 fit_transform에 넣는 입력값이 string이었기 때문에 생긴 문제이다.

때문에 input string 대신 list로 넣어주기만 하면 간단히 해결된다.

input = [input]

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

vectorizer.fit_transform([string]).toarray()

이렇게 하면 문제 해결!

'Python/pandas' 의 관련글

01-24 17:48