아이공의 AI 공부 도전기

sklearn countvectorizer로 토큰화할 때 에러가 생길 때 해결법 ValueError: Iterable over raw text documents expected, string object received.


문장을 토큰화할 때 개인이 만들 수도 있지만 보통 우리는 sklearn, nltk를 사용한다. 이 때 제목과도 같은 에러는 맞닥뜨릴 수 있다.

이에 대한 해답은 아래 링크를 통해 해결할 수 있다.

답은 오히려 간단한 것이 우리가 fit_transform에 넣는 입력값이 string이었기 때문에 생긴 문제이다. 

때문에 input string 대신 list로 넣어주기만 하면 간단히 해결된다.


input = [input]


https://stackoverflow.com/questions/49806790/iterable-over-raw-text-documents-expected-string-object-received


from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

vectorizer.fit_transform([string]).toarray()


이렇게 하면 문제 해결!




공유하기

facebook twitter kakaoTalk kakaostory naver band
loading