문장을 토큰화할 때 개인이 만들 수도 있지만 보통 우리는 sklearn, nltk를 사용한다. 이 때 제목과도 같은 에러는 맞닥뜨릴 수 있다.
이에 대한 해답은 아래 링크를 통해 해결할 수 있다.
답은 오히려 간단한 것이 우리가 fit_transform에 넣는 입력값이 string이었기 때문에 생긴 문제이다.
때문에 input string 대신 list로 넣어주기만 하면 간단히 해결된다.
input = [input]
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vectorizer.fit_transform([string]).toarray()
이렇게 하면 문제 해결!