ステミングとレンマ化の違いとは?自然言語処理における語形正規化の基礎と実践
自然言語処理では、文章をそのままモデルや検索システムへ入力すれば十分というわけではなく、目的に応じてテキストを整える前処理が重要になります。その中でも特に基礎でありながら、実務上の影響が大きいのが語形正規化です。英語を例にすると、run、runs、running、ran のように、同じ概念に関わる単語であっても、文法や時制、主語との一致によって表面形が変化します。人間にとってはこれらが近い意味を持つことは直感的に理解できますが、機械にとっては別々の文字列である以上、何もしなければ別のトークンとして扱われてしまいます。その結果、本来まとめて扱いたい概念が分散し、検索漏れや特徴量のばらつき、分類精度の不安定化につながることがあります。
EN
JP
KR
