NotionAIに厳密な文字数カウントをさせてみる
NotionAIを気軽に使ってみるアドベントカレンダーの10日目です。やや気軽ではなくなってきました。NotionAIによる出力検証の厄介さが原因にあります。
DevIO用原稿を作成しているデータベースにて、AIプロパティで文字数をカウントさせていますが、どうみても一致しないケースがあります。サポートに問い合わせる程のものでもないと思い、AIの知識に質問してみました。
文字数のカウント法則
文字数を適切にカウントできますか?
はい、NotionAIはテキストの文字数を正確にカウントすることができます。日本語、英語、その他の言語を含むテキストの文字数を数えることが可能です。ただし、以下の点に注意が必要です:
- スペースや改行も1文字としてカウントされます
- 絵文字は複数文字としてカウントされることがあります
- 特殊文字や記号も1文字としてカウントされます
文字数のカウントは、テキスト分析や文書作成の際に役立つ基本的な機能の一つとして提供されています。
これまで気がついていなかったものとして、以下2点が挙げられます。
- スペースや改行も1文字としてカウントされます
- 絵文字は複数文字としてカウントされることがあります
そして一番の問題は「日本語、英語、その他の言語を含むテキストの文字数」のカウントが本当に正確なのか、というところです。
実際に数えさせてみる
試しに適当なフレーズの文字数をカウントさせてみます。
以下の文章の文字数をカウントしてください
A Risky Bet
試しに「A Risky Bet」という文章の文字数を数えてみましょう。
この文章には以下の文字が含まれています:
- アルファベット: A, R, i, s, k, y, B, e, t (9文字)
- スペース: 2つ (2文字)
合計で11文字となります。
これは一般的な文字カウントの方法ですが、システムによって異なる場合があります。特にスペースのカウント方法は、システムごとに扱いが異なることがあります。
質問とカウント対象文字列間はカウントしないようです。次に日本語で試します。
以下の文章の文字数をカウントしてください
様々な文字列を 試す
この文章の文字数を数えてみましょう:
- 漢字: 様, 々, 文, 字, 列, 試 (6文字)
- ひらがな: な, を, す (3文字)
- スペース: 2つ (2文字)
合計で11文字となります。
この例でも、スペースを1文字としてカウントしています。全角スペースも半角スペースも同様に1文字としてカウントされます。
スペースのカウントが明らかにズレています。英語の場合は改行をカウントしていないのですが、日本語の場合は改行もカウントするようです。
言語混ざりを考慮して次のパターンをやってみます。
以下の文章の文字数をカウントしてください
様々な文字列を、言語別に試します
Let go!
この文章の文字数を数えてみましょう:
- 漢字: 様, 々, 文, 字, 列, 語, 別, 試 (8文字)
- ひらがな: な, を, し, ま, す (5文字)
- 記号: 、(1文字)
- アルファベット: L, e, t, g, o (5文字)
- 記号: ! (1文字)
- スペース: 3つ (3文字)
合計で23文字となります。
この例では、日本語とアルファベットが混在していますが、それぞれの文字を1文字としてカウントし、スペースと改行も含めています。
日本語の指示文とカウント対象の日本語文字列間の改行をスペースとみなし、更に日本語文字列と英語文字列間の改行もスペースとみなすということでしょう。
では途中に英語を挟みます。
以下の文章の文字数をカウントしてください
Let go!
様々な文字列を、言語別に試します
この文章の文字数を数えてみましょう:
- 漢字: 様, 々, 文, 字, 列, 語, 別, 試 (8文字)
- ひらがな: な, を, し, ま, す (5文字)
- 記号: 、(1文字)
- アルファベット: L, e, t, g, o (5文字)
- 記号: ! (1文字)
- スペース: 2つ (2文字)
- 改行: 2つ (2文字)
合計で24文字となります。
この例でも、スペースと改行を1文字としてカウントしています。言語が混在していても、各文字を1文字として扱います。
NotionAIは正常にカウントしていると述べていますが、スペース以外に初めて改行がカウントされました。そして、スペースには改行が含まれると推測していた法則が崩れました。
あとがき
今回のカウントを何度かパターン変えて試してみました。記事中に記載していないパターンも含めての結論として、NotionAIに対してスペースと改行のカウントを正確に指示できる方法が見当たりません。これまでの原稿目安の文字数が正直怪しい状況です。
ブラウザのアドオンにて文字数を数える拡張を試してみたところ、スペースと改行は区別しない状態でNotionAIとカウントが一致しているため、これらを区別しない要件でのカウントが出来ると無難かもしれません。