<wctype.h> -- 函数
阅读:0       作者:严长生

iswpunct() 判断一个宽字符是否是标点符号

int iswpunct (wint_t wc);

iswpunct() 函数用来检测一个宽字符是否是标点符号。

标点符号必须是图形字符(iswgraph() 返回“真”),但不能是字母,也不能是数字(iswalnum() 返回“假”)。

iswpunct() 是 ispunct()(位于<ctype.h>中)的宽字符版本:如果参数 wc 能够被 wctob() 转换为单个字节的形式,并且转换后的字符使用 ispunct() 检测返回“真”(非零值),那么 iswpunct() 也一定会将 wc 判定为标点符号。

参数

  • wc

    要检测的宽字符。它可以是一个有效的宽字符(被转换为 wint_t 类型),也可以是 WEOF(表示无效的宽字符)。

返回值

返回值为非零(真)表示wc是标点符号,返回值为零(假)表示wc不是标点符号。

实例

统计一个宽字符串中标点符号的个数。
  1. #include <stdio.h>
  2. #include <wchar.h>
  3. #include <wctype.h>
  4. int main ()
  5. {
  6. int i=0;
  7. int cx=0;
  8. wchar_t str[] = L"C,CPP,Java,Python!";
  9. while (str[i])
  10. {
  11. if (iswpunct(str[i])) cx++;
  12. i++;
  13. }
  14. wprintf (L"The sentence contains %d punctuation characters.\n", cx);
  15. return 0;
  16. }
运行结果:
he sentence contains 4 punctuation characters.

关于标点符号

一个宽字符是否是标点符号和程序的语言环境有关。C语言支持全球的语言系统,可以处理英文、中文、日文、韩文、德语、法语、拉丁文、希腊文等。

我们可以通过 setlocale() 函数进行地域设置,改变程序的语言环境,让程序使用 ASCII 以外的字符集,它们可能包含了更多的标点符号。

在默认的地域设置(默认为"C")中,C语言通常使用 ASCII 编码,此时,除了字母和十进制数字以外的所有图形字符都会被判定为标点符号;也就是说,是 iswgraph() 但不是 iswalnum() 的字符才是 ispunct() 的字符。

在其它地域设置中,程序可能会使用 GBK(简体中文)、BIG5(繁体中文)、Shift-JIS(日文)、Unicode(世界统一码) 等更加复杂的编码,它们包含了大量的标点符号,例如中文逗号、句号、省略号……等。但是,不管在哪种地域设置下,iswpunct() 都必须是 iswgraph(),但不能是 iswalnum()。

【实例】在简体中文环境下检测标点符号。
  1. #include <wchar.h>
  2. #include <wctype.h>
  3. #include <locale.h>
  4.  
  5. int main ()
  6. {
  7. int i=0;
  8. int cx=0;
  9. wchar_t str[] = L"C、CPP、Java、Python、Golang!";
  10. setlocale(LC_ALL, "zh_CN.UTF-8"); //设置为简体中文,使用 UTF-8 编码
  11. //在 Windows 下可以写作 setlocale(LC_ALL, ""); 或者 setlocale(LC_ALL, "chs");
  12. //在 Linux 下可以写作 setlocale(LC_ALL, ""); 或者 setlocale(LC_ALL, "zh_CN.UTF-8");
  13. //在 Mac OS 下可以写作 setlocale(LC_ALL, "zh_CN"); 或者 setlocale(LC_ALL, "zh_CN.UTF-8");
  14.  
  15. while (str[i])
  16. {
  17. if (iswpunct(str[i])) cx++;
  18. i++;
  19. }
  20. wprintf (L"The sentence contains %d punctuation characters.\n", cx);
  21. return 0;
  22. }
运行结果:
The sentence contains 5 punctuation characters.