在这个问题陈述中,将通过提供名字来训练分类器以找到性别(男性或女性)。 我们需要使用启发式构造特征向量并训练分类器。这里使用scikit-learn软件包中的标签数据。 以下是构建性别查找器的Python代码 -

导入必要的软件包 -

import random

from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
from nltk.corpus import names
现在需要从输入字中提取最后的N个字母。 这些字母将作为功能 -
def extract_features(word, N = 2):
last_n_letters = word[-N:]
return {'feature': last_n_letters.lower()} if __name__=='__main__':
 

使用NLTK中提供的标签名称(男性和女性)创建培训数据 -

male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list) random.seed(5)
random.shuffle(data)
 

现在,测试数据将被创建如下 -

namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']
 

使用以下代码定义用于列车和测试的样本数 -

train_sample = int(0.8 * len(data))
 

现在,需要迭代不同的长度,以便可以比较精度 -

for i in range(1, 6):
print('\nNumber of end letters:', i)
features = [(extract_features(n, i), gender) for (n, gender) in data]
train_data, test_data = features[:train_sample],
features[train_sample:]
classifier = NaiveBayesClassifier.train(train_data)
 

分类器的准确度可以计算如下 -

accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)
print('Accuracy = ' + str(accuracy_classifier) + '%')
 

现在,可以预测输出结果 -

for name in namesInput:
print(name, '==>', classifier.classify(extract_features(name, i))
 

上述程序将生成以下输出 -

Number of end letters: 1
Accuracy = 74.7%
Rajesh -> female
Gaurav -> male
Swati -> female
Shubha -> female Number of end letters: 2
Accuracy = 78.79%
Rajesh -> male
Gaurav -> male
Swati -> female
Shubha -> female Number of end letters: 3
Accuracy = 77.22%
Rajesh -> male
Gaurav -> female
Swati -> female
Shubha -> female Number of end letters: 4
Accuracy = 69.98%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female Number of end letters: 5
Accuracy = 64.63%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female
在上面的输出中可以看到,结束字母的最大数量的准确性是两个,并且随着结束字母数量的增加而减少。

完整代码

import random

from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
from nltk.corpus import names def extract_features(word, N=2):
last_n_letters = word[-N:]
return {'feature': last_n_letters.lower()} if __name__ == '__main__': male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list) random.seed(5)
random.shuffle(data)
namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']
train_sample = int(0.8 * len(data)) for i in range(1, 6):
print('\nNumber of end letters:', i)
features = [(extract_features(n, i), gender) for (n, gender) in data]
train_data, test_data = features[:train_sample], features[train_sample:] classifier = NaiveBayesClassifier.train(train_data) accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)
print('Accuracy = ' + str(accuracy_classifier) + '%') for name in namesInput:
print(name, '==>', classifier.classify(extract_features(name, i)))

最新文章

  1. 【Win 10 应用开发】透视效果
  2. MFC注册窗口类以及FindWindow按窗口类名查询
  3. git pull push 不用输入用户名和密码的方法
  4. java 时间操作
  5. Linux下的压缩解压缩命令详解
  6. C++文本的读取和写入
  7. 2016-1-8 Quartz框架的学习,多个气球上升的小动画
  8. EDM(邮件营销)
  9. JavaSE中Map框架学习笔记
  10. Securing Spring Cloud Microservices With OAuth2
  11. 使用EHPC实现“完美并行”的高效批处理方案
  12. FCN网络
  13. Windows平台下结合 tortoiseSVN 和 VisualSVN Server 搭建SVN服务器并实现 web 站点同步
  14. Get Random number
  15. Delphi7 在Windows 7上无法打开Help选项下帮助文档
  16. javascript:针对yyyy-MM-dd hh:mm:ss格式的毫秒转换.
  17. 基于 Python 官方 GitHub 构建 Python 文档
  18. 20145234黄斐《网络对抗技术》PC平台逆向破解
  19. PHP–图像XX因其本身有错无法显示
  20. C语言学习之指针

热门文章

  1. eventlet 模块搭建 WEB 服务器
  2. hyper-v显示分辨率如何自动调整
  3. Excel自动语音点名-视频教学
  4. [oracle/java/sql]用于上十万批量数据插入Oracle表的Java程序
  5. Win10登陆界面卡住,进去后无法打开网络相关的设置,谷歌浏览器无法上网
  6. ZXing生成二维码、读取二维码
  7. 在 Python 中使用定时器
  8. Vmvare v12下搭建Ubuntu操作系统-18.04-desktop-amd64.iso镜像环境
  9. ETF计算公式:IOPV
  10. Centos7安装部署Rabbitmq教程