【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

我花了 14 个小时,终于找到了长春长生们究竟卖到了哪里去

  • 2019-10-30
  • 本文字数:2881 字

    阅读完需:约 9 分钟

我花了14个小时,终于找到了长春长生们究竟卖到了哪里去

需要说明的是这次数据是涵盖所有的疫苗数据,并不是针对此次问题疫苗定向搜集的数据,所有数据皆来自于政府相关网站的公开数据。

数据采集源

因为有一些数据实在太难找了,只能来看一下近两年的数据,并且不考虑疫苗增补名单数据(太零碎了)。


所以这次整理的数据并不完善,所以把所有搜集到的数据全部同步到了 GitHub,有需要可以自取或者提 issue 和 pr。


因为时间跨度较大,所以没有把批次的信息纳入本次的统计范围。本文主要从技术层面搜集了此次问题疫苗事件相关企业生产的各类疫苗在各省份的销售情况。

采集关键词

  • 省名 第二类疫苗 采购

  • 省名 第二类疫苗 公示

  • 省名 第二类疫苗 产品及价格

  • 省名 第二类疫苗 供应商

  • 省名 第二类疫苗 中标目录

  • 省名 第二类疫苗 参考价

  • 省名 第二类疫苗 入围结果


采集结果整理如下


  • 北京市,来源:北京市 2018-2019 年免疫规划用第二类疫苗采购项目

  • 天津市,来源:天津市 2018-2020 年第二类疫苗集中采购项目拟中标/拟中选结果

  • 上海市,来源:2018 年度上海市第二类疫苗集团采购项目中标目录

  • 重庆市,来源:重庆市第二类疫苗供应商入围采购-采购结果预公示

  • 河北省,来源:河北省疾病预防控制中心 2018 年度第二类疫苗省级集中采购项目中标公告

  • 山西省,来源:2018 年度山西省第二类疫苗集中采购入围企业产品及价格

  • 辽宁省,来源:辽宁省第二类疫苗平台招标采购公告

  • 吉林省,来源:2017 年度吉林省第二类疫苗集中采购企业产品议价结果名单

  • 黑龙江省,来源:黑龙江省 2018 年第二类疫苗挂网采购中标企业产品及价格审核结果

  • 江苏省,来源:江苏省第二类疫苗集中采购中标产品

  • 浙江省,来源:浙江省 2018 年第二类疫苗中标目录

  • 安徽省,来源:安徽省 2018 年第二类疫苗集中采购目录

  • 福建省,来源:福建省 2018 年第二类疫苗集中采购目录_湄洲岛

  • 江西省,来源:1228 江西省 2018 年度第二类疫苗入围品种目录

  • 山东省,「找不到」

  • 河南省,来源:2017 年河南省二类疫苗供应商入围资格采购项目中标结果公告

  • 湖北省,来源:2017 年湖北省第二类疫苗集中采购成交产品

  • 湖南省,来源:湖南省第二类疫苗集中采购文件

  • 广东省,来源:2018 年度广东省第二类疫苗成交品种目录

  • 海南省,来源:海南省第二类疫苗品种目录(第一批)

  • 四川省,来源:2017 年度第二类疫苗挂网阳光采购结果

  • 贵州省,来源:贵州省第二类疫苗集中采购报价解密结果

  • 云南省,来源:云南省疾病预防控制中心二类疫苗公开招标入围项目入围公告

  • 陕西省,来源:陕西省 2018 年二类疫苗集中采购项目入围供应商磋商结果

  • 甘肃省,来源:甘肃省第二类疫苗供应资格采购项目中标公示

  • 青海省,来源:所有的第二类的价格信息全部转到:223.220.250.135:8038 无法查看

  • 台湾省,暂无

  • 内蒙古自治区,2018 年内蒙古自治区第二类疫苗集中采购入围企业产品及价格

  • 广西壮族自治区,2017 年度广西壮族自治区第二类疫苗直接挂网采购拟入围产品目录(电子版)

  • 西藏自治区,实在找不到

  • 宁夏回族自治区,2016 年宁夏回族自治区第二类疫苗公开招标预中标结果

  • 新疆维吾尔自治区,《自治区 2017 年第二类疫苗入围品种及价格目录》20170828.xls

  • 香港特别行政区,暂无

  • 澳门特别行政区,暂无


综上,除去港澳台 ,山东,青海以及西藏以外,只搜集到了 28 个省级行政区的二类疫苗数据公示情况。


单单是检索,下载的过程,就花了 7 个多小时,主要遇到了一些问题:


  • 某些网站需要注册登录才可以查看

  • 有些网站缺乏维护被挂了黑链

  • 搜索框有,但是实际并不能搜索

  • 有些只有图片,没有文字

  • 有些只在纯公告但无具体数据

  • 找不到信息的有

  • 山东省,只看到新闻说建了可追溯的展示平台,但本次暂未找到

  • 青海省,所有的第二类的价格信息需要账号登录进相关系统才能访问

  • 西藏,暂时没能搜索到相关数据


如图,最终获取到 28 个省份的数据,(图中漏掉了河北)。



*

数据整理

由于本人不是专业的医学行业人士,所以统一把数据整理成以下的 csv 格式。


通用名,来源,生产企业,申报企业,省,中标年份


name,src,create_company,report_company,prov,year


各项含义如下:


  • 通用名 :药名 -> name

  • 来源:国产/进口 -> src

  • 生产企业 -> create_company

  • 申报企业:如果为空再填充为生产企业 -> report_company

  • 省 -> prov

  • 中标年份 -> year


期间因为整理非 XLS 的文件消耗了大量的时间,暂时只能先把成型的数据集提取出来。



目前处理结果如下:


  • 数据标准 csv(14)

  • 吉林省,四川省,天津市,宁夏回族自治区,安徽省,山西省,广东省,新疆维吾尔自治区,江苏省,江西省,海南省,贵州省,辽宁省,黑龙江省,

  • 等待整理的数据(13)

  • 上海市,云南省,内蒙古,北京市,广西省,河南省,浙江省,湖北省,湖南省,甘肃省,福建省,重庆市,陕西省,


如图所示



  • 亮绿色是容易获取的数据

  • 暗绿色的可以获取的数据

  • 黑色的是没有获取到数据

数据分析

直接采用 pandas+echart 进行处理,首先把所有的 csv 整合,共有 1529 条数据,对所有的生成企业进行统计分析:


count    167.000000mean       9.143713std       15.839281min        1.00000025%        1.00000050%        3.00000075%        9.000000max       98.000000
复制代码


共 167 个厂家,其中中位数是 3,最高是 98,很明显这是一个偏态分布。 顺手看一下箱线图:



也就是说,绝大多数的药,都由大厂生产。我们输出前 10 个看看,长春长生位列第 2。



我们再来看看各个省份中,长春长生等占据的百分比


[{'name': '天津', 'value': 14.0625}, {'name': '辽宁', 'value': 17.647058823529413}, {'name': '黑龙江', 'value': 13.274336283185843}, {'name': '安徽', 'value': 9.75609756097561}, {'name': '新疆', 'value': 16.94915254237288}, {'name': '江苏', 'value': 14.563106796116504}, {'name': '江西', 'value': 12.179487179487179}, {'name': '山西', 'value': 16.52173913043478}, {'name': '吉林', 'value': 17.857142857142858}, {'name': '贵州', 'value': 14.17910447761194}, {'name': '广东', 'value': 13.445378151260504}, {'name': '四川', 'value': 16.93548387096774}, {'name': '宁夏', 'value': 17.5}, {'name': '海南', 'value': 14.285714285714285}]
复制代码


长春长生等在 14 个有数据的省份供应商中均占有一席之地:


  • 亮红色 接近 20%

  • 暗红色 接近 10%

  • 黑色的是没有获取到数据



对比下从官网下载的公司销售策略图



做到这里已经到了晚上 11 点,从早上 9 点做到现在,花了整整 14 小时,才将将整理了一半的省份,所以目前的数据并不完整,仅供参考,后面空了可能会继续整理更新到 Github 上。

后记

除了在朋友圈和微博刷屏表达我们的愤怒,或许我们还能做点什么,这也是我的出发点。最初的文章里面有些措辞不是太中性,抱歉,本只想在自己能力范围内做一点事情。


如果说有什么建议的话,希望相关部门在数据公示方面后续能继续加强吧。


本文首发于个人的公众号和 v2ex,事先也没想到会有这么多人关注。在这边重新编辑一下,去掉了原先前言中对此次疫苗事件背景的描述及部分不严谨的措辞。全文的观点从技术讨论出发,尽量客观中立,观点及行为为员工自发,不代表本人所在公司及团队。


本文转载自公众号云加社区(ID:QcloudCommunity)。


原文链接:


https://mp.weixin.qq.com/s/lnHA5kRsc9oHPDiY6LEm5A


2019-10-30 11:42567

评论

发布
暂无评论
发现更多内容

TiDB在科捷物流神州金库核心系统的应用与实践

TiDB 社区干货传送门

迁移 实践案例 HTAP 场景实践 OLTP 场景实践

OneFlow源码解析:自动微分机制

OneFlow

人工智能 深度学习 框架学习

【11.25-12.02】写作社区优秀技术博文回顾

InfoQ写作社区官方

热门活动

龙蜥社区 11 月运营大事件回顾

OpenAnolis小助手

活动 生态 龙蜥社区 11月 运营月报

HA高可用软件大致有哪些?大众用的哪款?

行云管家

高可用 ha 高可用软件

火山引擎DataTester揭秘:字节如何用A/B测试,解决增长问题的?

字节跳动数据平台

大数据 AB testing实战 12 月 PK 榜

国内主流商业智能BI工具剖析

流量猫猫头

大数据

云原生应用的最小特权原则

HummerCloud

k8s rbac 云原生安全

前端培训学习程序员如何提高解决问题的能力

小谷哥

手把手教你成为荣耀开发者:账户结算操作指南

荣耀开发者服务平台

android 开发者 手机 荣耀 honor

架构实战营模块1第1课 - 什么是架构,你理解对了么

净意

架构实战营

直播预告|PostgreSQL 技术内幕(四)执行引擎之Portal

酷克数据HashData

一张「有想法」的表单,玩出线上填表新花样

爱科技的水月

编译器优化丨Cache优化

华为云开发者联盟

后端 开发 华为云 12 月 PK 榜

前端培训没有基础应该怎么学习

小谷哥

奇点云DataSimba R4.5发布关键更新,做到“可大可小可观测”

奇点云

React 之元素与组件的区别

冴羽

JavaScript react.js 前端 前端框架 React

技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

StarRocks

#数据库

解读数仓中的数据对象及相关关系

华为云开发者联盟

数据库 后端 华为云 数据对象 12 月 PK 榜

三翼鸟,用两年开启下一个十年

脑极体

java培训怎么学习才好?

小谷哥

别再被小程序全页变灰给坑了

FE情报局

小程序 前端

在一次又一次的失败中,我总结了这份万字的《MySQL性能调优笔记》

钟奕礼

Java 程序员 java面试 java编程

【JUC】交换器Exchanger详解

JAVA旭阳

Java JUC

堡垒机可以试用吗?哪款堡垒机可以?咨询电话多少?

行云管家

网络安全 信息安全 数据安全 堡垒机

更改 HIVE 表字段数据类型有哪些注意事项?

明哥的IT随笔

hadoop hive

大数据培训程序员工作前景如何

小谷哥

大数据培训学习程序员还好找吗

小谷哥

白嫖GitHub Pages,轻松搭建个人博客

LigaAI

Hexo GitHub Pages 个人博客 个人网站 12 月 PK 榜

App 长登录思考与实现part2

石君

App 信息安全 认证

云小课|基于华为云WAF的日志运维分析,构筑设备安全的城墙

华为云开发者联盟

后端 华为云 waf 12 月 PK 榜

我花了14个小时,终于找到了长春长生们究竟卖到了哪里去_文化 & 方法_云加社区_InfoQ精选文章