编程

Python列表推导(list comprehension)VS 生成器表达式(generator expression)

你知道以下语法之间的区别吗? [x for x in range(5)] (x for x in range(5)) tuple(range(5)) 本文将向您介绍这里的区别。 关于列表的5个事实 首先,对列表进行简短回顾(在其他编程语言中通常称为“数组”): 列表是一种可以表示为元素集合的数据。一个简单的列表如下所示:[0, 1, 2, 3, 4, 5] 列表将所有可能类型的数据和数据组合作为其元素: >>

  • yhblog
7 min read
编程

相对不常见,但非常有用的Python技巧

​交换变量值​将一列表中的所有元素拼接成字符串查找list中最高频率的值检查两个单词是否是字谜(组成的字母和对应数量一致)反转字符串反转列表转置2维数组链式比较链式函数调用复制列表Dictionary Get按值排序字典For Else将列表转换为逗号分隔的字符串合并字典list中的最小和最大索引从列表中删除重复项查看英文原文查看更多文章公众号:银河系1号联系邮箱:public@space-explore.com(未经同意,请勿转载)

  • yhblog
2 min read
AI

使用Gensim进行主题建模(二)

​在上一篇文章中,我们将使用Mallet版本的LDA算法对此模型进行改进,然后我们将重点介绍如何在给定任何大型文本语料库的情况下获得最佳主题数。16.构建LDA Mallet模型到目前为止,您已经看到了Gensim内置的LDA算法版本。然而,Mallet的版本通常会提供更高质量的主题。Gensim提供了一个包装器,用于在Gensim内部实现Mallet的LDA。您只需要下载 zip 文件,解压缩它并在解压缩的目录中提供mallet的路径。看看我在下面如何做到这一点。gensim.models.wrappers.LdaMallet# Download File: http://mallet.cs.umass.edu/dist/mallet-2.0.8.zipmallet_path

  • yhblog
8 min read
AI

使用Gensim进行主题建模(一)

主题建模是一种从大量文本中提取隐藏主题的技术。Latent Dirichlet Allocation(LDA)是一种流行的主题建模算法,在Python的Gensim包中具有出色的实现。然而,挑战在于如何提取清晰,隔离和有意义的高质量主题。这在很大程度上取决于文本预处理的质量以及找到最佳主题数量的策略。本教程试图解决这两个问题。内容1.简介2.先决条件 - 下载nltk停用词和spacy模型3.导入包4. LDA做什么?5.准备停用词6.导入新闻组数据7.删除电子邮件和换行符8.标记单词和清理文本9.创建Bigram和Trigram模型10.删除停用词,制作双字母组合词和词形变换11.创建所需的词典和语料库主题建模12.构建主题模型13.查看LDA模型中的主题14.计算模型复杂度和一致性得分15.可视化主题 -

  • yhblog
15 min read
编程

一份python实用”技巧“清单(按字母顺序)

Python是世界上最受欢迎,最流行的编程语言之一。这有很多原因:它很容易学习它是超级多用途的它有大量的模块和库作为数据科学家的我,每天使用Python是我内在工作的一部分。在这个过程中,我学会了一些有用的技巧和心得。在这里,我尝试以A~Z顺序共享其中一些。大多数这些“技巧”是我在日常工作中使用或偶然发现的事情。一些是我在浏览Python标准库文档时发现的。另外一些是通过PyPi搜索到的。但是,应该归功于它 - 我在awesome-python.com上发现了其中的四个或五个。这是数百个有趣的Python工具和模块的精选列表。这是值得浏览的灵感!all or anyPython是如此流行的编程语言的原因之一是因为具有可读性和表现力。人们经常开玩笑说Python是' 可执行的伪代码 '。但是当你可以编写这样的代码时,很难反驳:x = [True, True,

  • yhblog
12 min read
编程

ML云计算第2部分:将PyCharm连接到Paperspace

ML云计算第2部分:将PyCharm连接到Paperspace Bryan Pratte BlockedUnblockFollow关注3月28日 使用远程解释器设置PyCharm项目 尽管我喜欢终端,但我仍然非常相信GUI工具。我宁愿在日常开发工作流程中最小化任何命令行的暴露量。说实话,这是我对终端,SSH和本地主机的ML工作流状态最大的困惑之一。我看到许多人使用文本编辑器并使用命令行执行来运行他们的代码。移动开发者被Android Studio和XCode宠坏了,ML开发者应该拥有同样的奢侈品。 幸运的是,有一个可爱的python IDE叫做PyCharm。它基本上是XCode,但对于所有事情python,它恰好是所有事物的最常见的语言接口ML :)更大的好处是PyCharm具有远程连接到服务器并远程运行代码的内置功能。控制台,日志,调试器和绘图都可以正常工作。 第0步: 设置Paperspace机器: 如果您还没有完成设置Paperspace的第1部分,可以在此处找到它。 第1步: 下载并安装PyCharm Set:

  • yhblog
7 min read
技术

如何选择合适的NoSQL数据库

与传统的表格(或SQL)数据库相比,NoSQL数据库为软件开发人员和其他用户提供了更高的运行速度和更高的灵活性。NoSQL数据库使用的数据结构 - 键值对,宽列,图形或文档 - 与关系数据库使用的数据结构不同。因此,NoSQL数据库可以在数千台服务器上进行扩展,但有时会丢失数据一致性。但是,今天特别重要的是,NoSQL数据库特别适合处理大量分布式数据,这使它们成为大数据和分析项目的理想选择。如何选择NoSQL数据库:关键因素市场上有二十多个开源和商业NoSQL数据库,您如何选择合适的产品或云服务?IDC研究副总裁Carl Olofson表示,一个重要因素是了解您想要提供数据的目的。NoSQL数据库的架构和功能各不相同,因此您需要选择最适合所需任务的类型:通常,键值存储最适合应用程序中的多个进程或微服务持久共享数据。如果您计划对邻近度计算,欺诈检测或关联结构评估进行深层关系分析,则图形数据库可能是更好的选择。如果您需要非常快速地以大量数据收集数据以进行分析,请查看广泛的列存储。

  • yhblog
9 min read
技术

2019年7大新技术决议

2019年7大新技术决议 对于硅谷来说,2018年是一个不好的,非常糟糕的一年。这是科技巨头明年应该承诺做的一些事情,以避免重演。 ![转到麻省理工学院技术评论的简介](./ 2019年大科技新年决议 - 麻省理工学院技术评论 - Medium_files / 1_fRTAqrjmS6BLG1L49aq-dg.jpeg) 麻省理工学院技术评论 BlockedUnblockFollow继2018年12月31日 ![](./ 2019年新技术的大技术决议 - 麻省理工学院技术评论 - Medium_files / 1_mhCh1EGYhIIgbS6ksbRBxg.jpeg)![](。/ - 2019年大科技新年决议 - 麻省理工学院技术评论 - Medium_

  • yhblog
7 min read
技术

你不了解你的健康数据会让你生病

你不了解你的健康数据会让你生病 你不能选择摆脱饥饿的阴影系统来了解你的健康状况 - 而且在不知情的情况下,你可能已选择分享更多 Fast Company BlockedUnblockFollow发布于3月22日 "HIPAA存在很多漏洞:关于哪些信息实际受到保护,谁受到保护,以及您是否通过自己的同意放弃了这种保护。"图片来源:Andrii Panchyk / iStock / Getty Images Plus 由珍妮特比比 每当你在药房里洗牌时,每当你试着在那些笨拙的医生的办公椅上舒服一下时,每次你在网上滚动时都会对你的医疗账单有疑问,请花点时间想想你前面和后面的人。 很可能,至少有一个人受到数据分析巨头Optum的第三方监控,该公司由UnitedHealth Group,Inc。拥有。自1993年以来,

  • yhblog
14 min read
技术

未来冲击:谷歌智能城市内部

未来冲击:谷歌智能城市内部 随着隐私担忧的增加,计划在多伦多建立一个技术型的乌托邦正在获得动力 英国"金融时报"截止3月23日封锁 照片:Westend61 / Getty Imagesd 作者:Anna Nicolaou 以前的鱼类加工厂非常不起眼,起初,我的出租车司机正在加速过去。当我们在街对面空旷的停车场停下来时,他耸了耸肩。在多伦多郊区占地12英亩的一片被遗忘的海滨土地上,坐落着一座宽敞的蓝色建筑,几乎看不到工厂和高速公路。 现在这片土地被忽视了,但如果谷歌有所作为,那将会改变。这是科技公司希望建设未来城市的网站。 该项目的主要目标之一是解决无处不在的城市问题,例如拥堵,低效率的服务和负担不起的住房。 2月份发布了以未来派大型木结构建筑为特色的说明性计划。这些建筑由Thomas

  • yhblog
13 min read
技术

Google Spanner架构上的分布式PostgreSQL - 存储层

Google Spanner架构上的分布式PostgreSQL ---存储层 Sid Choudhury BlockedUnblockFollow关注3月18日 在这篇文章中,我们将深入探讨YugaByte DB的分布式存储层架构,该架构受Google Spanner设计的启发。我们后续的文章介绍了查询层 ,其中存储层将PostgreSQL作为SQL API。最后,请留意后续帖子,重点介绍我们在设计YugaByte DB的SQL功能时学到的经验教训。 逻辑架构 YugaByte DB由两个逻辑层组成 ,每个层都是在多个节点(或Kubernetes的情况下为pod)上运行的分布式服务。 YugaByte查询层(YQL)构成YugaByte DB的上层,应用程序使用客户端驱动程序进行交互。 YQL处理API特定方面(例如查询编译,数据类型表示,内置函数等)

  • yhblog
17 min read
技术

我从Python到Go的旅程

我从Python到Go的旅程 Elad Leev BlockedUnblockFollow关注3月19日 我喜欢Python。在过去的五年里,它一直是我的首选语言。 Python非常友好且易于学习,同时仍然保持超级有效。 您几乎可以使用它 - 从创建简单的脚本和Web开发到数据可视化和机器学习。 但Go的成熟度,强大的用户群以及越来越多的公司在成功进行基准测试后决定转向Go的事实让我更加广泛地阅读了Go,并思考如何将其添加到我的工具集并将其好处应用到我的工作中。 但是这篇文章不会谈论哪种编程语言更好--Pix或Go,在线有很多关于这个主题的帖子和比较,而且在我看来它确实取决于用例。 在这篇文章中,我将告诉你我从Python到Go的旅程,并为你提供一些技巧,让你了解一些帮助我在这次旅程中取得成功的资源,然后现场讲述这个故事。 Egon Elbre的 GIF 我遇到的主要差异 当然,作为第一步,我浏览了令人惊叹的官方" Tour Of

  • yhblog
8 min read
技术

初学者学习前端开发的方法

很高兴知道你正在寻找最有趣和最严格的职业之一。前端开发满足创造和颜色。许多框架和技术可用于前端开发。选择理想的可能很困难。学习前端开发比其他更容易,更有趣。许多技术可用于在线学习前端开发。但是,通过追求未来的需求技巧,您可以最大限度地提高您的市场价值! 技能 科技中的一切都始于技能。交互式网页需要一些技巧来设计它们。许多人知道如何设计前端,但有些人因为他们无与伦比的技能而使其变得特别。 所以,在这篇文章中,我会建议你最好的方式和需求技巧,每个人都需要开始学习前端: 首先,从基础开始 一些基础技能对于进入前端开发非常重要: HTML 5 / CSS 3 HTML 5代表"超文本标记语言"。它使用标签和元素描述网站的结构。用于对网站设计进行基本的重大更改。

  • yhblog
4 min read
技术

非官方Python实现 - Python

Python Implementations.jpg Python是一种解释性的,交互式的,面向对象的编程语言。它还可用作需要可编程接口的应用程序的扩展语言。最后,Python是可移植的:它可以在许多Unix变种上运行,在Mac上运行,在Windows 2000和更高版本上运行。 Python实现 Python的"实现"应该被理解为一种程序或环境,它为用Python语言编写的程序的执行提供支持,如CPython参考实现所表示的。 已经有几个不同的软件包提供了我们都认为是Python的东西,尽管其中一些更像是某些现有实现的分布或变体,而不是一种全新的语言实现。 IronPython的 Jython的 Transcrypt IronPython的 用C#编写的.NET和Mono的开源实现,在Apache License

  • yhblog
5 min read
技术

专为实时而构建:使用Apache Kafka进行大数据消息传递 第2部分

在Apache Kafka简介的前半部分,您使用Kafka开发了几个小规模的生产者/消费者应用程序。从这些练习中,您应该熟悉Apache Kafka消息传递系统的基础知识。在下半部分,您将学习如何使用分区来分布负载并横向扩展应用程序,每天处理多达数百万条消息。您还将了解Kafka如何使用消息偏移来跟踪和管理复杂的消息处理,以及如何在消费者失败时保护您的Apache Kafka消息传递系统免于失败。我们将从第1部分开发用于发布 - 订阅和点对点用例的示例应用程序。Apache Kafka中的分区Kafka中的topic可以细分为分区。例如,在创建名为Demo的topic时,您可以将其配置为具有三个分区。服务器将创建三个日志文件,每个文件分区一个。当生产者向topic发布消息时,它将为该消息分配分区ID。然后,服务器将消息仅附加到该分区的日志文件中。如果您随后启动了两个消费者,则服务器可能会将分区1和2分配给第一个消费者,将分区3分配给第二个消费者。每个消费者只能从其分配的分区中读取。您可以在图1中看到为三个分区配置的Demo的topic。为了扩展这个场景,

  • yhblog
23 min read
技术

6种技术将使您成为理想的前端开发人员

世界各地对前端开发工程师有巨大需求。所以大多数学生都希望成为一名前端开发人员。尽管对前端开发人员的需求很大,但真正掌握市场需要的前端技能人员的不足,使有抱负的开发人员远离有前景的机会。 这些是您成为前端开发人员所需的主要技术/技能。 让我们从基本技能开始 如HTML 5 / CSS 3,Javascript,jQuery是前端开发的基础知识。这些技能是进入前端开发的第一步。Javascript用于在Web应用程序上创建和控制动态内容。Jquery用于加速Javascript任务。所有前端都从这些技能开始。 但仅有这些是还不能够设计出引人入胜网站的。如果您想找到工作,您应该根据最新需求和未来趋势进行升级。 Javascript框架 从这里开始,真正的开发开始,这些都以实际的工作列表着称。像netflix,flipkart,amazon,microsoft等等非常大的组织使用这些框架来提高效率,轻松访问和组织代码。Javascript框架有助于加速开发。Javascript框架对前端开发来说非常流行。 这些流行的框架具有预构建的脚本和功能,

  • yhblog
4 min read
技术

你应该知道的10种Python文件系统方法

使用os和shutil操作文件和文件夹你可以编写Python程序来与文件系统进行交互来做很酷的事情。怎么做并不总是非常清楚。本文是当前和有抱负的开发人员和数据科学家的指南。我们将重点介绍10个基本的os和shutil命令,以便您可以编写脚本来自动化与文件系统的交互。像文件系统一样文件系统有点像房子。假设您正在进行春季清洁,您需要将笔记本盒从一个房间移动到另一个房间。目录就像盒子。他们持有东西。这些盒子就像目录一样。他们持有东西。在这种情况下,笔记本。笔记本就像文件一样。您可以读取和写入它们。您可以将它们放在目录框中。Capiche?在本指南中,我们将介绍os和shutil模块中的方法。所述OS模块是用于与操作系统进行交互的主要Python模块。该shutil模块还包含了高层次的文件操作。出于某种原因,您使用操作系统创建目录,但移动并使用shutil复制它们。去搞清楚。😏。更新:于2019年2月16日增加的pathlib在Python 3.4中,pathlib模块被添加到标准库中以改进文件路径的使用,从3.6开始,

  • yhblog
10 min read
技术

Merge vs Rebase

git rebase命令经常被认为是Git巫术,初学者应该远离它,但它实际上可以让开发团队在使用时更加轻松。在本文中,我们将git rebase与相关git merge命令进行比较。概念首先要理解的是git rebase和git merge解决了同样的问题。这两个命令都旨在将更改从一个分支集成到另一个分支 - 它们只是以不同的方式进行。试想一下当你开始在专用分支中开发新功能时另一个团队成员以新提交更新master分支会发生什么。这会出现分叉历史记录,对于使用Git作为协作工具的任何人来说都应该很熟悉。1现在,我们来说说当master新提交与你正在开发的功能相关。要将新提交合并到你的feature分支中,你有两个选择:merge或rebase。Merge最简单的是将master分支合并到feature分支中:git checkout featuregit merge master或者,你可以简化为一行:git merge master feature这会在feature分支中创建一个新的“

  • yhblog
12 min read

Subscribe to 银河系技术日报

旨在发现全球技术深度好文,拒绝热点浮躁浅文,对于外文,受限于鄙人英语水平和效率,都采用AI机器翻译,如果觉得翻译不好,可以直接看原文。 希望对大家有启发帮助。